Uploading checkpoint-98000 for xlm-r - lvs-latn

Browse files

Files changed (14) hide show

.gitattributes +1 -0
README.md +67 -0
config.json +34 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
scheduler.pt +3 -0
sentencepiece.bpe.model +3 -0
special_tokens_map.json +15 -0
tokenizer.json +3 -0
tokenizer_config.json +54 -0
trainer_state.json +3169 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,67 @@

+---
+library_name: transformers
+license: mit
+base_model: FacebookAI/xlm-roberta-base
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: lvs-Latn
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# lvs-Latn
+This model is a fine-tuned version of [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: nan
+- Accuracy: 0.8365
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- training_steps: 100000
+    ### Citation Information
+    If you use this model in your work, please cite the following paper. Additionally, if you require more details on training and performance, refer to the paper:
+    @misc{gurgurov2025smallmodelsbigimpact,
+        title={Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages},
+        author={Daniil Gurgurov and Ivan Vykopal and Josef van Genabith and Simon Ostermann},
+        year={2025},
+        eprint={2502.10140},
+        archivePrefix={arXiv},
+        primaryClass={cs.CL},
+        url={https://arxiv.org/abs/2502.10140},
+    }

config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "FacebookAI/xlm-roberta-base",
+  "adapters": {
+    "adapters": {},
+    "config_map": {},
+    "fusion_config_map": {},
+    "fusions": {}
+  },
+  "architectures": [
+    "XLMRobertaForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd831dbe95ed32fb4c07e28c0e341b519fe6e64e07a905a787d3876077baa09e
+size 1113205088

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:451e726db12f6e6fbae11c11f5c0933486ad7cddc4e9625bd348d3f707545247
+size 2226530490

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58b2470cf50b1d4e53de3757dc3879ecadef3eebeb7523188f3f284bf0db7a03
+size 14512

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fed968cd1ae77c0cf8f9dac366cb3e79d890622f59b24e3988eea5e64165962c
+size 14512

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3fd067b8f5b6dee2ca565b8ea5c9f00e6d80f59b5809618fff53eb072beb787
+size 1064

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
+size 5069051

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a56def25aa40facc030ea8b0b87f3688e4b3c39eb8b45d5702b3a1300fe2a20
+size 17082734

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3169 @@

+{
+  "best_metric": 0.8651660084724426,
+  "best_model_checkpoint": "./model_fine-tune/glot/xlm-r/lvs-Latn/checkpoint-98000",
+  "epoch": 9.5535192045233,
+  "eval_steps": 500,
+  "global_step": 98000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04874244492103724,
+      "grad_norm": 5.49888801574707,
+      "learning_rate": 9.95e-05,
+      "loss": 1.542,
+      "step": 500
+    },
+    {
+      "epoch": 0.04874244492103724,
+      "eval_accuracy": 0.7314449847229756,
+      "eval_loss": 1.6759803295135498,
+      "eval_runtime": 412.1515,
+      "eval_samples_per_second": 150.714,
+      "eval_steps_per_second": 4.712,
+      "step": 500
+    },
+    {
+      "epoch": 0.09748488984207448,
+      "grad_norm": 6.478686809539795,
+      "learning_rate": 9.900000000000001e-05,
+      "loss": 1.4892,
+      "step": 1000
+    },
+    {
+      "epoch": 0.09748488984207448,
+      "eval_accuracy": 0.7361168583960936,
+      "eval_loss": 1.5948923826217651,
+      "eval_runtime": 404.9613,
+      "eval_samples_per_second": 153.39,
+      "eval_steps_per_second": 4.796,
+      "step": 1000
+    },
+    {
+      "epoch": 0.14622733476311173,
+      "grad_norm": 4.809515476226807,
+      "learning_rate": 9.850000000000001e-05,
+      "loss": 1.4572,
+      "step": 1500
+    },
+    {
+      "epoch": 0.14622733476311173,
+      "eval_accuracy": 0.742282605428477,
+      "eval_loss": 1.5350223779678345,
+      "eval_runtime": 416.0878,
+      "eval_samples_per_second": 149.288,
+      "eval_steps_per_second": 4.667,
+      "step": 1500
+    },
+    {
+      "epoch": 0.19496977968414897,
+      "grad_norm": 4.836926460266113,
+      "learning_rate": 9.8e-05,
+      "loss": 1.4184,
+      "step": 2000
+    },
+    {
+      "epoch": 0.19496977968414897,
+      "eval_accuracy": 0.7447425901720343,
+      "eval_loss": 1.4902225732803345,
+      "eval_runtime": 416.3726,
+      "eval_samples_per_second": 149.186,
+      "eval_steps_per_second": 4.664,
+      "step": 2000
+    },
+    {
+      "epoch": 0.24371222460518618,
+      "grad_norm": 5.625064373016357,
+      "learning_rate": 9.75e-05,
+      "loss": 1.3971,
+      "step": 2500
+    },
+    {
+      "epoch": 0.24371222460518618,
+      "eval_accuracy": 0.7491213937548641,
+      "eval_loss": 1.470357060432434,
+      "eval_runtime": 415.6377,
+      "eval_samples_per_second": 149.45,
+      "eval_steps_per_second": 4.672,
+      "step": 2500
+    },
+    {
+      "epoch": 0.29245466952622345,
+      "grad_norm": 4.774477958679199,
+      "learning_rate": 9.7e-05,
+      "loss": 1.377,
+      "step": 3000
+    },
+    {
+      "epoch": 0.29245466952622345,
+      "eval_accuracy": 0.751029615792176,
+      "eval_loss": 1.4384983777999878,
+      "eval_runtime": 415.9349,
+      "eval_samples_per_second": 149.343,
+      "eval_steps_per_second": 4.669,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3411971144472607,
+      "grad_norm": 5.25926399230957,
+      "learning_rate": 9.65e-05,
+      "loss": 1.3586,
+      "step": 3500
+    },
+    {
+      "epoch": 0.3411971144472607,
+      "eval_accuracy": 0.7538155299545674,
+      "eval_loss": 1.4148088693618774,
+      "eval_runtime": 406.8693,
+      "eval_samples_per_second": 152.671,
+      "eval_steps_per_second": 4.773,
+      "step": 3500
+    },
+    {
+      "epoch": 0.38993955936829794,
+      "grad_norm": 6.997039794921875,
+      "learning_rate": 9.6e-05,
+      "loss": 1.3364,
+      "step": 4000
+    },
+    {
+      "epoch": 0.38993955936829794,
+      "eval_accuracy": 0.7563830000327777,
+      "eval_loss": 1.37319016456604,
+      "eval_runtime": 416.5936,
+      "eval_samples_per_second": 149.107,
+      "eval_steps_per_second": 4.662,
+      "step": 4000
+    },
+    {
+      "epoch": 0.4386820042893351,
+      "grad_norm": 5.220494747161865,
+      "learning_rate": 9.55e-05,
+      "loss": 1.3298,
+      "step": 4500
+    },
+    {
+      "epoch": 0.4386820042893351,
+      "eval_accuracy": 0.7592725706718406,
+      "eval_loss": 1.3646610975265503,
+      "eval_runtime": 406.1249,
+      "eval_samples_per_second": 152.951,
+      "eval_steps_per_second": 4.782,
+      "step": 4500
+    },
+    {
+      "epoch": 0.48742444921037237,
+      "grad_norm": 4.78454065322876,
+      "learning_rate": 9.5e-05,
+      "loss": 1.3013,
+      "step": 5000
+    },
+    {
+      "epoch": 0.48742444921037237,
+      "eval_accuracy": 0.7610639838712026,
+      "eval_loss": 1.347570776939392,
+      "eval_runtime": 405.9899,
+      "eval_samples_per_second": 153.001,
+      "eval_steps_per_second": 4.783,
+      "step": 5000
+    },
+    {
+      "epoch": 0.5361668941314096,
+      "grad_norm": 5.818552017211914,
+      "learning_rate": 9.449999999999999e-05,
+      "loss": 1.3015,
+      "step": 5500
+    },
+    {
+      "epoch": 0.5361668941314096,
+      "eval_accuracy": 0.7620598261338267,
+      "eval_loss": 1.3511470556259155,
+      "eval_runtime": 404.932,
+      "eval_samples_per_second": 153.401,
+      "eval_steps_per_second": 4.796,
+      "step": 5500
+    },
+    {
+      "epoch": 0.5849093390524469,
+      "grad_norm": 4.825132369995117,
+      "learning_rate": 9.4e-05,
+      "loss": 1.275,
+      "step": 6000
+    },
+    {
+      "epoch": 0.5849093390524469,
+      "eval_accuracy": 0.7646006262510697,
+      "eval_loss": 1.3294358253479004,
+      "eval_runtime": 416.996,
+      "eval_samples_per_second": 148.963,
+      "eval_steps_per_second": 4.657,
+      "step": 6000
+    },
+    {
+      "epoch": 0.6336517839734841,
+      "grad_norm": 4.281984806060791,
+      "learning_rate": 9.350000000000001e-05,
+      "loss": 1.2767,
+      "step": 6500
+    },
+    {
+      "epoch": 0.6336517839734841,
+      "eval_accuracy": 0.7639123003074906,
+      "eval_loss": 1.3210957050323486,
+      "eval_runtime": 416.2294,
+      "eval_samples_per_second": 149.237,
+      "eval_steps_per_second": 4.666,
+      "step": 6500
+    },
+    {
+      "epoch": 0.6823942288945214,
+      "grad_norm": 4.695993900299072,
+      "learning_rate": 9.300000000000001e-05,
+      "loss": 1.2587,
+      "step": 7000
+    },
+    {
+      "epoch": 0.6823942288945214,
+      "eval_accuracy": 0.7661378977535546,
+      "eval_loss": 1.3145350217819214,
+      "eval_runtime": 411.5116,
+      "eval_samples_per_second": 150.948,
+      "eval_steps_per_second": 4.719,
+      "step": 7000
+    },
+    {
+      "epoch": 0.7311366738155586,
+      "grad_norm": 4.380468368530273,
+      "learning_rate": 9.250000000000001e-05,
+      "loss": 1.2413,
+      "step": 7500
+    },
+    {
+      "epoch": 0.7311366738155586,
+      "eval_accuracy": 0.7678338508433707,
+      "eval_loss": 1.3006008863449097,
+      "eval_runtime": 405.5396,
+      "eval_samples_per_second": 153.171,
+      "eval_steps_per_second": 4.789,
+      "step": 7500
+    },
+    {
+      "epoch": 0.7798791187365959,
+      "grad_norm": 4.586111545562744,
+      "learning_rate": 9.200000000000001e-05,
+      "loss": 1.2439,
+      "step": 8000
+    },
+    {
+      "epoch": 0.7798791187365959,
+      "eval_accuracy": 0.7698155524324797,
+      "eval_loss": 1.3006173372268677,
+      "eval_runtime": 416.5011,
+      "eval_samples_per_second": 149.14,
+      "eval_steps_per_second": 4.663,
+      "step": 8000
+    },
+    {
+      "epoch": 0.8286215636576331,
+      "grad_norm": 4.449491024017334,
+      "learning_rate": 9.15e-05,
+      "loss": 1.2394,
+      "step": 8500
+    },
+    {
+      "epoch": 0.8286215636576331,
+      "eval_accuracy": 0.7712381365247952,
+      "eval_loss": 1.2807519435882568,
+      "eval_runtime": 406.4615,
+      "eval_samples_per_second": 152.824,
+      "eval_steps_per_second": 4.778,
+      "step": 8500
+    },
+    {
+      "epoch": 0.8773640085786703,
+      "grad_norm": 4.266624450683594,
+      "learning_rate": 9.1e-05,
+      "loss": 1.2314,
+      "step": 9000
+    },
+    {
+      "epoch": 0.8773640085786703,
+      "eval_accuracy": 0.7721473946396241,
+      "eval_loss": 1.2844055891036987,
+      "eval_runtime": 405.1662,
+      "eval_samples_per_second": 153.312,
+      "eval_steps_per_second": 4.793,
+      "step": 9000
+    },
+    {
+      "epoch": 0.9261064534997075,
+      "grad_norm": 3.9454383850097656,
+      "learning_rate": 9.05e-05,
+      "loss": 1.2235,
+      "step": 9500
+    },
+    {
+      "epoch": 0.9261064534997075,
+      "eval_accuracy": 0.7743032006713836,
+      "eval_loss": 1.2606672048568726,
+      "eval_runtime": 416.4441,
+      "eval_samples_per_second": 149.16,
+      "eval_steps_per_second": 4.663,
+      "step": 9500
+    },
+    {
+      "epoch": 0.9748488984207447,
+      "grad_norm": 4.444428443908691,
+      "learning_rate": 9e-05,
+      "loss": 1.2177,
+      "step": 10000
+    },
+    {
+      "epoch": 0.9748488984207447,
+      "eval_accuracy": 0.7739040185569158,
+      "eval_loss": 1.2562477588653564,
+      "eval_runtime": 417.8832,
+      "eval_samples_per_second": 148.647,
+      "eval_steps_per_second": 4.647,
+      "step": 10000
+    },
+    {
+      "epoch": 1.023591343341782,
+      "grad_norm": 3.7575981616973877,
+      "learning_rate": 8.950000000000001e-05,
+      "loss": 1.2069,
+      "step": 10500
+    },
+    {
+      "epoch": 1.023591343341782,
+      "eval_accuracy": 0.7760550010984028,
+      "eval_loss": 1.2498961687088013,
+      "eval_runtime": 405.9854,
+      "eval_samples_per_second": 153.003,
+      "eval_steps_per_second": 4.783,
+      "step": 10500
+    },
+    {
+      "epoch": 1.0723337882628192,
+      "grad_norm": 4.82220983505249,
+      "learning_rate": 8.900000000000001e-05,
+      "loss": 1.1901,
+      "step": 11000
+    },
+    {
+      "epoch": 1.0723337882628192,
+      "eval_accuracy": 0.7766217461325415,
+      "eval_loss": 1.2388906478881836,
+      "eval_runtime": 405.8717,
+      "eval_samples_per_second": 153.046,
+      "eval_steps_per_second": 4.785,
+      "step": 11000
+    },
+    {
+      "epoch": 1.1210762331838564,
+      "grad_norm": 4.685916900634766,
+      "learning_rate": 8.850000000000001e-05,
+      "loss": 1.1861,
+      "step": 11500
+    },
+    {
+      "epoch": 1.1210762331838564,
+      "eval_accuracy": 0.7772882734600404,
+      "eval_loss": 1.2301160097122192,
+      "eval_runtime": 416.4452,
+      "eval_samples_per_second": 149.16,
+      "eval_steps_per_second": 4.663,
+      "step": 11500
+    },
+    {
+      "epoch": 1.1698186781048938,
+      "grad_norm": 5.34528923034668,
+      "learning_rate": 8.800000000000001e-05,
+      "loss": 1.1817,
+      "step": 12000
+    },
+    {
+      "epoch": 1.1698186781048938,
+      "eval_accuracy": 0.7785483554561496,
+      "eval_loss": 1.235237717628479,
+      "eval_runtime": 406.0432,
+      "eval_samples_per_second": 152.981,
+      "eval_steps_per_second": 4.783,
+      "step": 12000
+    },
+    {
+      "epoch": 1.218561123025931,
+      "grad_norm": 5.657125473022461,
+      "learning_rate": 8.75e-05,
+      "loss": 1.171,
+      "step": 12500
+    },
+    {
+      "epoch": 1.218561123025931,
+      "eval_accuracy": 0.7794601307367932,
+      "eval_loss": 1.2307161092758179,
+      "eval_runtime": 404.5582,
+      "eval_samples_per_second": 153.543,
+      "eval_steps_per_second": 4.8,
+      "step": 12500
+    },
+    {
+      "epoch": 1.2673035679469682,
+      "grad_norm": 4.351173400878906,
+      "learning_rate": 8.7e-05,
+      "loss": 1.1627,
+      "step": 13000
+    },
+    {
+      "epoch": 1.2673035679469682,
+      "eval_accuracy": 0.7807187204409836,
+      "eval_loss": 1.2187020778656006,
+      "eval_runtime": 415.7588,
+      "eval_samples_per_second": 149.406,
+      "eval_steps_per_second": 4.671,
+      "step": 13000
+    },
+    {
+      "epoch": 1.3160460128680054,
+      "grad_norm": 3.8281147480010986,
+      "learning_rate": 8.65e-05,
+      "loss": 1.1649,
+      "step": 13500
+    },
+    {
+      "epoch": 1.3160460128680054,
+      "eval_accuracy": 0.7814787354583909,
+      "eval_loss": 1.2125664949417114,
+      "eval_runtime": 416.765,
+      "eval_samples_per_second": 149.046,
+      "eval_steps_per_second": 4.66,
+      "step": 13500
+    },
+    {
+      "epoch": 1.3647884577890426,
+      "grad_norm": 3.9933149814605713,
+      "learning_rate": 8.6e-05,
+      "loss": 1.1627,
+      "step": 14000
+    },
+    {
+      "epoch": 1.3647884577890426,
+      "eval_accuracy": 0.7817388124597489,
+      "eval_loss": 1.2068222761154175,
+      "eval_runtime": 406.9099,
+      "eval_samples_per_second": 152.655,
+      "eval_steps_per_second": 4.773,
+      "step": 14000
+    },
+    {
+      "epoch": 1.41353090271008,
+      "grad_norm": 4.470147609710693,
+      "learning_rate": 8.55e-05,
+      "loss": 1.1378,
+      "step": 14500
+    },
+    {
+      "epoch": 1.41353090271008,
+      "eval_accuracy": 0.7828488018378367,
+      "eval_loss": 1.1938220262527466,
+      "eval_runtime": 406.0802,
+      "eval_samples_per_second": 152.967,
+      "eval_steps_per_second": 4.782,
+      "step": 14500
+    },
+    {
+      "epoch": 1.4622733476311172,
+      "grad_norm": 4.2107977867126465,
+      "learning_rate": 8.5e-05,
+      "loss": 1.1476,
+      "step": 15000
+    },
+    {
+      "epoch": 1.4622733476311172,
+      "eval_accuracy": 0.7845405728249568,
+      "eval_loss": 1.1901649236679077,
+      "eval_runtime": 406.9716,
+      "eval_samples_per_second": 152.632,
+      "eval_steps_per_second": 4.772,
+      "step": 15000
+    },
+    {
+      "epoch": 1.5110157925521546,
+      "grad_norm": 3.608473300933838,
+      "learning_rate": 8.450000000000001e-05,
+      "loss": 1.1363,
+      "step": 15500
+    },
+    {
+      "epoch": 1.5110157925521546,
+      "eval_accuracy": 0.7837757811554797,
+      "eval_loss": 1.1860324144363403,
+      "eval_runtime": 407.0867,
+      "eval_samples_per_second": 152.589,
+      "eval_steps_per_second": 4.77,
+      "step": 15500
+    },
+    {
+      "epoch": 1.5597582374731918,
+      "grad_norm": 4.442079067230225,
+      "learning_rate": 8.4e-05,
+      "loss": 1.1429,
+      "step": 16000
+    },
+    {
+      "epoch": 1.5597582374731918,
+      "eval_accuracy": 0.7845283762127719,
+      "eval_loss": 1.182504653930664,
+      "eval_runtime": 404.9789,
+      "eval_samples_per_second": 153.383,
+      "eval_steps_per_second": 4.795,
+      "step": 16000
+    },
+    {
+      "epoch": 1.608500682394229,
+      "grad_norm": 5.191744804382324,
+      "learning_rate": 8.35e-05,
+      "loss": 1.1351,
+      "step": 16500
+    },
+    {
+      "epoch": 1.608500682394229,
+      "eval_accuracy": 0.7856157559268981,
+      "eval_loss": 1.1625466346740723,
+      "eval_runtime": 416.36,
+      "eval_samples_per_second": 149.191,
+      "eval_steps_per_second": 4.664,
+      "step": 16500
+    },
+    {
+      "epoch": 1.6572431273152661,
+      "grad_norm": 3.691304922103882,
+      "learning_rate": 8.3e-05,
+      "loss": 1.1215,
+      "step": 17000
+    },
+    {
+      "epoch": 1.6572431273152661,
+      "eval_accuracy": 0.7858090227903097,
+      "eval_loss": 1.1740021705627441,
+      "eval_runtime": 405.1783,
+      "eval_samples_per_second": 153.308,
+      "eval_steps_per_second": 4.793,
+      "step": 17000
+    },
+    {
+      "epoch": 1.7059855722363033,
+      "grad_norm": 3.727795362472534,
+      "learning_rate": 8.25e-05,
+      "loss": 1.1254,
+      "step": 17500
+    },
+    {
+      "epoch": 1.7059855722363033,
+      "eval_accuracy": 0.7880051408492428,
+      "eval_loss": 1.1576285362243652,
+      "eval_runtime": 404.8472,
+      "eval_samples_per_second": 153.433,
+      "eval_steps_per_second": 4.797,
+      "step": 17500
+    },
+    {
+      "epoch": 1.7547280171573405,
+      "grad_norm": 4.758922100067139,
+      "learning_rate": 8.2e-05,
+      "loss": 1.1302,
+      "step": 18000
+    },
+    {
+      "epoch": 1.7547280171573405,
+      "eval_accuracy": 0.7874455488255201,
+      "eval_loss": 1.1678783893585205,
+      "eval_runtime": 404.8165,
+      "eval_samples_per_second": 153.445,
+      "eval_steps_per_second": 4.797,
+      "step": 18000
+    },
+    {
+      "epoch": 1.8034704620783777,
+      "grad_norm": 3.915757417678833,
+      "learning_rate": 8.15e-05,
+      "loss": 1.1137,
+      "step": 18500
+    },
+    {
+      "epoch": 1.8034704620783777,
+      "eval_accuracy": 0.7881269778283002,
+      "eval_loss": 1.1509817838668823,
+      "eval_runtime": 405.6793,
+      "eval_samples_per_second": 153.118,
+      "eval_steps_per_second": 4.787,
+      "step": 18500
+    },
+    {
+      "epoch": 1.852212906999415,
+      "grad_norm": 4.390922546386719,
+      "learning_rate": 8.1e-05,
+      "loss": 1.1161,
+      "step": 19000
+    },
+    {
+      "epoch": 1.852212906999415,
+      "eval_accuracy": 0.790121277336312,
+      "eval_loss": 1.1375824213027954,
+      "eval_runtime": 405.7037,
+      "eval_samples_per_second": 153.109,
+      "eval_steps_per_second": 4.787,
+      "step": 19000
+    },
+    {
+      "epoch": 1.9009553519204523,
+      "grad_norm": 3.9364380836486816,
+      "learning_rate": 8.05e-05,
+      "loss": 1.1013,
+      "step": 19500
+    },
+    {
+      "epoch": 1.9009553519204523,
+      "eval_accuracy": 0.7908922207777267,
+      "eval_loss": 1.1409724950790405,
+      "eval_runtime": 412.4408,
+      "eval_samples_per_second": 150.608,
+      "eval_steps_per_second": 4.709,
+      "step": 19500
+    },
+    {
+      "epoch": 1.9496977968414897,
+      "grad_norm": 4.358945846557617,
+      "learning_rate": 8e-05,
+      "loss": 1.1176,
+      "step": 20000
+    },
+    {
+      "epoch": 1.9496977968414897,
+      "eval_accuracy": 0.7898279761421843,
+      "eval_loss": 1.1488791704177856,
+      "eval_runtime": 404.5288,
+      "eval_samples_per_second": 153.554,
+      "eval_steps_per_second": 4.801,
+      "step": 20000
+    },
+    {
+      "epoch": 1.9984402417625269,
+      "grad_norm": 3.865518569946289,
+      "learning_rate": 7.950000000000001e-05,
+      "loss": 1.1046,
+      "step": 20500
+    },
+    {
+      "epoch": 1.9984402417625269,
+      "eval_accuracy": 0.7907846225745591,
+      "eval_loss": 1.1414114236831665,
+      "eval_runtime": 417.3398,
+      "eval_samples_per_second": 148.84,
+      "eval_steps_per_second": 4.653,
+      "step": 20500
+    },
+    {
+      "epoch": 2.047182686683564,
+      "grad_norm": 4.270514488220215,
+      "learning_rate": 7.900000000000001e-05,
+      "loss": 1.0834,
+      "step": 21000
+    },
+    {
+      "epoch": 2.047182686683564,
+      "eval_accuracy": 0.7908569503746256,
+      "eval_loss": NaN,
+      "eval_runtime": 417.0997,
+      "eval_samples_per_second": 148.926,
+      "eval_steps_per_second": 4.656,
+      "step": 21000
+    },
+    {
+      "epoch": 2.0959251316046013,
+      "grad_norm": 4.67491340637207,
+      "learning_rate": 7.850000000000001e-05,
+      "loss": 1.0893,
+      "step": 21500
+    },
+    {
+      "epoch": 2.0959251316046013,
+      "eval_accuracy": 0.7910673718246737,
+      "eval_loss": 1.136673927307129,
+      "eval_runtime": 404.5912,
+      "eval_samples_per_second": 153.53,
+      "eval_steps_per_second": 4.8,
+      "step": 21500
+    },
+    {
+      "epoch": 2.1446675765256384,
+      "grad_norm": 15.46749496459961,
+      "learning_rate": 7.800000000000001e-05,
+      "loss": 1.0936,
+      "step": 22000
+    },
+    {
+      "epoch": 2.1446675765256384,
+      "eval_accuracy": 0.7924174903562226,
+      "eval_loss": 1.1254655122756958,
+      "eval_runtime": 413.6747,
+      "eval_samples_per_second": 150.159,
+      "eval_steps_per_second": 4.695,
+      "step": 22000
+    },
+    {
+      "epoch": 2.1934100214466756,
+      "grad_norm": 3.755019187927246,
+      "learning_rate": 7.75e-05,
+      "loss": 1.0861,
+      "step": 22500
+    },
+    {
+      "epoch": 2.1934100214466756,
+      "eval_accuracy": 0.7921287985056727,
+      "eval_loss": 1.1365504264831543,
+      "eval_runtime": 417.2166,
+      "eval_samples_per_second": 148.884,
+      "eval_steps_per_second": 4.655,
+      "step": 22500
+    },
+    {
+      "epoch": 2.242152466367713,
+      "grad_norm": 5.085185527801514,
+      "learning_rate": 7.7e-05,
+      "loss": 1.0846,
+      "step": 23000
+    },
+    {
+      "epoch": 2.242152466367713,
+      "eval_accuracy": 0.7926971124998237,
+      "eval_loss": 1.1271023750305176,
+      "eval_runtime": 413.8039,
+      "eval_samples_per_second": 150.112,
+      "eval_steps_per_second": 4.693,
+      "step": 23000
+    },
+    {
+      "epoch": 2.29089491128875,
+      "grad_norm": 3.165522575378418,
+      "learning_rate": 7.65e-05,
+      "loss": 1.0823,
+      "step": 23500
+    },
+    {
+      "epoch": 2.29089491128875,
+      "eval_accuracy": 0.7926174090551544,
+      "eval_loss": 1.1266652345657349,
+      "eval_runtime": 404.7022,
+      "eval_samples_per_second": 153.488,
+      "eval_steps_per_second": 4.799,
+      "step": 23500
+    },
+    {
+      "epoch": 2.3396373562097876,
+      "grad_norm": 3.573643684387207,
+      "learning_rate": 7.6e-05,
+      "loss": 1.0797,
+      "step": 24000
+    },
+    {
+      "epoch": 2.3396373562097876,
+      "eval_accuracy": 0.7946712997916913,
+      "eval_loss": 1.1183183193206787,
+      "eval_runtime": 405.4486,
+      "eval_samples_per_second": 153.206,
+      "eval_steps_per_second": 4.79,
+      "step": 24000
+    },
+    {
+      "epoch": 2.388379801130825,
+      "grad_norm": 3.7613110542297363,
+      "learning_rate": 7.55e-05,
+      "loss": 1.0628,
+      "step": 24500
+    },
+    {
+      "epoch": 2.388379801130825,
+      "eval_accuracy": 0.7942687964007779,
+      "eval_loss": 1.1270796060562134,
+      "eval_runtime": 416.8987,
+      "eval_samples_per_second": 148.998,
+      "eval_steps_per_second": 4.658,
+      "step": 24500
+    },
+    {
+      "epoch": 2.437122246051862,
+      "grad_norm": 3.7550013065338135,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.0699,
+      "step": 25000
+    },
+    {
+      "epoch": 2.437122246051862,
+      "eval_accuracy": 0.7951970388990339,
+      "eval_loss": 1.1055256128311157,
+      "eval_runtime": 406.0229,
+      "eval_samples_per_second": 152.989,
+      "eval_steps_per_second": 4.783,
+      "step": 25000
+    },
+    {
+      "epoch": 2.485864690972899,
+      "grad_norm": 4.42018461227417,
+      "learning_rate": 7.450000000000001e-05,
+      "loss": 1.0693,
+      "step": 25500
+    },
+    {
+      "epoch": 2.485864690972899,
+      "eval_accuracy": 0.796027678802998,
+      "eval_loss": 1.1022557020187378,
+      "eval_runtime": 405.75,
+      "eval_samples_per_second": 153.092,
+      "eval_steps_per_second": 4.786,
+      "step": 25500
+    },
+    {
+      "epoch": 2.5346071358939364,
+      "grad_norm": 3.7746379375457764,
+      "learning_rate": 7.4e-05,
+      "loss": 1.0632,
+      "step": 26000
+    },
+    {
+      "epoch": 2.5346071358939364,
+      "eval_accuracy": 0.7964411431203794,
+      "eval_loss": 1.0998525619506836,
+      "eval_runtime": 408.282,
+      "eval_samples_per_second": 152.142,
+      "eval_steps_per_second": 4.757,
+      "step": 26000
+    },
+    {
+      "epoch": 2.5833495808149736,
+      "grad_norm": 3.6922600269317627,
+      "learning_rate": 7.35e-05,
+      "loss": 1.065,
+      "step": 26500
+    },
+    {
+      "epoch": 2.5833495808149736,
+      "eval_accuracy": 0.7965003715883248,
+      "eval_loss": 1.0927073955535889,
+      "eval_runtime": 418.0036,
+      "eval_samples_per_second": 148.604,
+      "eval_steps_per_second": 4.646,
+      "step": 26500
+    },
+    {
+      "epoch": 2.6320920257360108,
+      "grad_norm": 3.770766019821167,
+      "learning_rate": 7.3e-05,
+      "loss": 1.051,
+      "step": 27000
+    },
+    {
+      "epoch": 2.6320920257360108,
+      "eval_accuracy": 0.7983237835847491,
+      "eval_loss": 1.0924187898635864,
+      "eval_runtime": 417.8408,
+      "eval_samples_per_second": 148.662,
+      "eval_steps_per_second": 4.648,
+      "step": 27000
+    },
+    {
+      "epoch": 2.6808344706570484,
+      "grad_norm": 3.686671733856201,
+      "learning_rate": 7.25e-05,
+      "loss": 1.051,
+      "step": 27500
+    },
+    {
+      "epoch": 2.6808344706570484,
+      "eval_accuracy": 0.7981858316674941,
+      "eval_loss": 1.092360019683838,
+      "eval_runtime": 406.1188,
+      "eval_samples_per_second": 152.953,
+      "eval_steps_per_second": 4.782,
+      "step": 27500
+    },
+    {
+      "epoch": 2.729576915578085,
+      "grad_norm": 3.7387359142303467,
+      "learning_rate": 7.2e-05,
+      "loss": 1.0472,
+      "step": 28000
+    },
+    {
+      "epoch": 2.729576915578085,
+      "eval_accuracy": 0.7984156631850994,
+      "eval_loss": 1.0957449674606323,
+      "eval_runtime": 417.9276,
+      "eval_samples_per_second": 148.631,
+      "eval_steps_per_second": 4.647,
+      "step": 28000
+    },
+    {
+      "epoch": 2.7783193604991228,
+      "grad_norm": 4.267466068267822,
+      "learning_rate": 7.15e-05,
+      "loss": 1.0467,
+      "step": 28500
+    },
+    {
+      "epoch": 2.7783193604991228,
+      "eval_accuracy": 0.7987033025065455,
+      "eval_loss": 1.1051925420761108,
+      "eval_runtime": 417.6089,
+      "eval_samples_per_second": 148.744,
+      "eval_steps_per_second": 4.65,
+      "step": 28500
+    },
+    {
+      "epoch": 2.82706180542016,
+      "grad_norm": 4.151378631591797,
+      "learning_rate": 7.1e-05,
+      "loss": 1.0383,
+      "step": 29000
+    },
+    {
+      "epoch": 2.82706180542016,
+      "eval_accuracy": 0.7991770419924266,
+      "eval_loss": 1.0816470384597778,
+      "eval_runtime": 417.8895,
+      "eval_samples_per_second": 148.645,
+      "eval_steps_per_second": 4.647,
+      "step": 29000
+    },
+    {
+      "epoch": 2.875804250341197,
+      "grad_norm": 3.69924259185791,
+      "learning_rate": 7.05e-05,
+      "loss": 1.0304,
+      "step": 29500
+    },
+    {
+      "epoch": 2.875804250341197,
+      "eval_accuracy": 0.8006994660557517,
+      "eval_loss": 1.0710912942886353,
+      "eval_runtime": 417.7606,
+      "eval_samples_per_second": 148.69,
+      "eval_steps_per_second": 4.649,
+      "step": 29500
+    },
+    {
+      "epoch": 2.9245466952622343,
+      "grad_norm": 3.548632860183716,
+      "learning_rate": 7e-05,
+      "loss": 1.0422,
+      "step": 30000
+    },
+    {
+      "epoch": 2.9245466952622343,
+      "eval_accuracy": 0.8007965409547303,
+      "eval_loss": 1.0759388208389282,
+      "eval_runtime": 418.895,
+      "eval_samples_per_second": 148.288,
+      "eval_steps_per_second": 4.636,
+      "step": 30000
+    },
+    {
+      "epoch": 2.9732891401832715,
+      "grad_norm": 3.8006861209869385,
+      "learning_rate": 6.95e-05,
+      "loss": 1.0338,
+      "step": 30500
+    },
+    {
+      "epoch": 2.9732891401832715,
+      "eval_accuracy": 0.8004465507568449,
+      "eval_loss": 1.0845800638198853,
+      "eval_runtime": 418.1301,
+      "eval_samples_per_second": 148.559,
+      "eval_steps_per_second": 4.644,
+      "step": 30500
+    },
+    {
+      "epoch": 3.0220315851043087,
+      "grad_norm": 3.686068058013916,
+      "learning_rate": 6.9e-05,
+      "loss": 1.0241,
+      "step": 31000
+    },
+    {
+      "epoch": 3.0220315851043087,
+      "eval_accuracy": 0.8011609180647845,
+      "eval_loss": 1.06769597530365,
+      "eval_runtime": 406.9954,
+      "eval_samples_per_second": 152.623,
+      "eval_steps_per_second": 4.772,
+      "step": 31000
+    },
+    {
+      "epoch": 3.070774030025346,
+      "grad_norm": 3.8143186569213867,
+      "learning_rate": 6.850000000000001e-05,
+      "loss": 1.0159,
+      "step": 31500
+    },
+    {
+      "epoch": 3.070774030025346,
+      "eval_accuracy": 0.8013632123849934,
+      "eval_loss": 1.0762627124786377,
+      "eval_runtime": 419.6348,
+      "eval_samples_per_second": 148.026,
+      "eval_steps_per_second": 4.628,
+      "step": 31500
+    },
+    {
+      "epoch": 3.1195164749463835,
+      "grad_norm": 4.718136787414551,
+      "learning_rate": 6.800000000000001e-05,
+      "loss": 1.0156,
+      "step": 32000
+    },
+    {
+      "epoch": 3.1195164749463835,
+      "eval_accuracy": 0.8020213422523931,
+      "eval_loss": 1.0555154085159302,
+      "eval_runtime": 416.7929,
+      "eval_samples_per_second": 149.036,
+      "eval_steps_per_second": 4.659,
+      "step": 32000
+    },
+    {
+      "epoch": 3.1682589198674207,
+      "grad_norm": 4.645066738128662,
+      "learning_rate": 6.750000000000001e-05,
+      "loss": 1.0125,
+      "step": 32500
+    },
+    {
+      "epoch": 3.1682589198674207,
+      "eval_accuracy": 0.8024784559116106,
+      "eval_loss": 1.0634628534317017,
+      "eval_runtime": 406.8171,
+      "eval_samples_per_second": 152.69,
+      "eval_steps_per_second": 4.774,
+      "step": 32500
+    },
+    {
+      "epoch": 3.217001364788458,
+      "grad_norm": 4.164463996887207,
+      "learning_rate": 6.7e-05,
+      "loss": 1.0139,
+      "step": 33000
+    },
+    {
+      "epoch": 3.217001364788458,
+      "eval_accuracy": 0.8032846270208084,
+      "eval_loss": 1.0512491464614868,
+      "eval_runtime": 416.8591,
+      "eval_samples_per_second": 149.012,
+      "eval_steps_per_second": 4.659,
+      "step": 33000
+    },
+    {
+      "epoch": 3.265743809709495,
+      "grad_norm": 3.9483578205108643,
+      "learning_rate": 6.65e-05,
+      "loss": 1.0162,
+      "step": 33500
+    },
+    {
+      "epoch": 3.265743809709495,
+      "eval_accuracy": 0.8031067271435598,
+      "eval_loss": 1.05771005153656,
+      "eval_runtime": 416.679,
+      "eval_samples_per_second": 149.076,
+      "eval_steps_per_second": 4.661,
+      "step": 33500
+    },
+    {
+      "epoch": 3.3144862546305323,
+      "grad_norm": 3.5133304595947266,
+      "learning_rate": 6.6e-05,
+      "loss": 1.004,
+      "step": 34000
+    },
+    {
+      "epoch": 3.3144862546305323,
+      "eval_accuracy": 0.8038770049824707,
+      "eval_loss": 1.0553202629089355,
+      "eval_runtime": 405.7221,
+      "eval_samples_per_second": 153.102,
+      "eval_steps_per_second": 4.787,
+      "step": 34000
+    },
+    {
+      "epoch": 3.3632286995515694,
+      "grad_norm": 3.9474008083343506,
+      "learning_rate": 6.55e-05,
+      "loss": 0.9951,
+      "step": 34500
+    },
+    {
+      "epoch": 3.3632286995515694,
+      "eval_accuracy": 0.8041849568994928,
+      "eval_loss": 1.0525976419448853,
+      "eval_runtime": 416.6873,
+      "eval_samples_per_second": 149.073,
+      "eval_steps_per_second": 4.661,
+      "step": 34500
+    },
+    {
+      "epoch": 3.4119711444726066,
+      "grad_norm": 3.9235286712646484,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 0.9993,
+      "step": 35000
+    },
+    {
+      "epoch": 3.4119711444726066,
+      "eval_accuracy": 0.804642827866986,
+      "eval_loss": NaN,
+      "eval_runtime": 417.3671,
+      "eval_samples_per_second": 148.831,
+      "eval_steps_per_second": 4.653,
+      "step": 35000
+    },
+    {
+      "epoch": 3.460713589393644,
+      "grad_norm": 5.006605625152588,
+      "learning_rate": 6.450000000000001e-05,
+      "loss": 1.0039,
+      "step": 35500
+    },
+    {
+      "epoch": 3.460713589393644,
+      "eval_accuracy": 0.8052872089101958,
+      "eval_loss": 1.0506031513214111,
+      "eval_runtime": 417.1878,
+      "eval_samples_per_second": 148.895,
+      "eval_steps_per_second": 4.655,
+      "step": 35500
+    },
+    {
+      "epoch": 3.509456034314681,
+      "grad_norm": 3.453827142715454,
+      "learning_rate": 6.400000000000001e-05,
+      "loss": 1.0052,
+      "step": 36000
+    },
+    {
+      "epoch": 3.509456034314681,
+      "eval_accuracy": 0.8053784625961633,
+      "eval_loss": 1.0422734022140503,
+      "eval_runtime": 405.9932,
+      "eval_samples_per_second": 153.0,
+      "eval_steps_per_second": 4.783,
+      "step": 36000
+    },
+    {
+      "epoch": 3.5581984792357186,
+      "grad_norm": 4.76883602142334,
+      "learning_rate": 6.35e-05,
+      "loss": 0.9931,
+      "step": 36500
+    },
+    {
+      "epoch": 3.5581984792357186,
+      "eval_accuracy": 0.8062917178441975,
+      "eval_loss": 1.038949728012085,
+      "eval_runtime": 417.023,
+      "eval_samples_per_second": 148.953,
+      "eval_steps_per_second": 4.657,
+      "step": 36500
+    },
+    {
+      "epoch": 3.606940924156756,
+      "grad_norm": 4.503074645996094,
+      "learning_rate": 6.3e-05,
+      "loss": 0.9913,
+      "step": 37000
+    },
+    {
+      "epoch": 3.606940924156756,
+      "eval_accuracy": 0.8066731304811298,
+      "eval_loss": 1.0464720726013184,
+      "eval_runtime": 417.9854,
+      "eval_samples_per_second": 148.61,
+      "eval_steps_per_second": 4.646,
+      "step": 37000
+    },
+    {
+      "epoch": 3.655683369077793,
+      "grad_norm": 3.608944892883301,
+      "learning_rate": 6.25e-05,
+      "loss": 0.9954,
+      "step": 37500
+    },
+    {
+      "epoch": 3.655683369077793,
+      "eval_accuracy": 0.8066646897067399,
+      "eval_loss": 1.0526313781738281,
+      "eval_runtime": 417.3272,
+      "eval_samples_per_second": 148.845,
+      "eval_steps_per_second": 4.653,
+      "step": 37500
+    },
+    {
+      "epoch": 3.70442581399883,
+      "grad_norm": 4.124717712402344,
+      "learning_rate": 6.2e-05,
+      "loss": 0.9934,
+      "step": 38000
+    },
+    {
+      "epoch": 3.70442581399883,
+      "eval_accuracy": 0.8077767724973488,
+      "eval_loss": 1.0216541290283203,
+      "eval_runtime": 407.2038,
+      "eval_samples_per_second": 152.545,
+      "eval_steps_per_second": 4.769,
+      "step": 38000
+    },
+    {
+      "epoch": 3.7531682589198674,
+      "grad_norm": 4.475372314453125,
+      "learning_rate": 6.15e-05,
+      "loss": 0.9801,
+      "step": 38500
+    },
+    {
+      "epoch": 3.7531682589198674,
+      "eval_accuracy": 0.8071986044608647,
+      "eval_loss": 1.0320008993148804,
+      "eval_runtime": 417.0159,
+      "eval_samples_per_second": 148.956,
+      "eval_steps_per_second": 4.657,
+      "step": 38500
+    },
+    {
+      "epoch": 3.8019107038409046,
+      "grad_norm": 3.5460593700408936,
+      "learning_rate": 6.1e-05,
+      "loss": 0.9793,
+      "step": 39000
+    },
+    {
+      "epoch": 3.8019107038409046,
+      "eval_accuracy": 0.8078482967630676,
+      "eval_loss": 1.0231602191925049,
+      "eval_runtime": 417.531,
+      "eval_samples_per_second": 148.772,
+      "eval_steps_per_second": 4.651,
+      "step": 39000
+    },
+    {
+      "epoch": 3.8506531487619418,
+      "grad_norm": 3.9331490993499756,
+      "learning_rate": 6.05e-05,
+      "loss": 0.9839,
+      "step": 39500
+    },
+    {
+      "epoch": 3.8506531487619418,
+      "eval_accuracy": 0.8081606791887387,
+      "eval_loss": 1.023592472076416,
+      "eval_runtime": 418.8767,
+      "eval_samples_per_second": 148.294,
+      "eval_steps_per_second": 4.636,
+      "step": 39500
+    },
+    {
+      "epoch": 3.8993955936829794,
+      "grad_norm": 3.0806970596313477,
+      "learning_rate": 6e-05,
+      "loss": 0.9679,
+      "step": 40000
+    },
+    {
+      "epoch": 3.8993955936829794,
+      "eval_accuracy": 0.8086802173852721,
+      "eval_loss": 1.02633535861969,
+      "eval_runtime": 406.3522,
+      "eval_samples_per_second": 152.865,
+      "eval_steps_per_second": 4.779,
+      "step": 40000
+    },
+    {
+      "epoch": 3.948138038604016,
+      "grad_norm": 3.3825278282165527,
+      "learning_rate": 5.95e-05,
+      "loss": 0.9725,
+      "step": 40500
+    },
+    {
+      "epoch": 3.948138038604016,
+      "eval_accuracy": 0.80833269637443,
+      "eval_loss": 1.04069983959198,
+      "eval_runtime": 405.9788,
+      "eval_samples_per_second": 153.006,
+      "eval_steps_per_second": 4.784,
+      "step": 40500
+    },
+    {
+      "epoch": 3.9968804835250538,
+      "grad_norm": 3.728228807449341,
+      "learning_rate": 5.9e-05,
+      "loss": 0.9734,
+      "step": 41000
+    },
+    {
+      "epoch": 3.9968804835250538,
+      "eval_accuracy": 0.8088856850276098,
+      "eval_loss": 1.0243360996246338,
+      "eval_runtime": 418.2067,
+      "eval_samples_per_second": 148.532,
+      "eval_steps_per_second": 4.644,
+      "step": 41000
+    },
+    {
+      "epoch": 4.0456229284460905,
+      "grad_norm": 3.1366865634918213,
+      "learning_rate": 5.85e-05,
+      "loss": 0.9615,
+      "step": 41500
+    },
+    {
+      "epoch": 4.0456229284460905,
+      "eval_accuracy": 0.8099273789501316,
+      "eval_loss": 1.0140135288238525,
+      "eval_runtime": 417.4989,
+      "eval_samples_per_second": 148.784,
+      "eval_steps_per_second": 4.652,
+      "step": 41500
+    },
+    {
+      "epoch": 4.094365373367128,
+      "grad_norm": 4.486032009124756,
+      "learning_rate": 5.8e-05,
+      "loss": 0.9606,
+      "step": 42000
+    },
+    {
+      "epoch": 4.094365373367128,
+      "eval_accuracy": 0.8099747385653199,
+      "eval_loss": 1.0296921730041504,
+      "eval_runtime": 420.3851,
+      "eval_samples_per_second": 147.762,
+      "eval_steps_per_second": 4.62,
+      "step": 42000
+    },
+    {
+      "epoch": 4.143107818288165,
+      "grad_norm": 3.989729881286621,
+      "learning_rate": 5.7499999999999995e-05,
+      "loss": 0.9634,
+      "step": 42500
+    },
+    {
+      "epoch": 4.143107818288165,
+      "eval_accuracy": 0.8108008770195908,
+      "eval_loss": 1.0081605911254883,
+      "eval_runtime": 406.5978,
+      "eval_samples_per_second": 152.773,
+      "eval_steps_per_second": 4.776,
+      "step": 42500
+    },
+    {
+      "epoch": 4.1918502632092025,
+      "grad_norm": 3.4221575260162354,
+      "learning_rate": 5.6999999999999996e-05,
+      "loss": 0.9628,
+      "step": 43000
+    },
+    {
+      "epoch": 4.1918502632092025,
+      "eval_accuracy": 0.8107686235924147,
+      "eval_loss": 1.018919825553894,
+      "eval_runtime": 419.8469,
+      "eval_samples_per_second": 147.952,
+      "eval_steps_per_second": 4.625,
+      "step": 43000
+    },
+    {
+      "epoch": 4.24059270813024,
+      "grad_norm": 3.121842861175537,
+      "learning_rate": 5.65e-05,
+      "loss": 0.9544,
+      "step": 43500
+    },
+    {
+      "epoch": 4.24059270813024,
+      "eval_accuracy": 0.8112811526798606,
+      "eval_loss": 1.005543828010559,
+      "eval_runtime": 418.6747,
+      "eval_samples_per_second": 148.366,
+      "eval_steps_per_second": 4.638,
+      "step": 43500
+    },
+    {
+      "epoch": 4.289335153051277,
+      "grad_norm": 3.5650501251220703,
+      "learning_rate": 5.6000000000000006e-05,
+      "loss": 0.949,
+      "step": 44000
+    },
+    {
+      "epoch": 4.289335153051277,
+      "eval_accuracy": 0.8118240945446494,
+      "eval_loss": 1.0131685733795166,
+      "eval_runtime": 407.6808,
+      "eval_samples_per_second": 152.367,
+      "eval_steps_per_second": 4.764,
+      "step": 44000
+    },
+    {
+      "epoch": 4.3380775979723145,
+      "grad_norm": 3.2165634632110596,
+      "learning_rate": 5.550000000000001e-05,
+      "loss": 0.9522,
+      "step": 44500
+    },
+    {
+      "epoch": 4.3380775979723145,
+      "eval_accuracy": 0.8115780246613691,
+      "eval_loss": 1.0220428705215454,
+      "eval_runtime": 405.9231,
+      "eval_samples_per_second": 153.027,
+      "eval_steps_per_second": 4.784,
+      "step": 44500
+    },
+    {
+      "epoch": 4.386820042893351,
+      "grad_norm": 2.9322192668914795,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 0.9431,
+      "step": 45000
+    },
+    {
+      "epoch": 4.386820042893351,
+      "eval_accuracy": 0.8120671097872612,
+      "eval_loss": 1.0120651721954346,
+      "eval_runtime": 418.1628,
+      "eval_samples_per_second": 148.547,
+      "eval_steps_per_second": 4.644,
+      "step": 45000
+    },
+    {
+      "epoch": 4.435562487814389,
+      "grad_norm": 3.452725887298584,
+      "learning_rate": 5.45e-05,
+      "loss": 0.9448,
+      "step": 45500
+    },
+    {
+      "epoch": 4.435562487814389,
+      "eval_accuracy": 0.8127470780385738,
+      "eval_loss": 0.9997569918632507,
+      "eval_runtime": 418.1188,
+      "eval_samples_per_second": 148.563,
+      "eval_steps_per_second": 4.645,
+      "step": 45500
+    },
+    {
+      "epoch": 4.484304932735426,
+      "grad_norm": 3.1269946098327637,
+      "learning_rate": 5.4000000000000005e-05,
+      "loss": 0.9424,
+      "step": 46000
+    },
+    {
+      "epoch": 4.484304932735426,
+      "eval_accuracy": 0.812740042747058,
+      "eval_loss": 1.001397967338562,
+      "eval_runtime": 407.1549,
+      "eval_samples_per_second": 152.564,
+      "eval_steps_per_second": 4.77,
+      "step": 46000
+    },
+    {
+      "epoch": 4.533047377656463,
+      "grad_norm": 2.9431774616241455,
+      "learning_rate": 5.3500000000000006e-05,
+      "loss": 0.9404,
+      "step": 46500
+    },
+    {
+      "epoch": 4.533047377656463,
+      "eval_accuracy": 0.8133600475471777,
+      "eval_loss": 0.9982110261917114,
+      "eval_runtime": 419.2597,
+      "eval_samples_per_second": 148.159,
+      "eval_steps_per_second": 4.632,
+      "step": 46500
+    },
+    {
+      "epoch": 4.5817898225775,
+      "grad_norm": 3.8127102851867676,
+      "learning_rate": 5.300000000000001e-05,
+      "loss": 0.9474,
+      "step": 47000
+    },
+    {
+      "epoch": 4.5817898225775,
+      "eval_accuracy": 0.8133919109774917,
+      "eval_loss": 0.9953769445419312,
+      "eval_runtime": 407.8044,
+      "eval_samples_per_second": 152.321,
+      "eval_steps_per_second": 4.762,
+      "step": 47000
+    },
+    {
+      "epoch": 4.630532267498538,
+      "grad_norm": 3.686004161834717,
+      "learning_rate": 5.25e-05,
+      "loss": 0.94,
+      "step": 47500
+    },
+    {
+      "epoch": 4.630532267498538,
+      "eval_accuracy": 0.8134523016816173,
+      "eval_loss": 1.0122311115264893,
+      "eval_runtime": 410.1647,
+      "eval_samples_per_second": 151.444,
+      "eval_steps_per_second": 4.735,
+      "step": 47500
+    },
+    {
+      "epoch": 4.679274712419575,
+      "grad_norm": 4.049985885620117,
+      "learning_rate": 5.2000000000000004e-05,
+      "loss": 0.9386,
+      "step": 48000
+    },
+    {
+      "epoch": 4.679274712419575,
+      "eval_accuracy": 0.8137329160966164,
+      "eval_loss": 0.9996346235275269,
+      "eval_runtime": 407.6298,
+      "eval_samples_per_second": 152.386,
+      "eval_steps_per_second": 4.764,
+      "step": 48000
+    },
+    {
+      "epoch": 4.728017157340612,
+      "grad_norm": 3.2507503032684326,
+      "learning_rate": 5.1500000000000005e-05,
+      "loss": 0.9384,
+      "step": 48500
+    },
+    {
+      "epoch": 4.728017157340612,
+      "eval_accuracy": 0.8149296571374698,
+      "eval_loss": 0.9956032633781433,
+      "eval_runtime": 406.976,
+      "eval_samples_per_second": 152.631,
+      "eval_steps_per_second": 4.772,
+      "step": 48500
+    },
+    {
+      "epoch": 4.77675960226165,
+      "grad_norm": 3.3173000812530518,
+      "learning_rate": 5.1000000000000006e-05,
+      "loss": 0.9364,
+      "step": 49000
+    },
+    {
+      "epoch": 4.77675960226165,
+      "eval_accuracy": 0.8157672114344285,
+      "eval_loss": 0.9892277121543884,
+      "eval_runtime": 408.661,
+      "eval_samples_per_second": 152.001,
+      "eval_steps_per_second": 4.752,
+      "step": 49000
+    },
+    {
+      "epoch": 4.825502047182686,
+      "grad_norm": 3.604827642440796,
+      "learning_rate": 5.05e-05,
+      "loss": 0.9378,
+      "step": 49500
+    },
+    {
+      "epoch": 4.825502047182686,
+      "eval_accuracy": 0.8150183266816289,
+      "eval_loss": 0.9937326908111572,
+      "eval_runtime": 419.6753,
+      "eval_samples_per_second": 148.012,
+      "eval_steps_per_second": 4.627,
+      "step": 49500
+    },
+    {
+      "epoch": 4.874244492103724,
+      "grad_norm": 3.5434885025024414,
+      "learning_rate": 5e-05,
+      "loss": 0.9281,
+      "step": 50000
+    },
+    {
+      "epoch": 4.874244492103724,
+      "eval_accuracy": 0.8152856845597338,
+      "eval_loss": 0.9860332012176514,
+      "eval_runtime": 418.3134,
+      "eval_samples_per_second": 148.494,
+      "eval_steps_per_second": 4.642,
+      "step": 50000
+    },
+    {
+      "epoch": 4.922986937024762,
+      "grad_norm": 3.5801565647125244,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.9259,
+      "step": 50500
+    },
+    {
+      "epoch": 4.922986937024762,
+      "eval_accuracy": 0.8157059324837188,
+      "eval_loss": 0.9821184873580933,
+      "eval_runtime": 418.3936,
+      "eval_samples_per_second": 148.465,
+      "eval_steps_per_second": 4.642,
+      "step": 50500
+    },
+    {
+      "epoch": 4.971729381945798,
+      "grad_norm": 3.7391278743743896,
+      "learning_rate": 4.9e-05,
+      "loss": 0.9245,
+      "step": 51000
+    },
+    {
+      "epoch": 4.971729381945798,
+      "eval_accuracy": 0.8167135547079718,
+      "eval_loss": 0.9834054112434387,
+      "eval_runtime": 418.1441,
+      "eval_samples_per_second": 148.554,
+      "eval_steps_per_second": 4.644,
+      "step": 51000
+    },
+    {
+      "epoch": 5.020471826866836,
+      "grad_norm": 3.5294556617736816,
+      "learning_rate": 4.85e-05,
+      "loss": 0.93,
+      "step": 51500
+    },
+    {
+      "epoch": 5.020471826866836,
+      "eval_accuracy": 0.816996770373217,
+      "eval_loss": 0.9669159054756165,
+      "eval_runtime": 416.8904,
+      "eval_samples_per_second": 149.001,
+      "eval_steps_per_second": 4.658,
+      "step": 51500
+    },
+    {
+      "epoch": 5.069214271787873,
+      "grad_norm": 3.1137163639068604,
+      "learning_rate": 4.8e-05,
+      "loss": 0.9247,
+      "step": 52000
+    },
+    {
+      "epoch": 5.069214271787873,
+      "eval_accuracy": 0.8173001472872028,
+      "eval_loss": 0.969613254070282,
+      "eval_runtime": 405.5038,
+      "eval_samples_per_second": 153.185,
+      "eval_steps_per_second": 4.789,
+      "step": 52000
+    },
+    {
+      "epoch": 5.11795671670891,
+      "grad_norm": 2.89302659034729,
+      "learning_rate": 4.75e-05,
+      "loss": 0.9154,
+      "step": 52500
+    },
+    {
+      "epoch": 5.11795671670891,
+      "eval_accuracy": 0.8169749903064084,
+      "eval_loss": 0.9733508229255676,
+      "eval_runtime": 408.6617,
+      "eval_samples_per_second": 152.001,
+      "eval_steps_per_second": 4.752,
+      "step": 52500
+    },
+    {
+      "epoch": 5.166699161629947,
+      "grad_norm": 3.131472587585449,
+      "learning_rate": 4.7e-05,
+      "loss": 0.9153,
+      "step": 53000
+    },
+    {
+      "epoch": 5.166699161629947,
+      "eval_accuracy": 0.8171414906960495,
+      "eval_loss": 0.9911856651306152,
+      "eval_runtime": 406.327,
+      "eval_samples_per_second": 152.874,
+      "eval_steps_per_second": 4.779,
+      "step": 53000
+    },
+    {
+      "epoch": 5.215441606550985,
+      "grad_norm": 3.7570555210113525,
+      "learning_rate": 4.6500000000000005e-05,
+      "loss": 0.9104,
+      "step": 53500
+    },
+    {
+      "epoch": 5.215441606550985,
+      "eval_accuracy": 0.8174119137884183,
+      "eval_loss": 0.9812771677970886,
+      "eval_runtime": 406.9743,
+      "eval_samples_per_second": 152.631,
+      "eval_steps_per_second": 4.772,
+      "step": 53500
+    },
+    {
+      "epoch": 5.2641840514720215,
+      "grad_norm": 3.2733726501464844,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.912,
+      "step": 54000
+    },
+    {
+      "epoch": 5.2641840514720215,
+      "eval_accuracy": 0.8181780925962017,
+      "eval_loss": 0.9795467257499695,
+      "eval_runtime": 417.1257,
+      "eval_samples_per_second": 148.917,
+      "eval_steps_per_second": 4.656,
+      "step": 54000
+    },
+    {
+      "epoch": 5.312926496393059,
+      "grad_norm": 3.646557569503784,
+      "learning_rate": 4.55e-05,
+      "loss": 0.9099,
+      "step": 54500
+    },
+    {
+      "epoch": 5.312926496393059,
+      "eval_accuracy": 0.8182088182333788,
+      "eval_loss": 0.9727326035499573,
+      "eval_runtime": 417.132,
+      "eval_samples_per_second": 148.914,
+      "eval_steps_per_second": 4.656,
+      "step": 54500
+    },
+    {
+      "epoch": 5.361668941314097,
+      "grad_norm": 3.503202199935913,
+      "learning_rate": 4.5e-05,
+      "loss": 0.9075,
+      "step": 55000
+    },
+    {
+      "epoch": 5.361668941314097,
+      "eval_accuracy": 0.8184407949709821,
+      "eval_loss": 0.9728838205337524,
+      "eval_runtime": 417.243,
+      "eval_samples_per_second": 148.875,
+      "eval_steps_per_second": 4.654,
+      "step": 55000
+    },
+    {
+      "epoch": 5.4104113862351335,
+      "grad_norm": 3.7343647480010986,
+      "learning_rate": 4.4500000000000004e-05,
+      "loss": 0.908,
+      "step": 55500
+    },
+    {
+      "epoch": 5.4104113862351335,
+      "eval_accuracy": 0.8189042158006526,
+      "eval_loss": 0.9732007384300232,
+      "eval_runtime": 417.2141,
+      "eval_samples_per_second": 148.885,
+      "eval_steps_per_second": 4.655,
+      "step": 55500
+    },
+    {
+      "epoch": 5.459153831156171,
+      "grad_norm": 3.133802652359009,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.9026,
+      "step": 56000
+    },
+    {
+      "epoch": 5.459153831156171,
+      "eval_accuracy": 0.8201767667683212,
+      "eval_loss": 0.9600487947463989,
+      "eval_runtime": 417.4136,
+      "eval_samples_per_second": 148.814,
+      "eval_steps_per_second": 4.652,
+      "step": 56000
+    },
+    {
+      "epoch": 5.507896276077208,
+      "grad_norm": 3.379943609237671,
+      "learning_rate": 4.35e-05,
+      "loss": 0.9079,
+      "step": 56500
+    },
+    {
+      "epoch": 5.507896276077208,
+      "eval_accuracy": 0.8192980524609018,
+      "eval_loss": 0.9664751887321472,
+      "eval_runtime": 417.6211,
+      "eval_samples_per_second": 148.74,
+      "eval_steps_per_second": 4.65,
+      "step": 56500
+    },
+    {
+      "epoch": 5.5566387209982455,
+      "grad_norm": 3.35117244720459,
+      "learning_rate": 4.3e-05,
+      "loss": 0.8984,
+      "step": 57000
+    },
+    {
+      "epoch": 5.5566387209982455,
+      "eval_accuracy": 0.8200202500664683,
+      "eval_loss": 0.9683465957641602,
+      "eval_runtime": 416.9849,
+      "eval_samples_per_second": 148.967,
+      "eval_steps_per_second": 4.657,
+      "step": 57000
+    },
+    {
+      "epoch": 5.605381165919282,
+      "grad_norm": 3.655966281890869,
+      "learning_rate": 4.25e-05,
+      "loss": 0.9024,
+      "step": 57500
+    },
+    {
+      "epoch": 5.605381165919282,
+      "eval_accuracy": 0.8204076766761219,
+      "eval_loss": 0.9583476781845093,
+      "eval_runtime": 407.0914,
+      "eval_samples_per_second": 152.587,
+      "eval_steps_per_second": 4.77,
+      "step": 57500
+    },
+    {
+      "epoch": 5.65412361084032,
+      "grad_norm": 3.7306268215179443,
+      "learning_rate": 4.2e-05,
+      "loss": 0.8921,
+      "step": 58000
+    },
+    {
+      "epoch": 5.65412361084032,
+      "eval_accuracy": 0.8197779799818017,
+      "eval_loss": 0.9624991416931152,
+      "eval_runtime": 417.1391,
+      "eval_samples_per_second": 148.912,
+      "eval_steps_per_second": 4.656,
+      "step": 58000
+    },
+    {
+      "epoch": 5.702866055761357,
+      "grad_norm": 3.412425994873047,
+      "learning_rate": 4.15e-05,
+      "loss": 0.8981,
+      "step": 58500
+    },
+    {
+      "epoch": 5.702866055761357,
+      "eval_accuracy": 0.8202077126346001,
+      "eval_loss": 0.959416389465332,
+      "eval_runtime": 407.0106,
+      "eval_samples_per_second": 152.618,
+      "eval_steps_per_second": 4.771,
+      "step": 58500
+    },
+    {
+      "epoch": 5.751608500682394,
+      "grad_norm": 3.5848515033721924,
+      "learning_rate": 4.1e-05,
+      "loss": 0.8963,
+      "step": 59000
+    },
+    {
+      "epoch": 5.751608500682394,
+      "eval_accuracy": 0.8210654104614679,
+      "eval_loss": 0.9516875743865967,
+      "eval_runtime": 417.8109,
+      "eval_samples_per_second": 148.673,
+      "eval_steps_per_second": 4.648,
+      "step": 59000
+    },
+    {
+      "epoch": 5.800350945603432,
+      "grad_norm": 3.3994343280792236,
+      "learning_rate": 4.05e-05,
+      "loss": 0.8882,
+      "step": 59500
+    },
+    {
+      "epoch": 5.800350945603432,
+      "eval_accuracy": 0.8211162443184222,
+      "eval_loss": 0.9653207063674927,
+      "eval_runtime": 406.7456,
+      "eval_samples_per_second": 152.717,
+      "eval_steps_per_second": 4.774,
+      "step": 59500
+    },
+    {
+      "epoch": 5.849093390524469,
+      "grad_norm": 3.743419885635376,
+      "learning_rate": 4e-05,
+      "loss": 0.8981,
+      "step": 60000
+    },
+    {
+      "epoch": 5.849093390524469,
+      "eval_accuracy": 0.8213700909383002,
+      "eval_loss": 0.950171947479248,
+      "eval_runtime": 404.3291,
+      "eval_samples_per_second": 153.63,
+      "eval_steps_per_second": 4.803,
+      "step": 60000
+    },
+    {
+      "epoch": 5.897835835445506,
+      "grad_norm": 3.55446720123291,
+      "learning_rate": 3.9500000000000005e-05,
+      "loss": 0.8783,
+      "step": 60500
+    },
+    {
+      "epoch": 5.897835835445506,
+      "eval_accuracy": 0.8216780241795132,
+      "eval_loss": 0.9581466913223267,
+      "eval_runtime": 406.5142,
+      "eval_samples_per_second": 152.804,
+      "eval_steps_per_second": 4.777,
+      "step": 60500
+    },
+    {
+      "epoch": 5.946578280366543,
+      "grad_norm": 3.7575368881225586,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.8877,
+      "step": 61000
+    },
+    {
+      "epoch": 5.946578280366543,
+      "eval_accuracy": 0.8223021733371326,
+      "eval_loss": 0.9538587331771851,
+      "eval_runtime": 418.445,
+      "eval_samples_per_second": 148.447,
+      "eval_steps_per_second": 4.641,
+      "step": 61000
+    },
+    {
+      "epoch": 5.995320725287581,
+      "grad_norm": 3.153002977371216,
+      "learning_rate": 3.85e-05,
+      "loss": 0.8868,
+      "step": 61500
+    },
+    {
+      "epoch": 5.995320725287581,
+      "eval_accuracy": 0.8223680440139836,
+      "eval_loss": 0.9499430656433105,
+      "eval_runtime": 405.4074,
+      "eval_samples_per_second": 153.221,
+      "eval_steps_per_second": 4.79,
+      "step": 61500
+    },
+    {
+      "epoch": 6.044063170208617,
+      "grad_norm": 4.0667500495910645,
+      "learning_rate": 3.8e-05,
+      "loss": 0.8899,
+      "step": 62000
+    },
+    {
+      "epoch": 6.044063170208617,
+      "eval_accuracy": 0.8224810332579563,
+      "eval_loss": 0.9389235377311707,
+      "eval_runtime": 407.9926,
+      "eval_samples_per_second": 152.25,
+      "eval_steps_per_second": 4.76,
+      "step": 62000
+    },
+    {
+      "epoch": 6.092805615129655,
+      "grad_norm": 3.6726677417755127,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.8682,
+      "step": 62500
+    },
+    {
+      "epoch": 6.092805615129655,
+      "eval_accuracy": 0.8231253184052942,
+      "eval_loss": 0.9457637071609497,
+      "eval_runtime": 409.6859,
+      "eval_samples_per_second": 151.621,
+      "eval_steps_per_second": 4.74,
+      "step": 62500
+    },
+    {
+      "epoch": 6.141548060050692,
+      "grad_norm": 3.4400100708007812,
+      "learning_rate": 3.7e-05,
+      "loss": 0.885,
+      "step": 63000
+    },
+    {
+      "epoch": 6.141548060050692,
+      "eval_accuracy": 0.8236364297929629,
+      "eval_loss": 0.9425154328346252,
+      "eval_runtime": 406.4124,
+      "eval_samples_per_second": 152.842,
+      "eval_steps_per_second": 4.778,
+      "step": 63000
+    },
+    {
+      "epoch": 6.190290504971729,
+      "grad_norm": 4.634922027587891,
+      "learning_rate": 3.65e-05,
+      "loss": 0.8745,
+      "step": 63500
+    },
+    {
+      "epoch": 6.190290504971729,
+      "eval_accuracy": 0.8235738463597942,
+      "eval_loss": 0.945899486541748,
+      "eval_runtime": 405.9732,
+      "eval_samples_per_second": 153.008,
+      "eval_steps_per_second": 4.784,
+      "step": 63500
+    },
+    {
+      "epoch": 6.239032949892767,
+      "grad_norm": 4.0379509925842285,
+      "learning_rate": 3.6e-05,
+      "loss": 0.8665,
+      "step": 64000
+    },
+    {
+      "epoch": 6.239032949892767,
+      "eval_accuracy": 0.8238192088542137,
+      "eval_loss": 0.9333313703536987,
+      "eval_runtime": 406.2352,
+      "eval_samples_per_second": 152.909,
+      "eval_steps_per_second": 4.78,
+      "step": 64000
+    },
+    {
+      "epoch": 6.287775394813804,
+      "grad_norm": 4.645595550537109,
+      "learning_rate": 3.55e-05,
+      "loss": 0.8775,
+      "step": 64500
+    },
+    {
+      "epoch": 6.287775394813804,
+      "eval_accuracy": 0.8239884570656095,
+      "eval_loss": 0.9405332207679749,
+      "eval_runtime": 418.2514,
+      "eval_samples_per_second": 148.516,
+      "eval_steps_per_second": 4.643,
+      "step": 64500
+    },
+    {
+      "epoch": 6.336517839734841,
+      "grad_norm": 4.875068187713623,
+      "learning_rate": 3.5e-05,
+      "loss": 0.8642,
+      "step": 65000
+    },
+    {
+      "epoch": 6.336517839734841,
+      "eval_accuracy": 0.8242385226771245,
+      "eval_loss": 0.9486621618270874,
+      "eval_runtime": 417.1053,
+      "eval_samples_per_second": 148.924,
+      "eval_steps_per_second": 4.656,
+      "step": 65000
+    },
+    {
+      "epoch": 6.385260284655878,
+      "grad_norm": 3.5531485080718994,
+      "learning_rate": 3.45e-05,
+      "loss": 0.8646,
+      "step": 65500
+    },
+    {
+      "epoch": 6.385260284655878,
+      "eval_accuracy": 0.8246846366774455,
+      "eval_loss": 0.9260883331298828,
+      "eval_runtime": 419.2646,
+      "eval_samples_per_second": 148.157,
+      "eval_steps_per_second": 4.632,
+      "step": 65500
+    },
+    {
+      "epoch": 6.434002729576916,
+      "grad_norm": 4.116947174072266,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.8681,
+      "step": 66000
+    },
+    {
+      "epoch": 6.434002729576916,
+      "eval_accuracy": 0.8250557813416932,
+      "eval_loss": 0.9300101399421692,
+      "eval_runtime": 417.6044,
+      "eval_samples_per_second": 148.746,
+      "eval_steps_per_second": 4.65,
+      "step": 66000
+    },
+    {
+      "epoch": 6.4827451744979525,
+      "grad_norm": 3.6558291912078857,
+      "learning_rate": 3.35e-05,
+      "loss": 0.8694,
+      "step": 66500
+    },
+    {
+      "epoch": 6.4827451744979525,
+      "eval_accuracy": 0.8257142012386084,
+      "eval_loss": 0.9325526356697083,
+      "eval_runtime": 407.9768,
+      "eval_samples_per_second": 152.256,
+      "eval_steps_per_second": 4.76,
+      "step": 66500
+    },
+    {
+      "epoch": 6.53148761941899,
+      "grad_norm": 3.5170669555664062,
+      "learning_rate": 3.3e-05,
+      "loss": 0.8605,
+      "step": 67000
+    },
+    {
+      "epoch": 6.53148761941899,
+      "eval_accuracy": 0.8253691543918565,
+      "eval_loss": 0.9221523404121399,
+      "eval_runtime": 417.7475,
+      "eval_samples_per_second": 148.695,
+      "eval_steps_per_second": 4.649,
+      "step": 67000
+    },
+    {
+      "epoch": 6.580230064340027,
+      "grad_norm": 3.9361133575439453,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.8636,
+      "step": 67500
+    },
+    {
+      "epoch": 6.580230064340027,
+      "eval_accuracy": 0.8256220792916974,
+      "eval_loss": 0.9299176335334778,
+      "eval_runtime": 405.8973,
+      "eval_samples_per_second": 153.036,
+      "eval_steps_per_second": 4.784,
+      "step": 67500
+    },
+    {
+      "epoch": 6.6289725092610645,
+      "grad_norm": 2.9539661407470703,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.855,
+      "step": 68000
+    },
+    {
+      "epoch": 6.6289725092610645,
+      "eval_accuracy": 0.8260808646917535,
+      "eval_loss": 0.9166622161865234,
+      "eval_runtime": 418.4165,
+      "eval_samples_per_second": 148.457,
+      "eval_steps_per_second": 4.641,
+      "step": 68000
+    },
+    {
+      "epoch": 6.677714954182102,
+      "grad_norm": 3.324882745742798,
+      "learning_rate": 3.15e-05,
+      "loss": 0.8565,
+      "step": 68500
+    },
+    {
+      "epoch": 6.677714954182102,
+      "eval_accuracy": 0.8265228789366582,
+      "eval_loss": 0.9246287941932678,
+      "eval_runtime": 404.3212,
+      "eval_samples_per_second": 153.633,
+      "eval_steps_per_second": 4.803,
+      "step": 68500
+    },
+    {
+      "epoch": 6.726457399103139,
+      "grad_norm": 4.108856201171875,
+      "learning_rate": 3.1e-05,
+      "loss": 0.8531,
+      "step": 69000
+    },
+    {
+      "epoch": 6.726457399103139,
+      "eval_accuracy": 0.826138264736776,
+      "eval_loss": 0.9267178773880005,
+      "eval_runtime": 417.5496,
+      "eval_samples_per_second": 148.766,
+      "eval_steps_per_second": 4.651,
+      "step": 69000
+    },
+    {
+      "epoch": 6.7751998440241765,
+      "grad_norm": 2.7647440433502197,
+      "learning_rate": 3.05e-05,
+      "loss": 0.8598,
+      "step": 69500
+    },
+    {
+      "epoch": 6.7751998440241765,
+      "eval_accuracy": 0.8265823639247751,
+      "eval_loss": 0.9271634221076965,
+      "eval_runtime": 406.295,
+      "eval_samples_per_second": 152.886,
+      "eval_steps_per_second": 4.78,
+      "step": 69500
+    },
+    {
+      "epoch": 6.823942288945213,
+      "grad_norm": 3.1595242023468018,
+      "learning_rate": 3e-05,
+      "loss": 0.8476,
+      "step": 70000
+    },
+    {
+      "epoch": 6.823942288945213,
+      "eval_accuracy": 0.8272099679007218,
+      "eval_loss": 0.9176299571990967,
+      "eval_runtime": 407.4234,
+      "eval_samples_per_second": 152.463,
+      "eval_steps_per_second": 4.767,
+      "step": 70000
+    },
+    {
+      "epoch": 6.872684733866251,
+      "grad_norm": 3.26577091217041,
+      "learning_rate": 2.95e-05,
+      "loss": 0.8546,
+      "step": 70500
+    },
+    {
+      "epoch": 6.872684733866251,
+      "eval_accuracy": 0.8276587581698454,
+      "eval_loss": 0.9238181114196777,
+      "eval_runtime": 417.6745,
+      "eval_samples_per_second": 148.721,
+      "eval_steps_per_second": 4.65,
+      "step": 70500
+    },
+    {
+      "epoch": 6.921427178787288,
+      "grad_norm": 4.188171863555908,
+      "learning_rate": 2.9e-05,
+      "loss": 0.857,
+      "step": 71000
+    },
+    {
+      "epoch": 6.921427178787288,
+      "eval_accuracy": 0.8276207824632725,
+      "eval_loss": 0.9164689779281616,
+      "eval_runtime": 410.2588,
+      "eval_samples_per_second": 151.409,
+      "eval_steps_per_second": 4.734,
+      "step": 71000
+    },
+    {
+      "epoch": 6.970169623708325,
+      "grad_norm": 2.763139247894287,
+      "learning_rate": 2.8499999999999998e-05,
+      "loss": 0.8451,
+      "step": 71500
+    },
+    {
+      "epoch": 6.970169623708325,
+      "eval_accuracy": 0.8271887327119185,
+      "eval_loss": 0.9177712798118591,
+      "eval_runtime": 407.3065,
+      "eval_samples_per_second": 152.507,
+      "eval_steps_per_second": 4.768,
+      "step": 71500
+    },
+    {
+      "epoch": 7.018912068629362,
+      "grad_norm": 4.059235095977783,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.8555,
+      "step": 72000
+    },
+    {
+      "epoch": 7.018912068629362,
+      "eval_accuracy": 0.8276455598958156,
+      "eval_loss": 0.9244613647460938,
+      "eval_runtime": 407.3569,
+      "eval_samples_per_second": 152.488,
+      "eval_steps_per_second": 4.767,
+      "step": 72000
+    },
+    {
+      "epoch": 7.0676545135504,
+      "grad_norm": 3.997545003890991,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.8462,
+      "step": 72500
+    },
+    {
+      "epoch": 7.0676545135504,
+      "eval_accuracy": 0.8275193754333664,
+      "eval_loss": 0.9270544052124023,
+      "eval_runtime": 410.4712,
+      "eval_samples_per_second": 151.331,
+      "eval_steps_per_second": 4.731,
+      "step": 72500
+    },
+    {
+      "epoch": 7.116396958471437,
+      "grad_norm": 3.3070528507232666,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 0.8406,
+      "step": 73000
+    },
+    {
+      "epoch": 7.116396958471437,
+      "eval_accuracy": 0.827724122124491,
+      "eval_loss": 0.907126247882843,
+      "eval_runtime": 420.0303,
+      "eval_samples_per_second": 147.887,
+      "eval_steps_per_second": 4.623,
+      "step": 73000
+    },
+    {
+      "epoch": 7.165139403392474,
+      "grad_norm": 3.3446497917175293,
+      "learning_rate": 2.6500000000000004e-05,
+      "loss": 0.8361,
+      "step": 73500
+    },
+    {
+      "epoch": 7.165139403392474,
+      "eval_accuracy": 0.8287420232113283,
+      "eval_loss": 0.90281742811203,
+      "eval_runtime": 415.0764,
+      "eval_samples_per_second": 149.652,
+      "eval_steps_per_second": 4.679,
+      "step": 73500
+    },
+    {
+      "epoch": 7.213881848313512,
+      "grad_norm": 3.962263345718384,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.8407,
+      "step": 74000
+    },
+    {
+      "epoch": 7.213881848313512,
+      "eval_accuracy": 0.8290002931584822,
+      "eval_loss": 0.908825695514679,
+      "eval_runtime": 421.665,
+      "eval_samples_per_second": 147.314,
+      "eval_steps_per_second": 4.606,
+      "step": 74000
+    },
+    {
+      "epoch": 7.262624293234548,
+      "grad_norm": 3.412740468978882,
+      "learning_rate": 2.5500000000000003e-05,
+      "loss": 0.831,
+      "step": 74500
+    },
+    {
+      "epoch": 7.262624293234548,
+      "eval_accuracy": 0.8298599086687342,
+      "eval_loss": 0.9019548892974854,
+      "eval_runtime": 411.246,
+      "eval_samples_per_second": 151.046,
+      "eval_steps_per_second": 4.722,
+      "step": 74500
+    },
+    {
+      "epoch": 7.311366738155586,
+      "grad_norm": 3.3244595527648926,
+      "learning_rate": 2.5e-05,
+      "loss": 0.8394,
+      "step": 75000
+    },
+    {
+      "epoch": 7.311366738155586,
+      "eval_accuracy": 0.829160436990889,
+      "eval_loss": 0.9075309038162231,
+      "eval_runtime": 411.1707,
+      "eval_samples_per_second": 151.074,
+      "eval_steps_per_second": 4.723,
+      "step": 75000
+    },
+    {
+      "epoch": 7.360109183076623,
+      "grad_norm": 3.855215549468994,
+      "learning_rate": 2.45e-05,
+      "loss": 0.8319,
+      "step": 75500
+    },
+    {
+      "epoch": 7.360109183076623,
+      "eval_accuracy": 0.8290864150792293,
+      "eval_loss": 0.914759635925293,
+      "eval_runtime": 410.8744,
+      "eval_samples_per_second": 151.182,
+      "eval_steps_per_second": 4.727,
+      "step": 75500
+    },
+    {
+      "epoch": 7.40885162799766,
+      "grad_norm": 3.3140082359313965,
+      "learning_rate": 2.4e-05,
+      "loss": 0.8382,
+      "step": 76000
+    },
+    {
+      "epoch": 7.40885162799766,
+      "eval_accuracy": 0.8291830831243966,
+      "eval_loss": 0.9062051773071289,
+      "eval_runtime": 415.0784,
+      "eval_samples_per_second": 149.651,
+      "eval_steps_per_second": 4.679,
+      "step": 76000
+    },
+    {
+      "epoch": 7.457594072918697,
+      "grad_norm": 3.379228115081787,
+      "learning_rate": 2.35e-05,
+      "loss": 0.8393,
+      "step": 76500
+    },
+    {
+      "epoch": 7.457594072918697,
+      "eval_accuracy": 0.8302764580660623,
+      "eval_loss": 0.904826283454895,
+      "eval_runtime": 420.5555,
+      "eval_samples_per_second": 147.702,
+      "eval_steps_per_second": 4.618,
+      "step": 76500
+    },
+    {
+      "epoch": 7.506336517839735,
+      "grad_norm": 4.405816555023193,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.8329,
+      "step": 77000
+    },
+    {
+      "epoch": 7.506336517839735,
+      "eval_accuracy": 0.8302014924762132,
+      "eval_loss": 0.901425302028656,
+      "eval_runtime": 411.0172,
+      "eval_samples_per_second": 151.13,
+      "eval_steps_per_second": 4.725,
+      "step": 77000
+    },
+    {
+      "epoch": 7.555078962760772,
+      "grad_norm": 3.3257713317871094,
+      "learning_rate": 2.25e-05,
+      "loss": 0.821,
+      "step": 77500
+    },
+    {
+      "epoch": 7.555078962760772,
+      "eval_accuracy": 0.8307996486461996,
+      "eval_loss": 0.9093529582023621,
+      "eval_runtime": 421.3837,
+      "eval_samples_per_second": 147.412,
+      "eval_steps_per_second": 4.609,
+      "step": 77500
+    },
+    {
+      "epoch": 7.603821407681809,
+      "grad_norm": 3.748304843902588,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.8182,
+      "step": 78000
+    },
+    {
+      "epoch": 7.603821407681809,
+      "eval_accuracy": 0.8306815632390625,
+      "eval_loss": 0.9139160513877869,
+      "eval_runtime": 421.7982,
+      "eval_samples_per_second": 147.267,
+      "eval_steps_per_second": 4.604,
+      "step": 78000
+    },
+    {
+      "epoch": 7.652563852602847,
+      "grad_norm": 3.9193367958068848,
+      "learning_rate": 2.15e-05,
+      "loss": 0.8235,
+      "step": 78500
+    },
+    {
+      "epoch": 7.652563852602847,
+      "eval_accuracy": 0.8304462857947059,
+      "eval_loss": 0.9012885093688965,
+      "eval_runtime": 410.9874,
+      "eval_samples_per_second": 151.141,
+      "eval_steps_per_second": 4.725,
+      "step": 78500
+    },
+    {
+      "epoch": 7.7013062975238835,
+      "grad_norm": 3.0447959899902344,
+      "learning_rate": 2.1e-05,
+      "loss": 0.8231,
+      "step": 79000
+    },
+    {
+      "epoch": 7.7013062975238835,
+      "eval_accuracy": 0.8311366484422618,
+      "eval_loss": 0.9142009615898132,
+      "eval_runtime": 421.0783,
+      "eval_samples_per_second": 147.519,
+      "eval_steps_per_second": 4.612,
+      "step": 79000
+    },
+    {
+      "epoch": 7.750048742444921,
+      "grad_norm": 3.178105354309082,
+      "learning_rate": 2.05e-05,
+      "loss": 0.8295,
+      "step": 79500
+    },
+    {
+      "epoch": 7.750048742444921,
+      "eval_accuracy": 0.8311365986906916,
+      "eval_loss": 0.8990747332572937,
+      "eval_runtime": 411.2163,
+      "eval_samples_per_second": 151.057,
+      "eval_steps_per_second": 4.723,
+      "step": 79500
+    },
+    {
+      "epoch": 7.798791187365958,
+      "grad_norm": 3.5765883922576904,
+      "learning_rate": 2e-05,
+      "loss": 0.8226,
+      "step": 80000
+    },
+    {
+      "epoch": 7.798791187365958,
+      "eval_accuracy": 0.831212165348238,
+      "eval_loss": 0.9084219336509705,
+      "eval_runtime": 421.425,
+      "eval_samples_per_second": 147.398,
+      "eval_steps_per_second": 4.608,
+      "step": 80000
+    },
+    {
+      "epoch": 7.8475336322869955,
+      "grad_norm": 3.9313628673553467,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 0.8259,
+      "step": 80500
+    },
+    {
+      "epoch": 7.8475336322869955,
+      "eval_accuracy": 0.8318195921167911,
+      "eval_loss": 0.9043404459953308,
+      "eval_runtime": 421.3189,
+      "eval_samples_per_second": 147.435,
+      "eval_steps_per_second": 4.609,
+      "step": 80500
+    },
+    {
+      "epoch": 7.896276077208032,
+      "grad_norm": 3.5046310424804688,
+      "learning_rate": 1.9e-05,
+      "loss": 0.8214,
+      "step": 81000
+    },
+    {
+      "epoch": 7.896276077208032,
+      "eval_accuracy": 0.8321367445173339,
+      "eval_loss": 0.8911643028259277,
+      "eval_runtime": 421.1955,
+      "eval_samples_per_second": 147.478,
+      "eval_steps_per_second": 4.611,
+      "step": 81000
+    },
+    {
+      "epoch": 7.94501852212907,
+      "grad_norm": 3.291712999343872,
+      "learning_rate": 1.85e-05,
+      "loss": 0.8245,
+      "step": 81500
+    },
+    {
+      "epoch": 7.94501852212907,
+      "eval_accuracy": 0.8320552879695452,
+      "eval_loss": 0.8937601447105408,
+      "eval_runtime": 411.1067,
+      "eval_samples_per_second": 151.097,
+      "eval_steps_per_second": 4.724,
+      "step": 81500
+    },
+    {
+      "epoch": 7.9937609670501075,
+      "grad_norm": 3.106718063354492,
+      "learning_rate": 1.8e-05,
+      "loss": 0.8231,
+      "step": 82000
+    },
+    {
+      "epoch": 7.9937609670501075,
+      "eval_accuracy": 0.8324106123010148,
+      "eval_loss": 0.892302393913269,
+      "eval_runtime": 421.5985,
+      "eval_samples_per_second": 147.337,
+      "eval_steps_per_second": 4.606,
+      "step": 82000
+    },
+    {
+      "epoch": 8.042503411971145,
+      "grad_norm": 3.7286880016326904,
+      "learning_rate": 1.75e-05,
+      "loss": 0.8103,
+      "step": 82500
+    },
+    {
+      "epoch": 8.042503411971145,
+      "eval_accuracy": 0.8321463976856007,
+      "eval_loss": 0.8813316822052002,
+      "eval_runtime": 410.8912,
+      "eval_samples_per_second": 151.176,
+      "eval_steps_per_second": 4.726,
+      "step": 82500
+    },
+    {
+      "epoch": 8.091245856892181,
+      "grad_norm": 4.125603199005127,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.816,
+      "step": 83000
+    },
+    {
+      "epoch": 8.091245856892181,
+      "eval_accuracy": 0.8330290185255811,
+      "eval_loss": 0.90044766664505,
+      "eval_runtime": 410.932,
+      "eval_samples_per_second": 151.161,
+      "eval_steps_per_second": 4.726,
+      "step": 83000
+    },
+    {
+      "epoch": 8.139988301813219,
+      "grad_norm": 3.6977617740631104,
+      "learning_rate": 1.65e-05,
+      "loss": 0.8178,
+      "step": 83500
+    },
+    {
+      "epoch": 8.139988301813219,
+      "eval_accuracy": 0.8330648677426203,
+      "eval_loss": 0.8834232687950134,
+      "eval_runtime": 410.273,
+      "eval_samples_per_second": 151.404,
+      "eval_steps_per_second": 4.733,
+      "step": 83500
+    },
+    {
+      "epoch": 8.188730746734256,
+      "grad_norm": 3.645653247833252,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.8004,
+      "step": 84000
+    },
+    {
+      "epoch": 8.188730746734256,
+      "eval_accuracy": 0.8328894631127913,
+      "eval_loss": 0.8885020017623901,
+      "eval_runtime": 421.6692,
+      "eval_samples_per_second": 147.312,
+      "eval_steps_per_second": 4.606,
+      "step": 84000
+    },
+    {
+      "epoch": 8.237473191655294,
+      "grad_norm": 4.153274059295654,
+      "learning_rate": 1.55e-05,
+      "loss": 0.8062,
+      "step": 84500
+    },
+    {
+      "epoch": 8.237473191655294,
+      "eval_accuracy": 0.8329369957505026,
+      "eval_loss": 0.8888145089149475,
+      "eval_runtime": 409.367,
+      "eval_samples_per_second": 151.739,
+      "eval_steps_per_second": 4.744,
+      "step": 84500
+    },
+    {
+      "epoch": 8.28621563657633,
+      "grad_norm": 3.958219528198242,
+      "learning_rate": 1.5e-05,
+      "loss": 0.8139,
+      "step": 85000
+    },
+    {
+      "epoch": 8.28621563657633,
+      "eval_accuracy": 0.8327970192226268,
+      "eval_loss": 0.8985949754714966,
+      "eval_runtime": 420.7578,
+      "eval_samples_per_second": 147.631,
+      "eval_steps_per_second": 4.615,
+      "step": 85000
+    },
+    {
+      "epoch": 8.334958081497367,
+      "grad_norm": 2.9045639038085938,
+      "learning_rate": 1.45e-05,
+      "loss": 0.8062,
+      "step": 85500
+    },
+    {
+      "epoch": 8.334958081497367,
+      "eval_accuracy": 0.8340764025345829,
+      "eval_loss": 0.8828948140144348,
+      "eval_runtime": 421.0352,
+      "eval_samples_per_second": 147.534,
+      "eval_steps_per_second": 4.612,
+      "step": 85500
+    },
+    {
+      "epoch": 8.383700526418405,
+      "grad_norm": 3.1342079639434814,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.7989,
+      "step": 86000
+    },
+    {
+      "epoch": 8.383700526418405,
+      "eval_accuracy": 0.8341633931538641,
+      "eval_loss": 0.886264979839325,
+      "eval_runtime": 421.0291,
+      "eval_samples_per_second": 147.536,
+      "eval_steps_per_second": 4.613,
+      "step": 86000
+    },
+    {
+      "epoch": 8.432442971339443,
+      "grad_norm": 3.8171074390411377,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 0.7996,
+      "step": 86500
+    },
+    {
+      "epoch": 8.432442971339443,
+      "eval_accuracy": 0.8343804133323081,
+      "eval_loss": 0.8822252154350281,
+      "eval_runtime": 410.5394,
+      "eval_samples_per_second": 151.306,
+      "eval_steps_per_second": 4.73,
+      "step": 86500
+    },
+    {
+      "epoch": 8.48118541626048,
+      "grad_norm": 3.815415620803833,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.8077,
+      "step": 87000
+    },
+    {
+      "epoch": 8.48118541626048,
+      "eval_accuracy": 0.8346840748418042,
+      "eval_loss": 0.8820429444313049,
+      "eval_runtime": 409.395,
+      "eval_samples_per_second": 151.729,
+      "eval_steps_per_second": 4.744,
+      "step": 87000
+    },
+    {
+      "epoch": 8.529927861181516,
+      "grad_norm": 3.472749710083008,
+      "learning_rate": 1.25e-05,
+      "loss": 0.8,
+      "step": 87500
+    },
+    {
+      "epoch": 8.529927861181516,
+      "eval_accuracy": 0.8344507719507152,
+      "eval_loss": NaN,
+      "eval_runtime": 410.8123,
+      "eval_samples_per_second": 151.205,
+      "eval_steps_per_second": 4.727,
+      "step": 87500
+    },
+    {
+      "epoch": 8.578670306102554,
+      "grad_norm": 3.4210853576660156,
+      "learning_rate": 1.2e-05,
+      "loss": 0.7954,
+      "step": 88000
+    },
+    {
+      "epoch": 8.578670306102554,
+      "eval_accuracy": 0.8346871655612746,
+      "eval_loss": 0.889224112033844,
+      "eval_runtime": 421.2172,
+      "eval_samples_per_second": 147.47,
+      "eval_steps_per_second": 4.61,
+      "step": 88000
+    },
+    {
+      "epoch": 8.627412751023591,
+      "grad_norm": 4.314051628112793,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 0.7948,
+      "step": 88500
+    },
+    {
+      "epoch": 8.627412751023591,
+      "eval_accuracy": 0.8345174375290413,
+      "eval_loss": 0.8909358382225037,
+      "eval_runtime": 421.2829,
+      "eval_samples_per_second": 147.447,
+      "eval_steps_per_second": 4.61,
+      "step": 88500
+    },
+    {
+      "epoch": 8.676155195944629,
+      "grad_norm": 4.1729841232299805,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.8054,
+      "step": 89000
+    },
+    {
+      "epoch": 8.676155195944629,
+      "eval_accuracy": 0.8349649013896184,
+      "eval_loss": 0.8881335854530334,
+      "eval_runtime": 417.162,
+      "eval_samples_per_second": 148.904,
+      "eval_steps_per_second": 4.655,
+      "step": 89000
+    },
+    {
+      "epoch": 8.724897640865667,
+      "grad_norm": 4.046889305114746,
+      "learning_rate": 1.05e-05,
+      "loss": 0.8025,
+      "step": 89500
+    },
+    {
+      "epoch": 8.724897640865667,
+      "eval_accuracy": 0.8351938054358102,
+      "eval_loss": 0.8830729126930237,
+      "eval_runtime": 410.8378,
+      "eval_samples_per_second": 151.196,
+      "eval_steps_per_second": 4.727,
+      "step": 89500
+    },
+    {
+      "epoch": 8.773640085786703,
+      "grad_norm": 3.559530258178711,
+      "learning_rate": 1e-05,
+      "loss": 0.7931,
+      "step": 90000
+    },
+    {
+      "epoch": 8.773640085786703,
+      "eval_accuracy": 0.8350349267242381,
+      "eval_loss": 0.8810989260673523,
+      "eval_runtime": 410.8806,
+      "eval_samples_per_second": 151.18,
+      "eval_steps_per_second": 4.726,
+      "step": 90000
+    },
+    {
+      "epoch": 8.82238253070774,
+      "grad_norm": 2.676598072052002,
+      "learning_rate": 9.5e-06,
+      "loss": 0.7991,
+      "step": 90500
+    },
+    {
+      "epoch": 8.82238253070774,
+      "eval_accuracy": 0.835213564425697,
+      "eval_loss": 0.8790693879127502,
+      "eval_runtime": 411.3497,
+      "eval_samples_per_second": 151.008,
+      "eval_steps_per_second": 4.721,
+      "step": 90500
+    },
+    {
+      "epoch": 8.871124975628778,
+      "grad_norm": 4.853274345397949,
+      "learning_rate": 9e-06,
+      "loss": 0.7932,
+      "step": 91000
+    },
+    {
+      "epoch": 8.871124975628778,
+      "eval_accuracy": 0.8354392726720316,
+      "eval_loss": 0.884040892124176,
+      "eval_runtime": 410.218,
+      "eval_samples_per_second": 151.424,
+      "eval_steps_per_second": 4.734,
+      "step": 91000
+    },
+    {
+      "epoch": 8.919867420549815,
+      "grad_norm": 3.395076274871826,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.8038,
+      "step": 91500
+    },
+    {
+      "epoch": 8.919867420549815,
+      "eval_accuracy": 0.8354977290802013,
+      "eval_loss": 0.8750784397125244,
+      "eval_runtime": 420.6483,
+      "eval_samples_per_second": 147.67,
+      "eval_steps_per_second": 4.617,
+      "step": 91500
+    },
+    {
+      "epoch": 8.968609865470851,
+      "grad_norm": 3.1790411472320557,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.797,
+      "step": 92000
+    },
+    {
+      "epoch": 8.968609865470851,
+      "eval_accuracy": 0.8356597168660417,
+      "eval_loss": 0.8808930516242981,
+      "eval_runtime": 421.2453,
+      "eval_samples_per_second": 147.46,
+      "eval_steps_per_second": 4.61,
+      "step": 92000
+    },
+    {
+      "epoch": 9.017352310391889,
+      "grad_norm": 3.0785293579101562,
+      "learning_rate": 7.5e-06,
+      "loss": 0.7886,
+      "step": 92500
+    },
+    {
+      "epoch": 9.017352310391889,
+      "eval_accuracy": 0.8362075555143024,
+      "eval_loss": 0.8746069669723511,
+      "eval_runtime": 411.8984,
+      "eval_samples_per_second": 150.807,
+      "eval_steps_per_second": 4.715,
+      "step": 92500
+    },
+    {
+      "epoch": 9.066094755312927,
+      "grad_norm": 4.20958137512207,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.7857,
+      "step": 93000
+    },
+    {
+      "epoch": 9.066094755312927,
+      "eval_accuracy": 0.8365400512194333,
+      "eval_loss": 0.8794592022895813,
+      "eval_runtime": 411.5406,
+      "eval_samples_per_second": 150.938,
+      "eval_steps_per_second": 4.719,
+      "step": 93000
+    },
+    {
+      "epoch": 9.114837200233964,
+      "grad_norm": 3.4888412952423096,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.7905,
+      "step": 93500
+    },
+    {
+      "epoch": 9.114837200233964,
+      "eval_accuracy": 0.8357585983151461,
+      "eval_loss": NaN,
+      "eval_runtime": 411.342,
+      "eval_samples_per_second": 151.011,
+      "eval_steps_per_second": 4.721,
+      "step": 93500
+    },
+    {
+      "epoch": 9.163579645155002,
+      "grad_norm": 3.387164831161499,
+      "learning_rate": 6e-06,
+      "loss": 0.7871,
+      "step": 94000
+    },
+    {
+      "epoch": 9.163579645155002,
+      "eval_accuracy": 0.8367420900181296,
+      "eval_loss": 0.8770105242729187,
+      "eval_runtime": 421.3937,
+      "eval_samples_per_second": 147.408,
+      "eval_steps_per_second": 4.609,
+      "step": 94000
+    },
+    {
+      "epoch": 9.212322090076038,
+      "grad_norm": 2.8375401496887207,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.7943,
+      "step": 94500
+    },
+    {
+      "epoch": 9.212322090076038,
+      "eval_accuracy": 0.8363407742570033,
+      "eval_loss": 0.8801371455192566,
+      "eval_runtime": 412.0432,
+      "eval_samples_per_second": 150.754,
+      "eval_steps_per_second": 4.713,
+      "step": 94500
+    },
+    {
+      "epoch": 9.261064534997075,
+      "grad_norm": 3.558210849761963,
+      "learning_rate": 5e-06,
+      "loss": 0.7827,
+      "step": 95000
+    },
+    {
+      "epoch": 9.261064534997075,
+      "eval_accuracy": 0.8367376661868028,
+      "eval_loss": 0.8815721273422241,
+      "eval_runtime": 411.572,
+      "eval_samples_per_second": 150.926,
+      "eval_steps_per_second": 4.718,
+      "step": 95000
+    },
+    {
+      "epoch": 9.309806979918113,
+      "grad_norm": 3.5054867267608643,
+      "learning_rate": 4.5e-06,
+      "loss": 0.7817,
+      "step": 95500
+    },
+    {
+      "epoch": 9.309806979918113,
+      "eval_accuracy": 0.8367934091134708,
+      "eval_loss": 0.8681079149246216,
+      "eval_runtime": 422.2461,
+      "eval_samples_per_second": 147.111,
+      "eval_steps_per_second": 4.599,
+      "step": 95500
+    },
+    {
+      "epoch": 9.35854942483915,
+      "grad_norm": 3.3173916339874268,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.7869,
+      "step": 96000
+    },
+    {
+      "epoch": 9.35854942483915,
+      "eval_accuracy": 0.8368133488425433,
+      "eval_loss": 0.8694866895675659,
+      "eval_runtime": 416.5981,
+      "eval_samples_per_second": 149.105,
+      "eval_steps_per_second": 4.662,
+      "step": 96000
+    },
+    {
+      "epoch": 9.407291869760186,
+      "grad_norm": 3.7099990844726562,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.7824,
+      "step": 96500
+    },
+    {
+      "epoch": 9.407291869760186,
+      "eval_accuracy": 0.8365284158336549,
+      "eval_loss": 0.8713687062263489,
+      "eval_runtime": 421.857,
+      "eval_samples_per_second": 147.247,
+      "eval_steps_per_second": 4.603,
+      "step": 96500
+    },
+    {
+      "epoch": 9.456034314681224,
+      "grad_norm": 3.0227816104888916,
+      "learning_rate": 3e-06,
+      "loss": 0.7798,
+      "step": 97000
+    },
+    {
+      "epoch": 9.456034314681224,
+      "eval_accuracy": 0.8368876518310658,
+      "eval_loss": 0.8661150336265564,
+      "eval_runtime": 421.5746,
+      "eval_samples_per_second": 147.345,
+      "eval_steps_per_second": 4.607,
+      "step": 97000
+    },
+    {
+      "epoch": 9.504776759602262,
+      "grad_norm": 3.0522849559783936,
+      "learning_rate": 2.5e-06,
+      "loss": 0.7781,
+      "step": 97500
+    },
+    {
+      "epoch": 9.504776759602262,
+      "eval_accuracy": 0.8375290357797354,
+      "eval_loss": 0.8749486804008484,
+      "eval_runtime": 412.2604,
+      "eval_samples_per_second": 150.674,
+      "eval_steps_per_second": 4.711,
+      "step": 97500
+    },
+    {
+      "epoch": 9.5535192045233,
+      "grad_norm": 3.0036725997924805,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.7817,
+      "step": 98000
+    },
+    {
+      "epoch": 9.5535192045233,
+      "eval_accuracy": 0.8371932481486926,
+      "eval_loss": 0.8651660084724426,
+      "eval_runtime": 421.7398,
+      "eval_samples_per_second": 147.287,
+      "eval_steps_per_second": 4.605,
+      "step": 98000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 100000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.27282260465025e+17,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee3f623a57bd8bde67e813c7aabc9017c36ee0d916c976805df4142ef7ec8f1b
+size 5176