Uploading checkpoint-98500 for xlm-r - dan-latn

Browse files

Files changed (14) hide show

.gitattributes +1 -0
README.md +67 -0
config.json +34 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
scheduler.pt +3 -0
sentencepiece.bpe.model +3 -0
special_tokens_map.json +15 -0
tokenizer.json +3 -0
tokenizer_config.json +54 -0
trainer_state.json +3185 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,67 @@

+---
+library_name: transformers
+license: mit
+base_model: FacebookAI/xlm-roberta-base
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: dan-Latn
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# dan-Latn
+This model is a fine-tuned version of [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: nan
+- Accuracy: 0.8001
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- training_steps: 100000
+    ### Citation Information
+    If you use this model in your work, please cite the following paper. Additionally, if you require more details on training and performance, refer to the paper:
+    @misc{gurgurov2025smallmodelsbigimpact,
+        title={Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages},
+        author={Daniil Gurgurov and Ivan Vykopal and Josef van Genabith and Simon Ostermann},
+        year={2025},
+        eprint={2502.10140},
+        archivePrefix={arXiv},
+        primaryClass={cs.CL},
+        url={https://arxiv.org/abs/2502.10140},
+    }

config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "FacebookAI/xlm-roberta-base",
+  "adapters": {
+    "adapters": {},
+    "config_map": {},
+    "fusion_config_map": {},
+    "fusions": {}
+  },
+  "architectures": [
+    "XLMRobertaForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a196d0b4f8981b4a78fb32b244ec8830f34fc22c516268812fb734415d4077bf
+size 1113205088

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a0b7c03a4931b588db7acbcae6562bb20c0f0ee934d7944cbed3b03c50f46e2
+size 2226530490

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dda0e98a5feac7ce7b965d971bd042a2dbf23e57fc89ed80bc35248f40a3cd05
+size 14512

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be4bf09758aed1f2eab8363a2457a8619781a1ecd62a548afe0c7735c3fcc5bf
+size 14512

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b72c24b8eeac82a0d428f6aaf2686dbda50deecaee6ca497e01bfbb1a32f05c
+size 1064

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
+size 5069051

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8373f9cd3d27591e1924426bcc1c8799bc5a9affc4fc857982c5d66668dd1f41
+size 17082832

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3185 @@

+{
+  "best_metric": 1.0273813009262085,
+  "best_model_checkpoint": "./model_fine-tune/glot/xlm-r/dan-Latn/checkpoint-98500",
+  "epoch": 10.286131996658312,
+  "eval_steps": 500,
+  "global_step": 98500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.052213868003341685,
+      "grad_norm": 5.384862422943115,
+      "learning_rate": 9.95e-05,
+      "loss": 1.4559,
+      "step": 500
+    },
+    {
+      "epoch": 0.052213868003341685,
+      "eval_accuracy": 0.7296120738961336,
+      "eval_loss": 1.6221407651901245,
+      "eval_runtime": 620.8615,
+      "eval_samples_per_second": 102.185,
+      "eval_steps_per_second": 3.194,
+      "step": 500
+    },
+    {
+      "epoch": 0.10442773600668337,
+      "grad_norm": 4.473601818084717,
+      "learning_rate": 9.900000000000001e-05,
+      "loss": 1.4355,
+      "step": 1000
+    },
+    {
+      "epoch": 0.10442773600668337,
+      "eval_accuracy": 0.7314203520980975,
+      "eval_loss": 1.563644289970398,
+      "eval_runtime": 631.0902,
+      "eval_samples_per_second": 100.529,
+      "eval_steps_per_second": 3.142,
+      "step": 1000
+    },
+    {
+      "epoch": 0.15664160401002505,
+      "grad_norm": 4.604930877685547,
+      "learning_rate": 9.850000000000001e-05,
+      "loss": 1.4326,
+      "step": 1500
+    },
+    {
+      "epoch": 0.15664160401002505,
+      "eval_accuracy": 0.732858138551035,
+      "eval_loss": 1.538730502128601,
+      "eval_runtime": 627.1459,
+      "eval_samples_per_second": 101.161,
+      "eval_steps_per_second": 3.162,
+      "step": 1500
+    },
+    {
+      "epoch": 0.20885547201336674,
+      "grad_norm": 5.0758867263793945,
+      "learning_rate": 9.8e-05,
+      "loss": 1.4082,
+      "step": 2000
+    },
+    {
+      "epoch": 0.20885547201336674,
+      "eval_accuracy": 0.7337186853777712,
+      "eval_loss": 1.514768123626709,
+      "eval_runtime": 623.7693,
+      "eval_samples_per_second": 101.709,
+      "eval_steps_per_second": 3.179,
+      "step": 2000
+    },
+    {
+      "epoch": 0.26106934001670845,
+      "grad_norm": 4.955592155456543,
+      "learning_rate": 9.75e-05,
+      "loss": 1.4066,
+      "step": 2500
+    },
+    {
+      "epoch": 0.26106934001670845,
+      "eval_accuracy": 0.7373838924395351,
+      "eval_loss": 1.4860447645187378,
+      "eval_runtime": 626.6763,
+      "eval_samples_per_second": 101.237,
+      "eval_steps_per_second": 3.164,
+      "step": 2500
+    },
+    {
+      "epoch": 0.3132832080200501,
+      "grad_norm": 4.4695611000061035,
+      "learning_rate": 9.7e-05,
+      "loss": 1.3965,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3132832080200501,
+      "eval_accuracy": 0.7386060798818527,
+      "eval_loss": 1.4720885753631592,
+      "eval_runtime": 626.8807,
+      "eval_samples_per_second": 101.204,
+      "eval_steps_per_second": 3.163,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3654970760233918,
+      "grad_norm": 4.595192909240723,
+      "learning_rate": 9.65e-05,
+      "loss": 1.3674,
+      "step": 3500
+    },
+    {
+      "epoch": 0.3654970760233918,
+      "eval_accuracy": 0.7389515252696706,
+      "eval_loss": 1.466160774230957,
+      "eval_runtime": 626.2854,
+      "eval_samples_per_second": 101.3,
+      "eval_steps_per_second": 3.166,
+      "step": 3500
+    },
+    {
+      "epoch": 0.4177109440267335,
+      "grad_norm": 4.489499092102051,
+      "learning_rate": 9.6e-05,
+      "loss": 1.3789,
+      "step": 4000
+    },
+    {
+      "epoch": 0.4177109440267335,
+      "eval_accuracy": 0.7408971720895672,
+      "eval_loss": 1.4427233934402466,
+      "eval_runtime": 628.8309,
+      "eval_samples_per_second": 100.89,
+      "eval_steps_per_second": 3.153,
+      "step": 4000
+    },
+    {
+      "epoch": 0.4699248120300752,
+      "grad_norm": 4.887514114379883,
+      "learning_rate": 9.55e-05,
+      "loss": 1.3677,
+      "step": 4500
+    },
+    {
+      "epoch": 0.4699248120300752,
+      "eval_accuracy": 0.7418176415206207,
+      "eval_loss": NaN,
+      "eval_runtime": 626.3841,
+      "eval_samples_per_second": 101.285,
+      "eval_steps_per_second": 3.166,
+      "step": 4500
+    },
+    {
+      "epoch": 0.5221386800334169,
+      "grad_norm": 4.255401611328125,
+      "learning_rate": 9.5e-05,
+      "loss": 1.3591,
+      "step": 5000
+    },
+    {
+      "epoch": 0.5221386800334169,
+      "eval_accuracy": 0.7420801988701987,
+      "eval_loss": 1.4378492832183838,
+      "eval_runtime": 628.3584,
+      "eval_samples_per_second": 100.966,
+      "eval_steps_per_second": 3.156,
+      "step": 5000
+    },
+    {
+      "epoch": 0.5743525480367586,
+      "grad_norm": 3.9552218914031982,
+      "learning_rate": 9.449999999999999e-05,
+      "loss": 1.3528,
+      "step": 5500
+    },
+    {
+      "epoch": 0.5743525480367586,
+      "eval_accuracy": 0.7430785963224286,
+      "eval_loss": 1.4063905477523804,
+      "eval_runtime": 630.6125,
+      "eval_samples_per_second": 100.605,
+      "eval_steps_per_second": 3.145,
+      "step": 5500
+    },
+    {
+      "epoch": 0.6265664160401002,
+      "grad_norm": 4.043545246124268,
+      "learning_rate": 9.4e-05,
+      "loss": 1.3467,
+      "step": 6000
+    },
+    {
+      "epoch": 0.6265664160401002,
+      "eval_accuracy": 0.7439164901309249,
+      "eval_loss": 1.4179232120513916,
+      "eval_runtime": 627.0519,
+      "eval_samples_per_second": 101.177,
+      "eval_steps_per_second": 3.162,
+      "step": 6000
+    },
+    {
+      "epoch": 0.6787802840434419,
+      "grad_norm": 65.49678802490234,
+      "learning_rate": 9.350000000000001e-05,
+      "loss": 1.3578,
+      "step": 6500
+    },
+    {
+      "epoch": 0.6787802840434419,
+      "eval_accuracy": 0.7436562018580148,
+      "eval_loss": 1.4101091623306274,
+      "eval_runtime": 631.9563,
+      "eval_samples_per_second": 100.391,
+      "eval_steps_per_second": 3.138,
+      "step": 6500
+    },
+    {
+      "epoch": 0.7309941520467836,
+      "grad_norm": 3.9676353931427,
+      "learning_rate": 9.300000000000001e-05,
+      "loss": 1.3377,
+      "step": 7000
+    },
+    {
+      "epoch": 0.7309941520467836,
+      "eval_accuracy": 0.7452273902409787,
+      "eval_loss": 1.3957942724227905,
+      "eval_runtime": 625.612,
+      "eval_samples_per_second": 101.41,
+      "eval_steps_per_second": 3.17,
+      "step": 7000
+    },
+    {
+      "epoch": 0.7832080200501254,
+      "grad_norm": 3.6173226833343506,
+      "learning_rate": 9.250000000000001e-05,
+      "loss": 1.3303,
+      "step": 7500
+    },
+    {
+      "epoch": 0.7832080200501254,
+      "eval_accuracy": 0.7475488951341268,
+      "eval_loss": 1.3813687562942505,
+      "eval_runtime": 627.0109,
+      "eval_samples_per_second": 101.183,
+      "eval_steps_per_second": 3.163,
+      "step": 7500
+    },
+    {
+      "epoch": 0.835421888053467,
+      "grad_norm": 3.980341911315918,
+      "learning_rate": 9.200000000000001e-05,
+      "loss": 1.3221,
+      "step": 8000
+    },
+    {
+      "epoch": 0.835421888053467,
+      "eval_accuracy": 0.7475162804135862,
+      "eval_loss": 1.3788014650344849,
+      "eval_runtime": 625.2826,
+      "eval_samples_per_second": 101.463,
+      "eval_steps_per_second": 3.171,
+      "step": 8000
+    },
+    {
+      "epoch": 0.8876357560568087,
+      "grad_norm": 3.367668390274048,
+      "learning_rate": 9.15e-05,
+      "loss": 1.3273,
+      "step": 8500
+    },
+    {
+      "epoch": 0.8876357560568087,
+      "eval_accuracy": 0.7486955192165756,
+      "eval_loss": 1.3720810413360596,
+      "eval_runtime": 626.1965,
+      "eval_samples_per_second": 101.315,
+      "eval_steps_per_second": 3.167,
+      "step": 8500
+    },
+    {
+      "epoch": 0.9398496240601504,
+      "grad_norm": 3.82468843460083,
+      "learning_rate": 9.1e-05,
+      "loss": 1.3104,
+      "step": 9000
+    },
+    {
+      "epoch": 0.9398496240601504,
+      "eval_accuracy": 0.7470319869853385,
+      "eval_loss": 1.3732112646102905,
+      "eval_runtime": 630.8001,
+      "eval_samples_per_second": 100.575,
+      "eval_steps_per_second": 3.144,
+      "step": 9000
+    },
+    {
+      "epoch": 0.9920634920634921,
+      "grad_norm": 3.946758270263672,
+      "learning_rate": 9.05e-05,
+      "loss": 1.3158,
+      "step": 9500
+    },
+    {
+      "epoch": 0.9920634920634921,
+      "eval_accuracy": 0.7499583551090239,
+      "eval_loss": 1.3603472709655762,
+      "eval_runtime": 652.6391,
+      "eval_samples_per_second": 97.21,
+      "eval_steps_per_second": 3.038,
+      "step": 9500
+    },
+    {
+      "epoch": 1.0442773600668338,
+      "grad_norm": 3.916361093521118,
+      "learning_rate": 9e-05,
+      "loss": 1.2953,
+      "step": 10000
+    },
+    {
+      "epoch": 1.0442773600668338,
+      "eval_accuracy": 0.7500646093431366,
+      "eval_loss": 1.3458328247070312,
+      "eval_runtime": 626.4497,
+      "eval_samples_per_second": 101.274,
+      "eval_steps_per_second": 3.165,
+      "step": 10000
+    },
+    {
+      "epoch": 1.0964912280701755,
+      "grad_norm": 3.9930801391601562,
+      "learning_rate": 8.950000000000001e-05,
+      "loss": 1.2932,
+      "step": 10500
+    },
+    {
+      "epoch": 1.0964912280701755,
+      "eval_accuracy": 0.7504904150215282,
+      "eval_loss": 1.3514128923416138,
+      "eval_runtime": 630.1314,
+      "eval_samples_per_second": 100.682,
+      "eval_steps_per_second": 3.147,
+      "step": 10500
+    },
+    {
+      "epoch": 1.1487050960735172,
+      "grad_norm": 4.74911642074585,
+      "learning_rate": 8.900000000000001e-05,
+      "loss": 1.2944,
+      "step": 11000
+    },
+    {
+      "epoch": 1.1487050960735172,
+      "eval_accuracy": 0.7512302865503326,
+      "eval_loss": 1.3358726501464844,
+      "eval_runtime": 631.5659,
+      "eval_samples_per_second": 100.453,
+      "eval_steps_per_second": 3.14,
+      "step": 11000
+    },
+    {
+      "epoch": 1.2009189640768587,
+      "grad_norm": 3.7969741821289062,
+      "learning_rate": 8.850000000000001e-05,
+      "loss": 1.2853,
+      "step": 11500
+    },
+    {
+      "epoch": 1.2009189640768587,
+      "eval_accuracy": 0.7516760587886216,
+      "eval_loss": 1.3410056829452515,
+      "eval_runtime": 631.8461,
+      "eval_samples_per_second": 100.409,
+      "eval_steps_per_second": 3.138,
+      "step": 11500
+    },
+    {
+      "epoch": 1.2531328320802004,
+      "grad_norm": 4.402622699737549,
+      "learning_rate": 8.800000000000001e-05,
+      "loss": 1.2904,
+      "step": 12000
+    },
+    {
+      "epoch": 1.2531328320802004,
+      "eval_accuracy": 0.7529186511157855,
+      "eval_loss": 1.3296958208084106,
+      "eval_runtime": 625.8019,
+      "eval_samples_per_second": 101.379,
+      "eval_steps_per_second": 3.169,
+      "step": 12000
+    },
+    {
+      "epoch": 1.3053467000835421,
+      "grad_norm": 4.738062858581543,
+      "learning_rate": 8.75e-05,
+      "loss": 1.2768,
+      "step": 12500
+    },
+    {
+      "epoch": 1.3053467000835421,
+      "eval_accuracy": 0.7535759135206747,
+      "eval_loss": 1.323601484298706,
+      "eval_runtime": 625.8627,
+      "eval_samples_per_second": 101.369,
+      "eval_steps_per_second": 3.168,
+      "step": 12500
+    },
+    {
+      "epoch": 1.3575605680868839,
+      "grad_norm": 3.4203574657440186,
+      "learning_rate": 8.7e-05,
+      "loss": 1.2702,
+      "step": 13000
+    },
+    {
+      "epoch": 1.3575605680868839,
+      "eval_accuracy": 0.7543550936371498,
+      "eval_loss": 1.311880350112915,
+      "eval_runtime": 632.5695,
+      "eval_samples_per_second": 100.294,
+      "eval_steps_per_second": 3.135,
+      "step": 13000
+    },
+    {
+      "epoch": 1.4097744360902256,
+      "grad_norm": 4.80487060546875,
+      "learning_rate": 8.65e-05,
+      "loss": 1.2686,
+      "step": 13500
+    },
+    {
+      "epoch": 1.4097744360902256,
+      "eval_accuracy": 0.7551145942334886,
+      "eval_loss": 1.3116217851638794,
+      "eval_runtime": 622.4069,
+      "eval_samples_per_second": 101.932,
+      "eval_steps_per_second": 3.186,
+      "step": 13500
+    },
+    {
+      "epoch": 1.4619883040935673,
+      "grad_norm": 3.3763253688812256,
+      "learning_rate": 8.6e-05,
+      "loss": 1.256,
+      "step": 14000
+    },
+    {
+      "epoch": 1.4619883040935673,
+      "eval_accuracy": 0.7550032122033714,
+      "eval_loss": NaN,
+      "eval_runtime": 623.0788,
+      "eval_samples_per_second": 101.822,
+      "eval_steps_per_second": 3.183,
+      "step": 14000
+    },
+    {
+      "epoch": 1.514202172096909,
+      "grad_norm": 3.4600539207458496,
+      "learning_rate": 8.55e-05,
+      "loss": 1.2689,
+      "step": 14500
+    },
+    {
+      "epoch": 1.514202172096909,
+      "eval_accuracy": 0.7562542149486124,
+      "eval_loss": 1.2966333627700806,
+      "eval_runtime": 630.2089,
+      "eval_samples_per_second": 100.67,
+      "eval_steps_per_second": 3.147,
+      "step": 14500
+    },
+    {
+      "epoch": 1.5664160401002505,
+      "grad_norm": 3.6656503677368164,
+      "learning_rate": 8.5e-05,
+      "loss": 1.2536,
+      "step": 15000
+    },
+    {
+      "epoch": 1.5664160401002505,
+      "eval_accuracy": 0.7558193144413351,
+      "eval_loss": 1.3074419498443604,
+      "eval_runtime": 633.7511,
+      "eval_samples_per_second": 100.107,
+      "eval_steps_per_second": 3.129,
+      "step": 15000
+    },
+    {
+      "epoch": 1.6186299081035922,
+      "grad_norm": 3.7582554817199707,
+      "learning_rate": 8.450000000000001e-05,
+      "loss": 1.262,
+      "step": 15500
+    },
+    {
+      "epoch": 1.6186299081035922,
+      "eval_accuracy": 0.755967622936909,
+      "eval_loss": 1.2850651741027832,
+      "eval_runtime": 626.4542,
+      "eval_samples_per_second": 101.273,
+      "eval_steps_per_second": 3.165,
+      "step": 15500
+    },
+    {
+      "epoch": 1.670843776106934,
+      "grad_norm": 3.8284225463867188,
+      "learning_rate": 8.4e-05,
+      "loss": 1.2427,
+      "step": 16000
+    },
+    {
+      "epoch": 1.670843776106934,
+      "eval_accuracy": 0.7575149255490681,
+      "eval_loss": 1.2897659540176392,
+      "eval_runtime": 624.5044,
+      "eval_samples_per_second": 101.589,
+      "eval_steps_per_second": 3.175,
+      "step": 16000
+    },
+    {
+      "epoch": 1.7230576441102756,
+      "grad_norm": 3.8263819217681885,
+      "learning_rate": 8.35e-05,
+      "loss": 1.2389,
+      "step": 16500
+    },
+    {
+      "epoch": 1.7230576441102756,
+      "eval_accuracy": 0.7580776326367493,
+      "eval_loss": 1.2844797372817993,
+      "eval_runtime": 627.1556,
+      "eval_samples_per_second": 101.16,
+      "eval_steps_per_second": 3.162,
+      "step": 16500
+    },
+    {
+      "epoch": 1.7752715121136173,
+      "grad_norm": 3.7820005416870117,
+      "learning_rate": 8.3e-05,
+      "loss": 1.2368,
+      "step": 17000
+    },
+    {
+      "epoch": 1.7752715121136173,
+      "eval_accuracy": 0.7585746778078989,
+      "eval_loss": 1.2964411973953247,
+      "eval_runtime": 635.3019,
+      "eval_samples_per_second": 99.863,
+      "eval_steps_per_second": 3.121,
+      "step": 17000
+    },
+    {
+      "epoch": 1.827485380116959,
+      "grad_norm": 3.492671012878418,
+      "learning_rate": 8.25e-05,
+      "loss": 1.2432,
+      "step": 17500
+    },
+    {
+      "epoch": 1.827485380116959,
+      "eval_accuracy": 0.7584533967429662,
+      "eval_loss": NaN,
+      "eval_runtime": 623.9705,
+      "eval_samples_per_second": 101.676,
+      "eval_steps_per_second": 3.178,
+      "step": 17500
+    },
+    {
+      "epoch": 1.8796992481203008,
+      "grad_norm": 3.714395761489868,
+      "learning_rate": 8.2e-05,
+      "loss": 1.2375,
+      "step": 18000
+    },
+    {
+      "epoch": 1.8796992481203008,
+      "eval_accuracy": 0.7593634528855384,
+      "eval_loss": NaN,
+      "eval_runtime": 623.2531,
+      "eval_samples_per_second": 101.793,
+      "eval_steps_per_second": 3.182,
+      "step": 18000
+    },
+    {
+      "epoch": 1.9319131161236425,
+      "grad_norm": 3.700199604034424,
+      "learning_rate": 8.15e-05,
+      "loss": 1.2308,
+      "step": 18500
+    },
+    {
+      "epoch": 1.9319131161236425,
+      "eval_accuracy": 0.7597829603112618,
+      "eval_loss": 1.2819814682006836,
+      "eval_runtime": 636.6684,
+      "eval_samples_per_second": 99.648,
+      "eval_steps_per_second": 3.115,
+      "step": 18500
+    },
+    {
+      "epoch": 1.9841269841269842,
+      "grad_norm": 3.390286922454834,
+      "learning_rate": 8.1e-05,
+      "loss": 1.2374,
+      "step": 19000
+    },
+    {
+      "epoch": 1.9841269841269842,
+      "eval_accuracy": 0.7603004154522052,
+      "eval_loss": 1.2687220573425293,
+      "eval_runtime": 630.1502,
+      "eval_samples_per_second": 100.679,
+      "eval_steps_per_second": 3.147,
+      "step": 19000
+    },
+    {
+      "epoch": 2.036340852130326,
+      "grad_norm": 4.251028060913086,
+      "learning_rate": 8.05e-05,
+      "loss": 1.218,
+      "step": 19500
+    },
+    {
+      "epoch": 2.036340852130326,
+      "eval_accuracy": 0.760354434691265,
+      "eval_loss": 1.2784004211425781,
+      "eval_runtime": 629.6482,
+      "eval_samples_per_second": 100.759,
+      "eval_steps_per_second": 3.149,
+      "step": 19500
+    },
+    {
+      "epoch": 2.0885547201336676,
+      "grad_norm": 3.714747905731201,
+      "learning_rate": 8e-05,
+      "loss": 1.2052,
+      "step": 20000
+    },
+    {
+      "epoch": 2.0885547201336676,
+      "eval_accuracy": 0.7609532576337851,
+      "eval_loss": 1.2718734741210938,
+      "eval_runtime": 644.9629,
+      "eval_samples_per_second": 98.367,
+      "eval_steps_per_second": 3.075,
+      "step": 20000
+    },
+    {
+      "epoch": 2.1407685881370093,
+      "grad_norm": 3.934018611907959,
+      "learning_rate": 7.950000000000001e-05,
+      "loss": 1.2133,
+      "step": 20500
+    },
+    {
+      "epoch": 2.1407685881370093,
+      "eval_accuracy": 0.7613764467527375,
+      "eval_loss": 1.2647244930267334,
+      "eval_runtime": 631.2806,
+      "eval_samples_per_second": 100.499,
+      "eval_steps_per_second": 3.141,
+      "step": 20500
+    },
+    {
+      "epoch": 2.192982456140351,
+      "grad_norm": 3.6540703773498535,
+      "learning_rate": 7.900000000000001e-05,
+      "loss": 1.2072,
+      "step": 21000
+    },
+    {
+      "epoch": 2.192982456140351,
+      "eval_accuracy": 0.7618574927985354,
+      "eval_loss": 1.2702383995056152,
+      "eval_runtime": 628.7442,
+      "eval_samples_per_second": 100.904,
+      "eval_steps_per_second": 3.154,
+      "step": 21000
+    },
+    {
+      "epoch": 2.2451963241436927,
+      "grad_norm": 3.0740270614624023,
+      "learning_rate": 7.850000000000001e-05,
+      "loss": 1.2051,
+      "step": 21500
+    },
+    {
+      "epoch": 2.2451963241436927,
+      "eval_accuracy": 0.7627010896236089,
+      "eval_loss": 1.272460699081421,
+      "eval_runtime": 628.6858,
+      "eval_samples_per_second": 100.914,
+      "eval_steps_per_second": 3.154,
+      "step": 21500
+    },
+    {
+      "epoch": 2.2974101921470345,
+      "grad_norm": 4.153682708740234,
+      "learning_rate": 7.800000000000001e-05,
+      "loss": 1.1978,
+      "step": 22000
+    },
+    {
+      "epoch": 2.2974101921470345,
+      "eval_accuracy": 0.7618345683871698,
+      "eval_loss": 1.2531063556671143,
+      "eval_runtime": 646.652,
+      "eval_samples_per_second": 98.11,
+      "eval_steps_per_second": 3.067,
+      "step": 22000
+    },
+    {
+      "epoch": 2.3496240601503757,
+      "grad_norm": 3.2469732761383057,
+      "learning_rate": 7.75e-05,
+      "loss": 1.2017,
+      "step": 22500
+    },
+    {
+      "epoch": 2.3496240601503757,
+      "eval_accuracy": 0.7624854045335798,
+      "eval_loss": NaN,
+      "eval_runtime": 639.4743,
+      "eval_samples_per_second": 99.211,
+      "eval_steps_per_second": 3.101,
+      "step": 22500
+    },
+    {
+      "epoch": 2.4018379281537174,
+      "grad_norm": 3.4860455989837646,
+      "learning_rate": 7.7e-05,
+      "loss": 1.2036,
+      "step": 23000
+    },
+    {
+      "epoch": 2.4018379281537174,
+      "eval_accuracy": 0.7637592883681051,
+      "eval_loss": 1.2505515813827515,
+      "eval_runtime": 626.8199,
+      "eval_samples_per_second": 101.214,
+      "eval_steps_per_second": 3.164,
+      "step": 23000
+    },
+    {
+      "epoch": 2.454051796157059,
+      "grad_norm": 3.0207018852233887,
+      "learning_rate": 7.65e-05,
+      "loss": 1.2039,
+      "step": 23500
+    },
+    {
+      "epoch": 2.454051796157059,
+      "eval_accuracy": 0.7636972843433327,
+      "eval_loss": 1.2614232301712036,
+      "eval_runtime": 626.1594,
+      "eval_samples_per_second": 101.321,
+      "eval_steps_per_second": 3.167,
+      "step": 23500
+    },
+    {
+      "epoch": 2.506265664160401,
+      "grad_norm": 2.820202589035034,
+      "learning_rate": 7.6e-05,
+      "loss": 1.1931,
+      "step": 24000
+    },
+    {
+      "epoch": 2.506265664160401,
+      "eval_accuracy": 0.7648100527367832,
+      "eval_loss": 1.2478718757629395,
+      "eval_runtime": 654.189,
+      "eval_samples_per_second": 96.98,
+      "eval_steps_per_second": 3.031,
+      "step": 24000
+    },
+    {
+      "epoch": 2.5584795321637426,
+      "grad_norm": 4.114190101623535,
+      "learning_rate": 7.55e-05,
+      "loss": 1.1814,
+      "step": 24500
+    },
+    {
+      "epoch": 2.5584795321637426,
+      "eval_accuracy": 0.7652067630736408,
+      "eval_loss": 1.2430387735366821,
+      "eval_runtime": 630.6204,
+      "eval_samples_per_second": 100.604,
+      "eval_steps_per_second": 3.145,
+      "step": 24500
+    },
+    {
+      "epoch": 2.6106934001670843,
+      "grad_norm": 3.205641746520996,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.1934,
+      "step": 25000
+    },
+    {
+      "epoch": 2.6106934001670843,
+      "eval_accuracy": 0.7653472241088651,
+      "eval_loss": 1.2560120820999146,
+      "eval_runtime": 633.6789,
+      "eval_samples_per_second": 100.119,
+      "eval_steps_per_second": 3.129,
+      "step": 25000
+    },
+    {
+      "epoch": 2.662907268170426,
+      "grad_norm": 3.286635637283325,
+      "learning_rate": 7.450000000000001e-05,
+      "loss": 1.1913,
+      "step": 25500
+    },
+    {
+      "epoch": 2.662907268170426,
+      "eval_accuracy": 0.7653709204327143,
+      "eval_loss": 1.2623989582061768,
+      "eval_runtime": 636.0478,
+      "eval_samples_per_second": 99.746,
+      "eval_steps_per_second": 3.118,
+      "step": 25500
+    },
+    {
+      "epoch": 2.7151211361737677,
+      "grad_norm": 3.4579050540924072,
+      "learning_rate": 7.4e-05,
+      "loss": 1.1835,
+      "step": 26000
+    },
+    {
+      "epoch": 2.7151211361737677,
+      "eval_accuracy": 0.766565753562764,
+      "eval_loss": 1.2262078523635864,
+      "eval_runtime": 628.0716,
+      "eval_samples_per_second": 101.012,
+      "eval_steps_per_second": 3.157,
+      "step": 26000
+    },
+    {
+      "epoch": 2.7673350041771094,
+      "grad_norm": 3.3125433921813965,
+      "learning_rate": 7.35e-05,
+      "loss": 1.1821,
+      "step": 26500
+    },
+    {
+      "epoch": 2.7673350041771094,
+      "eval_accuracy": 0.7665199419874659,
+      "eval_loss": 1.249574065208435,
+      "eval_runtime": 626.5772,
+      "eval_samples_per_second": 101.253,
+      "eval_steps_per_second": 3.165,
+      "step": 26500
+    },
+    {
+      "epoch": 2.819548872180451,
+      "grad_norm": 3.5980172157287598,
+      "learning_rate": 7.3e-05,
+      "loss": 1.1879,
+      "step": 27000
+    },
+    {
+      "epoch": 2.819548872180451,
+      "eval_accuracy": 0.7665586654611716,
+      "eval_loss": 1.2500699758529663,
+      "eval_runtime": 626.2963,
+      "eval_samples_per_second": 101.299,
+      "eval_steps_per_second": 3.166,
+      "step": 27000
+    },
+    {
+      "epoch": 2.871762740183793,
+      "grad_norm": 3.683032512664795,
+      "learning_rate": 7.25e-05,
+      "loss": 1.1865,
+      "step": 27500
+    },
+    {
+      "epoch": 2.871762740183793,
+      "eval_accuracy": 0.767375596206993,
+      "eval_loss": 1.2403781414031982,
+      "eval_runtime": 647.9501,
+      "eval_samples_per_second": 97.913,
+      "eval_steps_per_second": 3.06,
+      "step": 27500
+    },
+    {
+      "epoch": 2.9239766081871346,
+      "grad_norm": 3.2120792865753174,
+      "learning_rate": 7.2e-05,
+      "loss": 1.1811,
+      "step": 28000
+    },
+    {
+      "epoch": 2.9239766081871346,
+      "eval_accuracy": 0.7678975328660842,
+      "eval_loss": 1.2281544208526611,
+      "eval_runtime": 641.5519,
+      "eval_samples_per_second": 98.89,
+      "eval_steps_per_second": 3.091,
+      "step": 28000
+    },
+    {
+      "epoch": 2.9761904761904763,
+      "grad_norm": 3.5708224773406982,
+      "learning_rate": 7.15e-05,
+      "loss": 1.1771,
+      "step": 28500
+    },
+    {
+      "epoch": 2.9761904761904763,
+      "eval_accuracy": 0.7670722352455037,
+      "eval_loss": 1.2305808067321777,
+      "eval_runtime": 629.6736,
+      "eval_samples_per_second": 100.755,
+      "eval_steps_per_second": 3.149,
+      "step": 28500
+    },
+    {
+      "epoch": 3.028404344193818,
+      "grad_norm": 3.624859094619751,
+      "learning_rate": 7.1e-05,
+      "loss": 1.1719,
+      "step": 29000
+    },
+    {
+      "epoch": 3.028404344193818,
+      "eval_accuracy": 0.7678675260574238,
+      "eval_loss": NaN,
+      "eval_runtime": 653.9665,
+      "eval_samples_per_second": 97.013,
+      "eval_steps_per_second": 3.032,
+      "step": 29000
+    },
+    {
+      "epoch": 3.0806182121971597,
+      "grad_norm": 3.066574811935425,
+      "learning_rate": 7.05e-05,
+      "loss": 1.1625,
+      "step": 29500
+    },
+    {
+      "epoch": 3.0806182121971597,
+      "eval_accuracy": 0.7687440934734672,
+      "eval_loss": 1.2233607769012451,
+      "eval_runtime": 641.0412,
+      "eval_samples_per_second": 98.969,
+      "eval_steps_per_second": 3.093,
+      "step": 29500
+    },
+    {
+      "epoch": 3.1328320802005014,
+      "grad_norm": 2.951267719268799,
+      "learning_rate": 7e-05,
+      "loss": 1.1667,
+      "step": 30000
+    },
+    {
+      "epoch": 3.1328320802005014,
+      "eval_accuracy": 0.7692466135515155,
+      "eval_loss": 1.2097790241241455,
+      "eval_runtime": 634.5544,
+      "eval_samples_per_second": 99.98,
+      "eval_steps_per_second": 3.125,
+      "step": 30000
+    },
+    {
+      "epoch": 3.185045948203843,
+      "grad_norm": 3.134652614593506,
+      "learning_rate": 6.95e-05,
+      "loss": 1.161,
+      "step": 30500
+    },
+    {
+      "epoch": 3.185045948203843,
+      "eval_accuracy": 0.7697799908068673,
+      "eval_loss": 1.2196942567825317,
+      "eval_runtime": 639.2853,
+      "eval_samples_per_second": 99.241,
+      "eval_steps_per_second": 3.102,
+      "step": 30500
+    },
+    {
+      "epoch": 3.2372598162071844,
+      "grad_norm": 3.199575662612915,
+      "learning_rate": 6.9e-05,
+      "loss": 1.1591,
+      "step": 31000
+    },
+    {
+      "epoch": 3.2372598162071844,
+      "eval_accuracy": 0.7695065031514984,
+      "eval_loss": 1.2124276161193848,
+      "eval_runtime": 682.4327,
+      "eval_samples_per_second": 92.966,
+      "eval_steps_per_second": 2.906,
+      "step": 31000
+    },
+    {
+      "epoch": 3.2894736842105265,
+      "grad_norm": 2.954310178756714,
+      "learning_rate": 6.850000000000001e-05,
+      "loss": 1.1587,
+      "step": 31500
+    },
+    {
+      "epoch": 3.2894736842105265,
+      "eval_accuracy": 0.7700210273355362,
+      "eval_loss": 1.2054550647735596,
+      "eval_runtime": 639.9415,
+      "eval_samples_per_second": 99.139,
+      "eval_steps_per_second": 3.099,
+      "step": 31500
+    },
+    {
+      "epoch": 3.341687552213868,
+      "grad_norm": 2.8550124168395996,
+      "learning_rate": 6.800000000000001e-05,
+      "loss": 1.1575,
+      "step": 32000
+    },
+    {
+      "epoch": 3.341687552213868,
+      "eval_accuracy": 0.7699819172054071,
+      "eval_loss": 1.214800238609314,
+      "eval_runtime": 638.9546,
+      "eval_samples_per_second": 99.292,
+      "eval_steps_per_second": 3.104,
+      "step": 32000
+    },
+    {
+      "epoch": 3.3939014202172095,
+      "grad_norm": 2.92110013961792,
+      "learning_rate": 6.750000000000001e-05,
+      "loss": 1.1523,
+      "step": 32500
+    },
+    {
+      "epoch": 3.3939014202172095,
+      "eval_accuracy": 0.769908237207266,
+      "eval_loss": 1.2140088081359863,
+      "eval_runtime": 644.5498,
+      "eval_samples_per_second": 98.43,
+      "eval_steps_per_second": 3.077,
+      "step": 32500
+    },
+    {
+      "epoch": 3.4461152882205512,
+      "grad_norm": 3.346374988555908,
+      "learning_rate": 6.7e-05,
+      "loss": 1.1572,
+      "step": 33000
+    },
+    {
+      "epoch": 3.4461152882205512,
+      "eval_accuracy": 0.7708846584546473,
+      "eval_loss": 1.2036925554275513,
+      "eval_runtime": 640.768,
+      "eval_samples_per_second": 99.011,
+      "eval_steps_per_second": 3.095,
+      "step": 33000
+    },
+    {
+      "epoch": 3.498329156223893,
+      "grad_norm": 3.251553773880005,
+      "learning_rate": 6.65e-05,
+      "loss": 1.1435,
+      "step": 33500
+    },
+    {
+      "epoch": 3.498329156223893,
+      "eval_accuracy": 0.7710189865489193,
+      "eval_loss": 1.2105178833007812,
+      "eval_runtime": 649.4058,
+      "eval_samples_per_second": 97.694,
+      "eval_steps_per_second": 3.054,
+      "step": 33500
+    },
+    {
+      "epoch": 3.5505430242272347,
+      "grad_norm": 3.583970785140991,
+      "learning_rate": 6.6e-05,
+      "loss": 1.1377,
+      "step": 34000
+    },
+    {
+      "epoch": 3.5505430242272347,
+      "eval_accuracy": 0.7721632980503305,
+      "eval_loss": 1.2023558616638184,
+      "eval_runtime": 638.8527,
+      "eval_samples_per_second": 99.308,
+      "eval_steps_per_second": 3.104,
+      "step": 34000
+    },
+    {
+      "epoch": 3.6027568922305764,
+      "grad_norm": 3.588223934173584,
+      "learning_rate": 6.55e-05,
+      "loss": 1.1369,
+      "step": 34500
+    },
+    {
+      "epoch": 3.6027568922305764,
+      "eval_accuracy": 0.7718440341835643,
+      "eval_loss": 1.196567416191101,
+      "eval_runtime": 659.4538,
+      "eval_samples_per_second": 96.205,
+      "eval_steps_per_second": 3.007,
+      "step": 34500
+    },
+    {
+      "epoch": 3.654970760233918,
+      "grad_norm": 3.4205751419067383,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 1.1417,
+      "step": 35000
+    },
+    {
+      "epoch": 3.654970760233918,
+      "eval_accuracy": 0.7722229829571152,
+      "eval_loss": 1.1913775205612183,
+      "eval_runtime": 632.4781,
+      "eval_samples_per_second": 100.309,
+      "eval_steps_per_second": 3.135,
+      "step": 35000
+    },
+    {
+      "epoch": 3.70718462823726,
+      "grad_norm": 3.300046920776367,
+      "learning_rate": 6.450000000000001e-05,
+      "loss": 1.1464,
+      "step": 35500
+    },
+    {
+      "epoch": 3.70718462823726,
+      "eval_accuracy": 0.7726826510494151,
+      "eval_loss": 1.1917306184768677,
+      "eval_runtime": 632.4563,
+      "eval_samples_per_second": 100.312,
+      "eval_steps_per_second": 3.135,
+      "step": 35500
+    },
+    {
+      "epoch": 3.7593984962406015,
+      "grad_norm": 3.469228982925415,
+      "learning_rate": 6.400000000000001e-05,
+      "loss": 1.1413,
+      "step": 36000
+    },
+    {
+      "epoch": 3.7593984962406015,
+      "eval_accuracy": 0.7728226251433048,
+      "eval_loss": 1.1853009462356567,
+      "eval_runtime": 674.7454,
+      "eval_samples_per_second": 94.025,
+      "eval_steps_per_second": 2.939,
+      "step": 36000
+    },
+    {
+      "epoch": 3.8116123642439432,
+      "grad_norm": 3.0387423038482666,
+      "learning_rate": 6.35e-05,
+      "loss": 1.1437,
+      "step": 36500
+    },
+    {
+      "epoch": 3.8116123642439432,
+      "eval_accuracy": 0.7730040846904885,
+      "eval_loss": 1.197380542755127,
+      "eval_runtime": 642.657,
+      "eval_samples_per_second": 98.72,
+      "eval_steps_per_second": 3.086,
+      "step": 36500
+    },
+    {
+      "epoch": 3.863826232247285,
+      "grad_norm": 3.7750790119171143,
+      "learning_rate": 6.3e-05,
+      "loss": 1.1381,
+      "step": 37000
+    },
+    {
+      "epoch": 3.863826232247285,
+      "eval_accuracy": 0.7732420751700277,
+      "eval_loss": 1.1929783821105957,
+      "eval_runtime": 635.6748,
+      "eval_samples_per_second": 99.804,
+      "eval_steps_per_second": 3.12,
+      "step": 37000
+    },
+    {
+      "epoch": 3.9160401002506267,
+      "grad_norm": 2.7454237937927246,
+      "learning_rate": 6.25e-05,
+      "loss": 1.1319,
+      "step": 37500
+    },
+    {
+      "epoch": 3.9160401002506267,
+      "eval_accuracy": 0.7740359547829445,
+      "eval_loss": 1.1876792907714844,
+      "eval_runtime": 646.5493,
+      "eval_samples_per_second": 98.126,
+      "eval_steps_per_second": 3.067,
+      "step": 37500
+    },
+    {
+      "epoch": 3.9682539682539684,
+      "grad_norm": 3.1448304653167725,
+      "learning_rate": 6.2e-05,
+      "loss": 1.1217,
+      "step": 38000
+    },
+    {
+      "epoch": 3.9682539682539684,
+      "eval_accuracy": 0.7746280010171029,
+      "eval_loss": 1.1808606386184692,
+      "eval_runtime": 651.1984,
+      "eval_samples_per_second": 97.425,
+      "eval_steps_per_second": 3.045,
+      "step": 38000
+    },
+    {
+      "epoch": 4.02046783625731,
+      "grad_norm": 3.3443033695220947,
+      "learning_rate": 6.15e-05,
+      "loss": 1.1297,
+      "step": 38500
+    },
+    {
+      "epoch": 4.02046783625731,
+      "eval_accuracy": 0.7744960875837769,
+      "eval_loss": 1.1759783029556274,
+      "eval_runtime": 633.4471,
+      "eval_samples_per_second": 100.155,
+      "eval_steps_per_second": 3.13,
+      "step": 38500
+    },
+    {
+      "epoch": 4.072681704260652,
+      "grad_norm": 3.656834602355957,
+      "learning_rate": 6.1e-05,
+      "loss": 1.116,
+      "step": 39000
+    },
+    {
+      "epoch": 4.072681704260652,
+      "eval_accuracy": 0.7753487577160052,
+      "eval_loss": 1.171563744544983,
+      "eval_runtime": 636.4311,
+      "eval_samples_per_second": 99.686,
+      "eval_steps_per_second": 3.116,
+      "step": 39000
+    },
+    {
+      "epoch": 4.124895572263993,
+      "grad_norm": 3.2146315574645996,
+      "learning_rate": 6.05e-05,
+      "loss": 1.1262,
+      "step": 39500
+    },
+    {
+      "epoch": 4.124895572263993,
+      "eval_accuracy": 0.7748815741788464,
+      "eval_loss": 1.1831566095352173,
+      "eval_runtime": 626.1408,
+      "eval_samples_per_second": 101.324,
+      "eval_steps_per_second": 3.167,
+      "step": 39500
+    },
+    {
+      "epoch": 4.177109440267335,
+      "grad_norm": 3.5292935371398926,
+      "learning_rate": 6e-05,
+      "loss": 1.1038,
+      "step": 40000
+    },
+    {
+      "epoch": 4.177109440267335,
+      "eval_accuracy": 0.775054087211447,
+      "eval_loss": 1.1849807500839233,
+      "eval_runtime": 625.7328,
+      "eval_samples_per_second": 101.39,
+      "eval_steps_per_second": 3.169,
+      "step": 40000
+    },
+    {
+      "epoch": 4.2293233082706765,
+      "grad_norm": 3.17421817779541,
+      "learning_rate": 5.95e-05,
+      "loss": 1.1144,
+      "step": 40500
+    },
+    {
+      "epoch": 4.2293233082706765,
+      "eval_accuracy": 0.7753948446129992,
+      "eval_loss": 1.176754117012024,
+      "eval_runtime": 642.2309,
+      "eval_samples_per_second": 98.785,
+      "eval_steps_per_second": 3.088,
+      "step": 40500
+    },
+    {
+      "epoch": 4.281537176274019,
+      "grad_norm": 3.185692071914673,
+      "learning_rate": 5.9e-05,
+      "loss": 1.1068,
+      "step": 41000
+    },
+    {
+      "epoch": 4.281537176274019,
+      "eval_accuracy": 0.7759707359303026,
+      "eval_loss": 1.1789684295654297,
+      "eval_runtime": 627.5525,
+      "eval_samples_per_second": 101.096,
+      "eval_steps_per_second": 3.16,
+      "step": 41000
+    },
+    {
+      "epoch": 4.33375104427736,
+      "grad_norm": 3.033123731613159,
+      "learning_rate": 5.85e-05,
+      "loss": 1.1088,
+      "step": 41500
+    },
+    {
+      "epoch": 4.33375104427736,
+      "eval_accuracy": 0.7761587182255788,
+      "eval_loss": 1.1775932312011719,
+      "eval_runtime": 629.8113,
+      "eval_samples_per_second": 100.733,
+      "eval_steps_per_second": 3.149,
+      "step": 41500
+    },
+    {
+      "epoch": 4.385964912280702,
+      "grad_norm": 3.112304210662842,
+      "learning_rate": 5.8e-05,
+      "loss": 1.1243,
+      "step": 42000
+    },
+    {
+      "epoch": 4.385964912280702,
+      "eval_accuracy": 0.7764218763015075,
+      "eval_loss": 1.173019528388977,
+      "eval_runtime": 655.1515,
+      "eval_samples_per_second": 96.837,
+      "eval_steps_per_second": 3.027,
+      "step": 42000
+    },
+    {
+      "epoch": 4.438178780284043,
+      "grad_norm": 3.216050624847412,
+      "learning_rate": 5.7499999999999995e-05,
+      "loss": 1.1196,
+      "step": 42500
+    },
+    {
+      "epoch": 4.438178780284043,
+      "eval_accuracy": 0.7775044227327209,
+      "eval_loss": 1.1682883501052856,
+      "eval_runtime": 627.0953,
+      "eval_samples_per_second": 101.17,
+      "eval_steps_per_second": 3.162,
+      "step": 42500
+    },
+    {
+      "epoch": 4.4903926482873855,
+      "grad_norm": 3.4211995601654053,
+      "learning_rate": 5.6999999999999996e-05,
+      "loss": 1.0985,
+      "step": 43000
+    },
+    {
+      "epoch": 4.4903926482873855,
+      "eval_accuracy": 0.7770348312966414,
+      "eval_loss": 1.1709975004196167,
+      "eval_runtime": 626.8729,
+      "eval_samples_per_second": 101.206,
+      "eval_steps_per_second": 3.163,
+      "step": 43000
+    },
+    {
+      "epoch": 4.542606516290727,
+      "grad_norm": 3.0796425342559814,
+      "learning_rate": 5.65e-05,
+      "loss": 1.0994,
+      "step": 43500
+    },
+    {
+      "epoch": 4.542606516290727,
+      "eval_accuracy": 0.7772564904147641,
+      "eval_loss": 1.1671358346939087,
+      "eval_runtime": 626.7232,
+      "eval_samples_per_second": 101.23,
+      "eval_steps_per_second": 3.164,
+      "step": 43500
+    },
+    {
+      "epoch": 4.594820384294069,
+      "grad_norm": 3.7232813835144043,
+      "learning_rate": 5.6000000000000006e-05,
+      "loss": 1.1017,
+      "step": 44000
+    },
+    {
+      "epoch": 4.594820384294069,
+      "eval_accuracy": 0.7776795841513819,
+      "eval_loss": 1.1589510440826416,
+      "eval_runtime": 639.6154,
+      "eval_samples_per_second": 99.189,
+      "eval_steps_per_second": 3.1,
+      "step": 44000
+    },
+    {
+      "epoch": 4.64703425229741,
+      "grad_norm": 3.0733375549316406,
+      "learning_rate": 5.550000000000001e-05,
+      "loss": 1.1071,
+      "step": 44500
+    },
+    {
+      "epoch": 4.64703425229741,
+      "eval_accuracy": 0.7780140462141538,
+      "eval_loss": 1.1811403036117554,
+      "eval_runtime": 637.3252,
+      "eval_samples_per_second": 99.546,
+      "eval_steps_per_second": 3.111,
+      "step": 44500
+    },
+    {
+      "epoch": 4.6992481203007515,
+      "grad_norm": 3.2747066020965576,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 1.0993,
+      "step": 45000
+    },
+    {
+      "epoch": 4.6992481203007515,
+      "eval_accuracy": 0.7782215810670943,
+      "eval_loss": 1.153876781463623,
+      "eval_runtime": 625.6185,
+      "eval_samples_per_second": 101.408,
+      "eval_steps_per_second": 3.17,
+      "step": 45000
+    },
+    {
+      "epoch": 4.751461988304094,
+      "grad_norm": 3.6057417392730713,
+      "learning_rate": 5.45e-05,
+      "loss": 1.0998,
+      "step": 45500
+    },
+    {
+      "epoch": 4.751461988304094,
+      "eval_accuracy": 0.7785066434739322,
+      "eval_loss": 1.151453971862793,
+      "eval_runtime": 626.7653,
+      "eval_samples_per_second": 101.223,
+      "eval_steps_per_second": 3.164,
+      "step": 45500
+    },
+    {
+      "epoch": 4.803675856307435,
+      "grad_norm": 2.923815965652466,
+      "learning_rate": 5.4000000000000005e-05,
+      "loss": 1.0966,
+      "step": 46000
+    },
+    {
+      "epoch": 4.803675856307435,
+      "eval_accuracy": 0.7786641899675826,
+      "eval_loss": 1.1550520658493042,
+      "eval_runtime": 626.8592,
+      "eval_samples_per_second": 101.208,
+      "eval_steps_per_second": 3.163,
+      "step": 46000
+    },
+    {
+      "epoch": 4.855889724310777,
+      "grad_norm": 2.843076229095459,
+      "learning_rate": 5.3500000000000006e-05,
+      "loss": 1.0977,
+      "step": 46500
+    },
+    {
+      "epoch": 4.855889724310777,
+      "eval_accuracy": 0.7794697444838651,
+      "eval_loss": 1.151402473449707,
+      "eval_runtime": 625.4097,
+      "eval_samples_per_second": 101.442,
+      "eval_steps_per_second": 3.171,
+      "step": 46500
+    },
+    {
+      "epoch": 4.908103592314118,
+      "grad_norm": 3.2491214275360107,
+      "learning_rate": 5.300000000000001e-05,
+      "loss": 1.0962,
+      "step": 47000
+    },
+    {
+      "epoch": 4.908103592314118,
+      "eval_accuracy": 0.7797745180661694,
+      "eval_loss": 1.1584906578063965,
+      "eval_runtime": 624.1222,
+      "eval_samples_per_second": 101.652,
+      "eval_steps_per_second": 3.177,
+      "step": 47000
+    },
+    {
+      "epoch": 4.9603174603174605,
+      "grad_norm": 2.8548121452331543,
+      "learning_rate": 5.25e-05,
+      "loss": 1.0933,
+      "step": 47500
+    },
+    {
+      "epoch": 4.9603174603174605,
+      "eval_accuracy": 0.7794554886066851,
+      "eval_loss": 1.1526641845703125,
+      "eval_runtime": 644.9796,
+      "eval_samples_per_second": 98.364,
+      "eval_steps_per_second": 3.075,
+      "step": 47500
+    },
+    {
+      "epoch": 5.012531328320802,
+      "grad_norm": 3.3320724964141846,
+      "learning_rate": 5.2000000000000004e-05,
+      "loss": 1.0897,
+      "step": 48000
+    },
+    {
+      "epoch": 5.012531328320802,
+      "eval_accuracy": 0.7798054689379954,
+      "eval_loss": 1.153532862663269,
+      "eval_runtime": 631.6644,
+      "eval_samples_per_second": 100.438,
+      "eval_steps_per_second": 3.139,
+      "step": 48000
+    },
+    {
+      "epoch": 5.064745196324144,
+      "grad_norm": 3.1418938636779785,
+      "learning_rate": 5.1500000000000005e-05,
+      "loss": 1.0727,
+      "step": 48500
+    },
+    {
+      "epoch": 5.064745196324144,
+      "eval_accuracy": 0.7807417083407959,
+      "eval_loss": 1.151798963546753,
+      "eval_runtime": 628.4763,
+      "eval_samples_per_second": 100.947,
+      "eval_steps_per_second": 3.155,
+      "step": 48500
+    },
+    {
+      "epoch": 5.116959064327485,
+      "grad_norm": 3.242654800415039,
+      "learning_rate": 5.1000000000000006e-05,
+      "loss": 1.0846,
+      "step": 49000
+    },
+    {
+      "epoch": 5.116959064327485,
+      "eval_accuracy": 0.7803700732682441,
+      "eval_loss": 1.143381953239441,
+      "eval_runtime": 626.0556,
+      "eval_samples_per_second": 101.338,
+      "eval_steps_per_second": 3.167,
+      "step": 49000
+    },
+    {
+      "epoch": 5.169172932330827,
+      "grad_norm": 3.165130615234375,
+      "learning_rate": 5.05e-05,
+      "loss": 1.0817,
+      "step": 49500
+    },
+    {
+      "epoch": 5.169172932330827,
+      "eval_accuracy": 0.7805262215474418,
+      "eval_loss": 1.1557620763778687,
+      "eval_runtime": 638.2573,
+      "eval_samples_per_second": 99.4,
+      "eval_steps_per_second": 3.107,
+      "step": 49500
+    },
+    {
+      "epoch": 5.221386800334169,
+      "grad_norm": 3.074112892150879,
+      "learning_rate": 5e-05,
+      "loss": 1.0725,
+      "step": 50000
+    },
+    {
+      "epoch": 5.221386800334169,
+      "eval_accuracy": 0.7803664543536556,
+      "eval_loss": 1.1497862339019775,
+      "eval_runtime": 635.6514,
+      "eval_samples_per_second": 99.808,
+      "eval_steps_per_second": 3.12,
+      "step": 50000
+    },
+    {
+      "epoch": 5.273600668337511,
+      "grad_norm": 3.5100748538970947,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 1.076,
+      "step": 50500
+    },
+    {
+      "epoch": 5.273600668337511,
+      "eval_accuracy": 0.7819452223531255,
+      "eval_loss": 1.1426007747650146,
+      "eval_runtime": 627.3013,
+      "eval_samples_per_second": 101.136,
+      "eval_steps_per_second": 3.161,
+      "step": 50500
+    },
+    {
+      "epoch": 5.325814536340852,
+      "grad_norm": 2.9352290630340576,
+      "learning_rate": 4.9e-05,
+      "loss": 1.0786,
+      "step": 51000
+    },
+    {
+      "epoch": 5.325814536340852,
+      "eval_accuracy": 0.7809871489797384,
+      "eval_loss": 1.1469109058380127,
+      "eval_runtime": 651.0651,
+      "eval_samples_per_second": 97.445,
+      "eval_steps_per_second": 3.046,
+      "step": 51000
+    },
+    {
+      "epoch": 5.378028404344194,
+      "grad_norm": 3.215942859649658,
+      "learning_rate": 4.85e-05,
+      "loss": 1.0756,
+      "step": 51500
+    },
+    {
+      "epoch": 5.378028404344194,
+      "eval_accuracy": 0.7814986150426574,
+      "eval_loss": 1.1447529792785645,
+      "eval_runtime": 637.8608,
+      "eval_samples_per_second": 99.462,
+      "eval_steps_per_second": 3.109,
+      "step": 51500
+    },
+    {
+      "epoch": 5.430242272347535,
+      "grad_norm": 3.225491523742676,
+      "learning_rate": 4.8e-05,
+      "loss": 1.0782,
+      "step": 52000
+    },
+    {
+      "epoch": 5.430242272347535,
+      "eval_accuracy": 0.781914062234545,
+      "eval_loss": 1.1327252388000488,
+      "eval_runtime": 636.3098,
+      "eval_samples_per_second": 99.705,
+      "eval_steps_per_second": 3.116,
+      "step": 52000
+    },
+    {
+      "epoch": 5.482456140350878,
+      "grad_norm": 3.2323813438415527,
+      "learning_rate": 4.75e-05,
+      "loss": 1.0718,
+      "step": 52500
+    },
+    {
+      "epoch": 5.482456140350878,
+      "eval_accuracy": 0.7824720975904875,
+      "eval_loss": 1.1324148178100586,
+      "eval_runtime": 634.3817,
+      "eval_samples_per_second": 100.008,
+      "eval_steps_per_second": 3.126,
+      "step": 52500
+    },
+    {
+      "epoch": 5.534670008354219,
+      "grad_norm": 2.8218557834625244,
+      "learning_rate": 4.7e-05,
+      "loss": 1.0646,
+      "step": 53000
+    },
+    {
+      "epoch": 5.534670008354219,
+      "eval_accuracy": 0.7827635872108434,
+      "eval_loss": 1.139945387840271,
+      "eval_runtime": 685.8615,
+      "eval_samples_per_second": 92.501,
+      "eval_steps_per_second": 2.891,
+      "step": 53000
+    },
+    {
+      "epoch": 5.586883876357561,
+      "grad_norm": 3.848472833633423,
+      "learning_rate": 4.6500000000000005e-05,
+      "loss": 1.0692,
+      "step": 53500
+    },
+    {
+      "epoch": 5.586883876357561,
+      "eval_accuracy": 0.7828145845856118,
+      "eval_loss": 1.1383306980133057,
+      "eval_runtime": 640.36,
+      "eval_samples_per_second": 99.074,
+      "eval_steps_per_second": 3.097,
+      "step": 53500
+    },
+    {
+      "epoch": 5.639097744360902,
+      "grad_norm": 3.0220718383789062,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 1.0605,
+      "step": 54000
+    },
+    {
+      "epoch": 5.639097744360902,
+      "eval_accuracy": 0.7828910126440776,
+      "eval_loss": 1.1487065553665161,
+      "eval_runtime": 639.7494,
+      "eval_samples_per_second": 99.169,
+      "eval_steps_per_second": 3.1,
+      "step": 54000
+    },
+    {
+      "epoch": 5.6913116123642435,
+      "grad_norm": 3.226999044418335,
+      "learning_rate": 4.55e-05,
+      "loss": 1.0678,
+      "step": 54500
+    },
+    {
+      "epoch": 5.6913116123642435,
+      "eval_accuracy": 0.783646746192109,
+      "eval_loss": 1.1216100454330444,
+      "eval_runtime": 637.7267,
+      "eval_samples_per_second": 99.483,
+      "eval_steps_per_second": 3.109,
+      "step": 54500
+    },
+    {
+      "epoch": 5.743525480367586,
+      "grad_norm": 3.0716323852539062,
+      "learning_rate": 4.5e-05,
+      "loss": 1.068,
+      "step": 55000
+    },
+    {
+      "epoch": 5.743525480367586,
+      "eval_accuracy": 0.7840726797935829,
+      "eval_loss": 1.1208263635635376,
+      "eval_runtime": 661.1104,
+      "eval_samples_per_second": 95.964,
+      "eval_steps_per_second": 2.999,
+      "step": 55000
+    },
+    {
+      "epoch": 5.795739348370927,
+      "grad_norm": 3.032036542892456,
+      "learning_rate": 4.4500000000000004e-05,
+      "loss": 1.0588,
+      "step": 55500
+    },
+    {
+      "epoch": 5.795739348370927,
+      "eval_accuracy": 0.7842573639982784,
+      "eval_loss": 1.1288572549819946,
+      "eval_runtime": 644.8754,
+      "eval_samples_per_second": 98.38,
+      "eval_steps_per_second": 3.075,
+      "step": 55500
+    },
+    {
+      "epoch": 5.847953216374269,
+      "grad_norm": 2.896811008453369,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 1.0723,
+      "step": 56000
+    },
+    {
+      "epoch": 5.847953216374269,
+      "eval_accuracy": 0.7839231768143949,
+      "eval_loss": 1.11968195438385,
+      "eval_runtime": 643.1751,
+      "eval_samples_per_second": 98.64,
+      "eval_steps_per_second": 3.083,
+      "step": 56000
+    },
+    {
+      "epoch": 5.90016708437761,
+      "grad_norm": 3.429722785949707,
+      "learning_rate": 4.35e-05,
+      "loss": 1.057,
+      "step": 56500
+    },
+    {
+      "epoch": 5.90016708437761,
+      "eval_accuracy": 0.7850116259552448,
+      "eval_loss": 1.1247141361236572,
+      "eval_runtime": 639.1011,
+      "eval_samples_per_second": 99.269,
+      "eval_steps_per_second": 3.103,
+      "step": 56500
+    },
+    {
+      "epoch": 5.9523809523809526,
+      "grad_norm": 2.920243740081787,
+      "learning_rate": 4.3e-05,
+      "loss": 1.0628,
+      "step": 57000
+    },
+    {
+      "epoch": 5.9523809523809526,
+      "eval_accuracy": 0.7846882337268002,
+      "eval_loss": NaN,
+      "eval_runtime": 629.1614,
+      "eval_samples_per_second": 100.837,
+      "eval_steps_per_second": 3.152,
+      "step": 57000
+    },
+    {
+      "epoch": 6.004594820384294,
+      "grad_norm": 2.937222957611084,
+      "learning_rate": 4.25e-05,
+      "loss": 1.0619,
+      "step": 57500
+    },
+    {
+      "epoch": 6.004594820384294,
+      "eval_accuracy": 0.7845797476831528,
+      "eval_loss": NaN,
+      "eval_runtime": 628.6009,
+      "eval_samples_per_second": 100.927,
+      "eval_steps_per_second": 3.155,
+      "step": 57500
+    },
+    {
+      "epoch": 6.056808688387636,
+      "grad_norm": 2.854961395263672,
+      "learning_rate": 4.2e-05,
+      "loss": 1.0386,
+      "step": 58000
+    },
+    {
+      "epoch": 6.056808688387636,
+      "eval_accuracy": 0.7856027081868581,
+      "eval_loss": 1.1315497159957886,
+      "eval_runtime": 626.9314,
+      "eval_samples_per_second": 101.196,
+      "eval_steps_per_second": 3.163,
+      "step": 58000
+    },
+    {
+      "epoch": 6.109022556390977,
+      "grad_norm": 3.4655332565307617,
+      "learning_rate": 4.15e-05,
+      "loss": 1.0446,
+      "step": 58500
+    },
+    {
+      "epoch": 6.109022556390977,
+      "eval_accuracy": 0.785224256670098,
+      "eval_loss": NaN,
+      "eval_runtime": 674.346,
+      "eval_samples_per_second": 94.081,
+      "eval_steps_per_second": 2.941,
+      "step": 58500
+    },
+    {
+      "epoch": 6.161236424394319,
+      "grad_norm": 2.93487811088562,
+      "learning_rate": 4.1e-05,
+      "loss": 1.0532,
+      "step": 59000
+    },
+    {
+      "epoch": 6.161236424394319,
+      "eval_accuracy": 0.7855367902419893,
+      "eval_loss": 1.1223821640014648,
+      "eval_runtime": 630.6681,
+      "eval_samples_per_second": 100.596,
+      "eval_steps_per_second": 3.144,
+      "step": 59000
+    },
+    {
+      "epoch": 6.213450292397661,
+      "grad_norm": 3.50022554397583,
+      "learning_rate": 4.05e-05,
+      "loss": 1.0465,
+      "step": 59500
+    },
+    {
+      "epoch": 6.213450292397661,
+      "eval_accuracy": 0.7857459334681388,
+      "eval_loss": 1.1025224924087524,
+      "eval_runtime": 625.4125,
+      "eval_samples_per_second": 101.442,
+      "eval_steps_per_second": 3.171,
+      "step": 59500
+    },
+    {
+      "epoch": 6.265664160401003,
+      "grad_norm": 3.2295687198638916,
+      "learning_rate": 4e-05,
+      "loss": 1.0448,
+      "step": 60000
+    },
+    {
+      "epoch": 6.265664160401003,
+      "eval_accuracy": 0.7862344900229137,
+      "eval_loss": 1.104607105255127,
+      "eval_runtime": 668.9552,
+      "eval_samples_per_second": 94.839,
+      "eval_steps_per_second": 2.964,
+      "step": 60000
+    },
+    {
+      "epoch": 6.317878028404344,
+      "grad_norm": 3.1386146545410156,
+      "learning_rate": 3.9500000000000005e-05,
+      "loss": 1.0304,
+      "step": 60500
+    },
+    {
+      "epoch": 6.317878028404344,
+      "eval_accuracy": 0.7869643708248876,
+      "eval_loss": 1.1088374853134155,
+      "eval_runtime": 633.3446,
+      "eval_samples_per_second": 100.171,
+      "eval_steps_per_second": 3.131,
+      "step": 60500
+    },
+    {
+      "epoch": 6.370091896407686,
+      "grad_norm": 3.1814932823181152,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 1.0354,
+      "step": 61000
+    },
+    {
+      "epoch": 6.370091896407686,
+      "eval_accuracy": 0.7865247818397344,
+      "eval_loss": 1.108305811882019,
+      "eval_runtime": 636.3927,
+      "eval_samples_per_second": 99.692,
+      "eval_steps_per_second": 3.116,
+      "step": 61000
+    },
+    {
+      "epoch": 6.4223057644110275,
+      "grad_norm": 3.155350685119629,
+      "learning_rate": 3.85e-05,
+      "loss": 1.0437,
+      "step": 61500
+    },
+    {
+      "epoch": 6.4223057644110275,
+      "eval_accuracy": 0.7868538533540672,
+      "eval_loss": NaN,
+      "eval_runtime": 630.5912,
+      "eval_samples_per_second": 100.609,
+      "eval_steps_per_second": 3.145,
+      "step": 61500
+    },
+    {
+      "epoch": 6.474519632414369,
+      "grad_norm": 2.9944610595703125,
+      "learning_rate": 3.8e-05,
+      "loss": 1.0347,
+      "step": 62000
+    },
+    {
+      "epoch": 6.474519632414369,
+      "eval_accuracy": 0.7876532991281543,
+      "eval_loss": 1.0992841720581055,
+      "eval_runtime": 649.6208,
+      "eval_samples_per_second": 97.662,
+      "eval_steps_per_second": 3.053,
+      "step": 62000
+    },
+    {
+      "epoch": 6.526733500417711,
+      "grad_norm": 2.89630126953125,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.041,
+      "step": 62500
+    },
+    {
+      "epoch": 6.526733500417711,
+      "eval_accuracy": 0.7875077762136071,
+      "eval_loss": 1.1099497079849243,
+      "eval_runtime": 631.7247,
+      "eval_samples_per_second": 100.428,
+      "eval_steps_per_second": 3.139,
+      "step": 62500
+    },
+    {
+      "epoch": 6.578947368421053,
+      "grad_norm": 3.2351603507995605,
+      "learning_rate": 3.7e-05,
+      "loss": 1.0388,
+      "step": 63000
+    },
+    {
+      "epoch": 6.578947368421053,
+      "eval_accuracy": 0.78800361330496,
+      "eval_loss": 1.11760413646698,
+      "eval_runtime": 629.3158,
+      "eval_samples_per_second": 100.813,
+      "eval_steps_per_second": 3.151,
+      "step": 63000
+    },
+    {
+      "epoch": 6.631161236424394,
+      "grad_norm": 3.2929039001464844,
+      "learning_rate": 3.65e-05,
+      "loss": 1.0383,
+      "step": 63500
+    },
+    {
+      "epoch": 6.631161236424394,
+      "eval_accuracy": 0.7879278944035151,
+      "eval_loss": 1.1053088903427124,
+      "eval_runtime": 627.1228,
+      "eval_samples_per_second": 101.165,
+      "eval_steps_per_second": 3.162,
+      "step": 63500
+    },
+    {
+      "epoch": 6.683375104427736,
+      "grad_norm": 2.9945790767669678,
+      "learning_rate": 3.6e-05,
+      "loss": 1.0373,
+      "step": 64000
+    },
+    {
+      "epoch": 6.683375104427736,
+      "eval_accuracy": 0.7881556360589377,
+      "eval_loss": 1.1067023277282715,
+      "eval_runtime": 664.2963,
+      "eval_samples_per_second": 95.504,
+      "eval_steps_per_second": 2.985,
+      "step": 64000
+    },
+    {
+      "epoch": 6.735588972431078,
+      "grad_norm": 3.4380545616149902,
+      "learning_rate": 3.55e-05,
+      "loss": 1.0382,
+      "step": 64500
+    },
+    {
+      "epoch": 6.735588972431078,
+      "eval_accuracy": 0.7882482565200516,
+      "eval_loss": 1.116519570350647,
+      "eval_runtime": 629.5022,
+      "eval_samples_per_second": 100.783,
+      "eval_steps_per_second": 3.15,
+      "step": 64500
+    },
+    {
+      "epoch": 6.787802840434419,
+      "grad_norm": 3.368530750274658,
+      "learning_rate": 3.5e-05,
+      "loss": 1.0277,
+      "step": 65000
+    },
+    {
+      "epoch": 6.787802840434419,
+      "eval_accuracy": 0.7891739950636399,
+      "eval_loss": 1.0915908813476562,
+      "eval_runtime": 632.7041,
+      "eval_samples_per_second": 100.273,
+      "eval_steps_per_second": 3.134,
+      "step": 65000
+    },
+    {
+      "epoch": 6.840016708437761,
+      "grad_norm": 3.3649165630340576,
+      "learning_rate": 3.45e-05,
+      "loss": 1.0337,
+      "step": 65500
+    },
+    {
+      "epoch": 6.840016708437761,
+      "eval_accuracy": 0.7883815172332914,
+      "eval_loss": 1.1139589548110962,
+      "eval_runtime": 640.7807,
+      "eval_samples_per_second": 99.009,
+      "eval_steps_per_second": 3.095,
+      "step": 65500
+    },
+    {
+      "epoch": 6.8922305764411025,
+      "grad_norm": 3.242825746536255,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 1.033,
+      "step": 66000
+    },
+    {
+      "epoch": 6.8922305764411025,
+      "eval_accuracy": 0.789335987558676,
+      "eval_loss": 1.0902156829833984,
+      "eval_runtime": 634.5325,
+      "eval_samples_per_second": 99.984,
+      "eval_steps_per_second": 3.125,
+      "step": 66000
+    },
+    {
+      "epoch": 6.944444444444445,
+      "grad_norm": 2.7917425632476807,
+      "learning_rate": 3.35e-05,
+      "loss": 1.0298,
+      "step": 66500
+    },
+    {
+      "epoch": 6.944444444444445,
+      "eval_accuracy": 0.7897472088960492,
+      "eval_loss": 1.0988086462020874,
+      "eval_runtime": 636.5285,
+      "eval_samples_per_second": 99.67,
+      "eval_steps_per_second": 3.115,
+      "step": 66500
+    },
+    {
+      "epoch": 6.996658312447786,
+      "grad_norm": 2.9491727352142334,
+      "learning_rate": 3.3e-05,
+      "loss": 1.0325,
+      "step": 67000
+    },
+    {
+      "epoch": 6.996658312447786,
+      "eval_accuracy": 0.7894358436331047,
+      "eval_loss": 1.097759485244751,
+      "eval_runtime": 631.2152,
+      "eval_samples_per_second": 100.509,
+      "eval_steps_per_second": 3.142,
+      "step": 67000
+    },
+    {
+      "epoch": 7.048872180451128,
+      "grad_norm": 3.81508469581604,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 1.013,
+      "step": 67500
+    },
+    {
+      "epoch": 7.048872180451128,
+      "eval_accuracy": 0.7897459597854384,
+      "eval_loss": 1.1025677919387817,
+      "eval_runtime": 667.978,
+      "eval_samples_per_second": 94.978,
+      "eval_steps_per_second": 2.969,
+      "step": 67500
+    },
+    {
+      "epoch": 7.101086048454469,
+      "grad_norm": 2.6366662979125977,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 1.0199,
+      "step": 68000
+    },
+    {
+      "epoch": 7.101086048454469,
+      "eval_accuracy": 0.7899999141985645,
+      "eval_loss": 1.1025761365890503,
+      "eval_runtime": 630.4778,
+      "eval_samples_per_second": 100.627,
+      "eval_steps_per_second": 3.145,
+      "step": 68000
+    },
+    {
+      "epoch": 7.1532999164578115,
+      "grad_norm": 3.155102014541626,
+      "learning_rate": 3.15e-05,
+      "loss": 1.0157,
+      "step": 68500
+    },
+    {
+      "epoch": 7.1532999164578115,
+      "eval_accuracy": 0.7898970170010094,
+      "eval_loss": 1.1064562797546387,
+      "eval_runtime": 625.4866,
+      "eval_samples_per_second": 101.43,
+      "eval_steps_per_second": 3.17,
+      "step": 68500
+    },
+    {
+      "epoch": 7.205513784461153,
+      "grad_norm": 2.9615111351013184,
+      "learning_rate": 3.1e-05,
+      "loss": 1.0137,
+      "step": 69000
+    },
+    {
+      "epoch": 7.205513784461153,
+      "eval_accuracy": 0.7904352669747394,
+      "eval_loss": 1.0876559019088745,
+      "eval_runtime": 646.3487,
+      "eval_samples_per_second": 98.156,
+      "eval_steps_per_second": 3.068,
+      "step": 69000
+    },
+    {
+      "epoch": 7.257727652464495,
+      "grad_norm": 3.723841905593872,
+      "learning_rate": 3.05e-05,
+      "loss": 1.0137,
+      "step": 69500
+    },
+    {
+      "epoch": 7.257727652464495,
+      "eval_accuracy": 0.7899743837210673,
+      "eval_loss": 1.0912542343139648,
+      "eval_runtime": 652.0884,
+      "eval_samples_per_second": 97.292,
+      "eval_steps_per_second": 3.041,
+      "step": 69500
+    },
+    {
+      "epoch": 7.309941520467836,
+      "grad_norm": 3.6348705291748047,
+      "learning_rate": 3e-05,
+      "loss": 1.0167,
+      "step": 70000
+    },
+    {
+      "epoch": 7.309941520467836,
+      "eval_accuracy": 0.7903721199263885,
+      "eval_loss": NaN,
+      "eval_runtime": 630.9965,
+      "eval_samples_per_second": 100.544,
+      "eval_steps_per_second": 3.143,
+      "step": 70000
+    },
+    {
+      "epoch": 7.362155388471178,
+      "grad_norm": 3.2423222064971924,
+      "learning_rate": 2.95e-05,
+      "loss": 1.0089,
+      "step": 70500
+    },
+    {
+      "epoch": 7.362155388471178,
+      "eval_accuracy": 0.7906133078105837,
+      "eval_loss": 1.0956330299377441,
+      "eval_runtime": 633.5776,
+      "eval_samples_per_second": 100.135,
+      "eval_steps_per_second": 3.13,
+      "step": 70500
+    },
+    {
+      "epoch": 7.41436925647452,
+      "grad_norm": 3.15704083442688,
+      "learning_rate": 2.9e-05,
+      "loss": 1.0055,
+      "step": 71000
+    },
+    {
+      "epoch": 7.41436925647452,
+      "eval_accuracy": 0.7912404700602101,
+      "eval_loss": NaN,
+      "eval_runtime": 649.7229,
+      "eval_samples_per_second": 97.646,
+      "eval_steps_per_second": 3.052,
+      "step": 71000
+    },
+    {
+      "epoch": 7.466583124477861,
+      "grad_norm": 3.387059211730957,
+      "learning_rate": 2.8499999999999998e-05,
+      "loss": 1.0135,
+      "step": 71500
+    },
+    {
+      "epoch": 7.466583124477861,
+      "eval_accuracy": 0.7914904478088925,
+      "eval_loss": 1.0922181606292725,
+      "eval_runtime": 633.8807,
+      "eval_samples_per_second": 100.087,
+      "eval_steps_per_second": 3.128,
+      "step": 71500
+    },
+    {
+      "epoch": 7.518796992481203,
+      "grad_norm": 3.3285696506500244,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 1.0041,
+      "step": 72000
+    },
+    {
+      "epoch": 7.518796992481203,
+      "eval_accuracy": 0.7919370824790591,
+      "eval_loss": 1.0766669511795044,
+      "eval_runtime": 640.2628,
+      "eval_samples_per_second": 99.089,
+      "eval_steps_per_second": 3.097,
+      "step": 72000
+    },
+    {
+      "epoch": 7.571010860484545,
+      "grad_norm": 3.0725443363189697,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.9982,
+      "step": 72500
+    },
+    {
+      "epoch": 7.571010860484545,
+      "eval_accuracy": 0.7914295287916221,
+      "eval_loss": 1.0892815589904785,
+      "eval_runtime": 636.4517,
+      "eval_samples_per_second": 99.682,
+      "eval_steps_per_second": 3.116,
+      "step": 72500
+    },
+    {
+      "epoch": 7.6232247284878865,
+      "grad_norm": 3.2176389694213867,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 1.0066,
+      "step": 73000
+    },
+    {
+      "epoch": 7.6232247284878865,
+      "eval_accuracy": 0.7917736483647045,
+      "eval_loss": 1.092371940612793,
+      "eval_runtime": 621.243,
+      "eval_samples_per_second": 102.123,
+      "eval_steps_per_second": 3.192,
+      "step": 73000
+    },
+    {
+      "epoch": 7.675438596491228,
+      "grad_norm": 2.7997543811798096,
+      "learning_rate": 2.6500000000000004e-05,
+      "loss": 1.0073,
+      "step": 73500
+    },
+    {
+      "epoch": 7.675438596491228,
+      "eval_accuracy": 0.7922002806270909,
+      "eval_loss": 1.0904649496078491,
+      "eval_runtime": 620.7253,
+      "eval_samples_per_second": 102.208,
+      "eval_steps_per_second": 3.195,
+      "step": 73500
+    },
+    {
+      "epoch": 7.72765246449457,
+      "grad_norm": 3.626774549484253,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 1.0015,
+      "step": 74000
+    },
+    {
+      "epoch": 7.72765246449457,
+      "eval_accuracy": 0.7917596219688585,
+      "eval_loss": 1.0867533683776855,
+      "eval_runtime": 618.3607,
+      "eval_samples_per_second": 102.599,
+      "eval_steps_per_second": 3.207,
+      "step": 74000
+    },
+    {
+      "epoch": 7.779866332497911,
+      "grad_norm": 2.8419744968414307,
+      "learning_rate": 2.5500000000000003e-05,
+      "loss": 1.0049,
+      "step": 74500
+    },
+    {
+      "epoch": 7.779866332497911,
+      "eval_accuracy": 0.7928055223543873,
+      "eval_loss": 1.0817667245864868,
+      "eval_runtime": 617.1968,
+      "eval_samples_per_second": 102.792,
+      "eval_steps_per_second": 3.213,
+      "step": 74500
+    },
+    {
+      "epoch": 7.832080200501253,
+      "grad_norm": 2.822751760482788,
+      "learning_rate": 2.5e-05,
+      "loss": 0.9957,
+      "step": 75000
+    },
+    {
+      "epoch": 7.832080200501253,
+      "eval_accuracy": 0.7932603950321594,
+      "eval_loss": 1.0652581453323364,
+      "eval_runtime": 616.9484,
+      "eval_samples_per_second": 102.834,
+      "eval_steps_per_second": 3.214,
+      "step": 75000
+    },
+    {
+      "epoch": 7.884294068504595,
+      "grad_norm": 2.9094507694244385,
+      "learning_rate": 2.45e-05,
+      "loss": 1.0042,
+      "step": 75500
+    },
+    {
+      "epoch": 7.884294068504595,
+      "eval_accuracy": 0.7934020652494004,
+      "eval_loss": 1.0694156885147095,
+      "eval_runtime": 617.9112,
+      "eval_samples_per_second": 102.673,
+      "eval_steps_per_second": 3.209,
+      "step": 75500
+    },
+    {
+      "epoch": 7.936507936507937,
+      "grad_norm": 2.5249078273773193,
+      "learning_rate": 2.4e-05,
+      "loss": 1.0031,
+      "step": 76000
+    },
+    {
+      "epoch": 7.936507936507937,
+      "eval_accuracy": 0.7935896894661485,
+      "eval_loss": 1.0808907747268677,
+      "eval_runtime": 618.1232,
+      "eval_samples_per_second": 102.638,
+      "eval_steps_per_second": 3.208,
+      "step": 76000
+    },
+    {
+      "epoch": 7.988721804511278,
+      "grad_norm": 3.253228187561035,
+      "learning_rate": 2.35e-05,
+      "loss": 0.9979,
+      "step": 76500
+    },
+    {
+      "epoch": 7.988721804511278,
+      "eval_accuracy": 0.7933455565489351,
+      "eval_loss": 1.0679088830947876,
+      "eval_runtime": 618.0488,
+      "eval_samples_per_second": 102.65,
+      "eval_steps_per_second": 3.208,
+      "step": 76500
+    },
+    {
+      "epoch": 8.04093567251462,
+      "grad_norm": 2.6395580768585205,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.9825,
+      "step": 77000
+    },
+    {
+      "epoch": 8.04093567251462,
+      "eval_accuracy": 0.7935253800154058,
+      "eval_loss": 1.07496976852417,
+      "eval_runtime": 617.9799,
+      "eval_samples_per_second": 102.662,
+      "eval_steps_per_second": 3.209,
+      "step": 77000
+    },
+    {
+      "epoch": 8.093149540517961,
+      "grad_norm": 3.0883655548095703,
+      "learning_rate": 2.25e-05,
+      "loss": 0.9926,
+      "step": 77500
+    },
+    {
+      "epoch": 8.093149540517961,
+      "eval_accuracy": 0.7942360815200339,
+      "eval_loss": 1.0814706087112427,
+      "eval_runtime": 618.6019,
+      "eval_samples_per_second": 102.559,
+      "eval_steps_per_second": 3.206,
+      "step": 77500
+    },
+    {
+      "epoch": 8.145363408521304,
+      "grad_norm": 3.356086015701294,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.9897,
+      "step": 78000
+    },
+    {
+      "epoch": 8.145363408521304,
+      "eval_accuracy": 0.7933161062503574,
+      "eval_loss": NaN,
+      "eval_runtime": 617.0688,
+      "eval_samples_per_second": 102.813,
+      "eval_steps_per_second": 3.214,
+      "step": 78000
+    },
+    {
+      "epoch": 8.197577276524646,
+      "grad_norm": 3.31772780418396,
+      "learning_rate": 2.15e-05,
+      "loss": 0.9871,
+      "step": 78500
+    },
+    {
+      "epoch": 8.197577276524646,
+      "eval_accuracy": 0.7943132034313805,
+      "eval_loss": 1.0676552057266235,
+      "eval_runtime": 623.639,
+      "eval_samples_per_second": 101.73,
+      "eval_steps_per_second": 3.18,
+      "step": 78500
+    },
+    {
+      "epoch": 8.249791144527986,
+      "grad_norm": 3.543698310852051,
+      "learning_rate": 2.1e-05,
+      "loss": 1.0001,
+      "step": 79000
+    },
+    {
+      "epoch": 8.249791144527986,
+      "eval_accuracy": 0.7938355754922207,
+      "eval_loss": 1.0734678506851196,
+      "eval_runtime": 617.8987,
+      "eval_samples_per_second": 102.675,
+      "eval_steps_per_second": 3.209,
+      "step": 79000
+    },
+    {
+      "epoch": 8.302005012531328,
+      "grad_norm": 2.846734046936035,
+      "learning_rate": 2.05e-05,
+      "loss": 0.987,
+      "step": 79500
+    },
+    {
+      "epoch": 8.302005012531328,
+      "eval_accuracy": 0.7944878324075739,
+      "eval_loss": 1.0765976905822754,
+      "eval_runtime": 618.672,
+      "eval_samples_per_second": 102.547,
+      "eval_steps_per_second": 3.205,
+      "step": 79500
+    },
+    {
+      "epoch": 8.35421888053467,
+      "grad_norm": 2.871553897857666,
+      "learning_rate": 2e-05,
+      "loss": 0.9806,
+      "step": 80000
+    },
+    {
+      "epoch": 8.35421888053467,
+      "eval_accuracy": 0.794915350004184,
+      "eval_loss": 1.0597549676895142,
+      "eval_runtime": 618.1763,
+      "eval_samples_per_second": 102.629,
+      "eval_steps_per_second": 3.208,
+      "step": 80000
+    },
+    {
+      "epoch": 8.406432748538013,
+      "grad_norm": 2.959845542907715,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 0.984,
+      "step": 80500
+    },
+    {
+      "epoch": 8.406432748538013,
+      "eval_accuracy": 0.7946179832675856,
+      "eval_loss": 1.0595872402191162,
+      "eval_runtime": 617.7039,
+      "eval_samples_per_second": 102.708,
+      "eval_steps_per_second": 3.21,
+      "step": 80500
+    },
+    {
+      "epoch": 8.458646616541353,
+      "grad_norm": 2.7344448566436768,
+      "learning_rate": 1.9e-05,
+      "loss": 0.9822,
+      "step": 81000
+    },
+    {
+      "epoch": 8.458646616541353,
+      "eval_accuracy": 0.7951521505243792,
+      "eval_loss": 1.0736610889434814,
+      "eval_runtime": 618.3207,
+      "eval_samples_per_second": 102.605,
+      "eval_steps_per_second": 3.207,
+      "step": 81000
+    },
+    {
+      "epoch": 8.510860484544695,
+      "grad_norm": 3.7596890926361084,
+      "learning_rate": 1.85e-05,
+      "loss": 0.9791,
+      "step": 81500
+    },
+    {
+      "epoch": 8.510860484544695,
+      "eval_accuracy": 0.795253175296364,
+      "eval_loss": 1.0666213035583496,
+      "eval_runtime": 620.245,
+      "eval_samples_per_second": 102.287,
+      "eval_steps_per_second": 3.197,
+      "step": 81500
+    },
+    {
+      "epoch": 8.563074352548037,
+      "grad_norm": 2.727389335632324,
+      "learning_rate": 1.8e-05,
+      "loss": 0.9804,
+      "step": 82000
+    },
+    {
+      "epoch": 8.563074352548037,
+      "eval_accuracy": 0.7953146030482228,
+      "eval_loss": 1.0600041151046753,
+      "eval_runtime": 618.8007,
+      "eval_samples_per_second": 102.526,
+      "eval_steps_per_second": 3.205,
+      "step": 82000
+    },
+    {
+      "epoch": 8.615288220551378,
+      "grad_norm": 2.9671452045440674,
+      "learning_rate": 1.75e-05,
+      "loss": 0.9703,
+      "step": 82500
+    },
+    {
+      "epoch": 8.615288220551378,
+      "eval_accuracy": 0.7963827692254926,
+      "eval_loss": 1.0601171255111694,
+      "eval_runtime": 616.1581,
+      "eval_samples_per_second": 102.965,
+      "eval_steps_per_second": 3.218,
+      "step": 82500
+    },
+    {
+      "epoch": 8.66750208855472,
+      "grad_norm": 2.9628329277038574,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.9768,
+      "step": 83000
+    },
+    {
+      "epoch": 8.66750208855472,
+      "eval_accuracy": 0.7952524450397661,
+      "eval_loss": 1.0768334865570068,
+      "eval_runtime": 616.7531,
+      "eval_samples_per_second": 102.866,
+      "eval_steps_per_second": 3.215,
+      "step": 83000
+    },
+    {
+      "epoch": 8.719715956558062,
+      "grad_norm": 3.6838812828063965,
+      "learning_rate": 1.65e-05,
+      "loss": 0.9722,
+      "step": 83500
+    },
+    {
+      "epoch": 8.719715956558062,
+      "eval_accuracy": 0.796164760278738,
+      "eval_loss": NaN,
+      "eval_runtime": 616.0678,
+      "eval_samples_per_second": 102.981,
+      "eval_steps_per_second": 3.219,
+      "step": 83500
+    },
+    {
+      "epoch": 8.771929824561404,
+      "grad_norm": 3.7852931022644043,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.9813,
+      "step": 84000
+    },
+    {
+      "epoch": 8.771929824561404,
+      "eval_accuracy": 0.7964795153494032,
+      "eval_loss": NaN,
+      "eval_runtime": 616.9446,
+      "eval_samples_per_second": 102.834,
+      "eval_steps_per_second": 3.214,
+      "step": 84000
+    },
+    {
+      "epoch": 8.824143692564745,
+      "grad_norm": 2.85229229927063,
+      "learning_rate": 1.55e-05,
+      "loss": 0.9732,
+      "step": 84500
+    },
+    {
+      "epoch": 8.824143692564745,
+      "eval_accuracy": 0.7960116027401912,
+      "eval_loss": 1.061353325843811,
+      "eval_runtime": 624.2524,
+      "eval_samples_per_second": 101.63,
+      "eval_steps_per_second": 3.177,
+      "step": 84500
+    },
+    {
+      "epoch": 8.876357560568087,
+      "grad_norm": 3.463848114013672,
+      "learning_rate": 1.5e-05,
+      "loss": 0.9764,
+      "step": 85000
+    },
+    {
+      "epoch": 8.876357560568087,
+      "eval_accuracy": 0.7963621203122637,
+      "eval_loss": 1.049773097038269,
+      "eval_runtime": 618.458,
+      "eval_samples_per_second": 102.583,
+      "eval_steps_per_second": 3.206,
+      "step": 85000
+    },
+    {
+      "epoch": 8.928571428571429,
+      "grad_norm": 2.7122750282287598,
+      "learning_rate": 1.45e-05,
+      "loss": 0.9829,
+      "step": 85500
+    },
+    {
+      "epoch": 8.928571428571429,
+      "eval_accuracy": 0.7965627753528177,
+      "eval_loss": 1.069191813468933,
+      "eval_runtime": 617.5416,
+      "eval_samples_per_second": 102.735,
+      "eval_steps_per_second": 3.211,
+      "step": 85500
+    },
+    {
+      "epoch": 8.980785296574771,
+      "grad_norm": 2.976637840270996,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.9741,
+      "step": 86000
+    },
+    {
+      "epoch": 8.980785296574771,
+      "eval_accuracy": 0.7967220469069121,
+      "eval_loss": 1.055444598197937,
+      "eval_runtime": 614.0894,
+      "eval_samples_per_second": 103.312,
+      "eval_steps_per_second": 3.229,
+      "step": 86000
+    },
+    {
+      "epoch": 9.032999164578111,
+      "grad_norm": 2.89384126663208,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 0.9648,
+      "step": 86500
+    },
+    {
+      "epoch": 9.032999164578111,
+      "eval_accuracy": 0.797160834758222,
+      "eval_loss": 1.058738350868225,
+      "eval_runtime": 615.784,
+      "eval_samples_per_second": 103.028,
+      "eval_steps_per_second": 3.22,
+      "step": 86500
+    },
+    {
+      "epoch": 9.085213032581454,
+      "grad_norm": 3.009979248046875,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.9606,
+      "step": 87000
+    },
+    {
+      "epoch": 9.085213032581454,
+      "eval_accuracy": 0.7971404883516657,
+      "eval_loss": 1.0621484518051147,
+      "eval_runtime": 618.535,
+      "eval_samples_per_second": 102.57,
+      "eval_steps_per_second": 3.206,
+      "step": 87000
+    },
+    {
+      "epoch": 9.137426900584796,
+      "grad_norm": 3.301671266555786,
+      "learning_rate": 1.25e-05,
+      "loss": 0.9682,
+      "step": 87500
+    },
+    {
+      "epoch": 9.137426900584796,
+      "eval_accuracy": 0.7973926994154387,
+      "eval_loss": 1.0569199323654175,
+      "eval_runtime": 616.4943,
+      "eval_samples_per_second": 102.909,
+      "eval_steps_per_second": 3.217,
+      "step": 87500
+    },
+    {
+      "epoch": 9.189640768588138,
+      "grad_norm": 2.932385206222534,
+      "learning_rate": 1.2e-05,
+      "loss": 0.9644,
+      "step": 88000
+    },
+    {
+      "epoch": 9.189640768588138,
+      "eval_accuracy": 0.7974666942085554,
+      "eval_loss": 1.0533905029296875,
+      "eval_runtime": 620.5893,
+      "eval_samples_per_second": 102.23,
+      "eval_steps_per_second": 3.195,
+      "step": 88000
+    },
+    {
+      "epoch": 9.241854636591478,
+      "grad_norm": 3.1355013847351074,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 0.9658,
+      "step": 88500
+    },
+    {
+      "epoch": 9.241854636591478,
+      "eval_accuracy": 0.7977740520228777,
+      "eval_loss": 1.0476280450820923,
+      "eval_runtime": 618.7726,
+      "eval_samples_per_second": 102.53,
+      "eval_steps_per_second": 3.205,
+      "step": 88500
+    },
+    {
+      "epoch": 9.29406850459482,
+      "grad_norm": 3.353086233139038,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.9641,
+      "step": 89000
+    },
+    {
+      "epoch": 9.29406850459482,
+      "eval_accuracy": 0.7973864228195986,
+      "eval_loss": 1.041751742362976,
+      "eval_runtime": 614.3896,
+      "eval_samples_per_second": 103.262,
+      "eval_steps_per_second": 3.228,
+      "step": 89000
+    },
+    {
+      "epoch": 9.346282372598163,
+      "grad_norm": 2.8681247234344482,
+      "learning_rate": 1.05e-05,
+      "loss": 0.963,
+      "step": 89500
+    },
+    {
+      "epoch": 9.346282372598163,
+      "eval_accuracy": 0.798292731668655,
+      "eval_loss": 1.0465270280838013,
+      "eval_runtime": 615.1098,
+      "eval_samples_per_second": 103.141,
+      "eval_steps_per_second": 3.224,
+      "step": 89500
+    },
+    {
+      "epoch": 9.398496240601503,
+      "grad_norm": 3.2927052974700928,
+      "learning_rate": 1e-05,
+      "loss": 0.9562,
+      "step": 90000
+    },
+    {
+      "epoch": 9.398496240601503,
+      "eval_accuracy": 0.798140924991145,
+      "eval_loss": 1.0476934909820557,
+      "eval_runtime": 616.723,
+      "eval_samples_per_second": 102.871,
+      "eval_steps_per_second": 3.215,
+      "step": 90000
+    },
+    {
+      "epoch": 9.450710108604845,
+      "grad_norm": 3.1475863456726074,
+      "learning_rate": 9.5e-06,
+      "loss": 0.9605,
+      "step": 90500
+    },
+    {
+      "epoch": 9.450710108604845,
+      "eval_accuracy": 0.7977010212122122,
+      "eval_loss": 1.0535070896148682,
+      "eval_runtime": 615.5187,
+      "eval_samples_per_second": 103.072,
+      "eval_steps_per_second": 3.222,
+      "step": 90500
+    },
+    {
+      "epoch": 9.502923976608187,
+      "grad_norm": 3.662548780441284,
+      "learning_rate": 9e-06,
+      "loss": 0.9692,
+      "step": 91000
+    },
+    {
+      "epoch": 9.502923976608187,
+      "eval_accuracy": 0.7981552799718717,
+      "eval_loss": 1.0515964031219482,
+      "eval_runtime": 615.1273,
+      "eval_samples_per_second": 103.138,
+      "eval_steps_per_second": 3.224,
+      "step": 91000
+    },
+    {
+      "epoch": 9.55513784461153,
+      "grad_norm": 3.5501346588134766,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.966,
+      "step": 91500
+    },
+    {
+      "epoch": 9.55513784461153,
+      "eval_accuracy": 0.798176074856451,
+      "eval_loss": 1.0500941276550293,
+      "eval_runtime": 616.9498,
+      "eval_samples_per_second": 102.833,
+      "eval_steps_per_second": 3.214,
+      "step": 91500
+    },
+    {
+      "epoch": 9.60735171261487,
+      "grad_norm": 3.102790117263794,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.9614,
+      "step": 92000
+    },
+    {
+      "epoch": 9.60735171261487,
+      "eval_accuracy": 0.7986090909415797,
+      "eval_loss": 1.0444718599319458,
+      "eval_runtime": 614.407,
+      "eval_samples_per_second": 103.259,
+      "eval_steps_per_second": 3.228,
+      "step": 92000
+    },
+    {
+      "epoch": 9.659565580618212,
+      "grad_norm": 3.504926919937134,
+      "learning_rate": 7.5e-06,
+      "loss": 0.9606,
+      "step": 92500
+    },
+    {
+      "epoch": 9.659565580618212,
+      "eval_accuracy": 0.7988812850380725,
+      "eval_loss": 1.0497493743896484,
+      "eval_runtime": 615.4873,
+      "eval_samples_per_second": 103.078,
+      "eval_steps_per_second": 3.222,
+      "step": 92500
+    },
+    {
+      "epoch": 9.711779448621554,
+      "grad_norm": 3.648078203201294,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.9507,
+      "step": 93000
+    },
+    {
+      "epoch": 9.711779448621554,
+      "eval_accuracy": 0.798754673907639,
+      "eval_loss": 1.0451751947402954,
+      "eval_runtime": 615.9945,
+      "eval_samples_per_second": 102.993,
+      "eval_steps_per_second": 3.219,
+      "step": 93000
+    },
+    {
+      "epoch": 9.763993316624896,
+      "grad_norm": 3.316922903060913,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.9584,
+      "step": 93500
+    },
+    {
+      "epoch": 9.763993316624896,
+      "eval_accuracy": 0.7987269314893306,
+      "eval_loss": 1.0408653020858765,
+      "eval_runtime": 618.0487,
+      "eval_samples_per_second": 102.65,
+      "eval_steps_per_second": 3.208,
+      "step": 93500
+    },
+    {
+      "epoch": 9.816207184628237,
+      "grad_norm": 2.943169116973877,
+      "learning_rate": 6e-06,
+      "loss": 0.9572,
+      "step": 94000
+    },
+    {
+      "epoch": 9.816207184628237,
+      "eval_accuracy": 0.7989658711747047,
+      "eval_loss": 1.0431112051010132,
+      "eval_runtime": 619.8767,
+      "eval_samples_per_second": 102.348,
+      "eval_steps_per_second": 3.199,
+      "step": 94000
+    },
+    {
+      "epoch": 9.868421052631579,
+      "grad_norm": 2.713733196258545,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.9552,
+      "step": 94500
+    },
+    {
+      "epoch": 9.868421052631579,
+      "eval_accuracy": 0.7991049545929755,
+      "eval_loss": 1.0465214252471924,
+      "eval_runtime": 615.6457,
+      "eval_samples_per_second": 103.051,
+      "eval_steps_per_second": 3.221,
+      "step": 94500
+    },
+    {
+      "epoch": 9.920634920634921,
+      "grad_norm": 3.5131709575653076,
+      "learning_rate": 5e-06,
+      "loss": 0.9542,
+      "step": 95000
+    },
+    {
+      "epoch": 9.920634920634921,
+      "eval_accuracy": 0.7993720778709359,
+      "eval_loss": 1.043885350227356,
+      "eval_runtime": 616.5178,
+      "eval_samples_per_second": 102.905,
+      "eval_steps_per_second": 3.216,
+      "step": 95000
+    },
+    {
+      "epoch": 9.972848788638263,
+      "grad_norm": 3.0255749225616455,
+      "learning_rate": 4.5e-06,
+      "loss": 0.9505,
+      "step": 95500
+    },
+    {
+      "epoch": 9.972848788638263,
+      "eval_accuracy": 0.7994996190810016,
+      "eval_loss": 1.0470497608184814,
+      "eval_runtime": 616.7354,
+      "eval_samples_per_second": 102.869,
+      "eval_steps_per_second": 3.215,
+      "step": 95500
+    },
+    {
+      "epoch": 10.025062656641603,
+      "grad_norm": 4.134832382202148,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.9472,
+      "step": 96000
+    },
+    {
+      "epoch": 10.025062656641603,
+      "eval_accuracy": 0.7994244357414679,
+      "eval_loss": 1.0445414781570435,
+      "eval_runtime": 617.5631,
+      "eval_samples_per_second": 102.731,
+      "eval_steps_per_second": 3.211,
+      "step": 96000
+    },
+    {
+      "epoch": 10.077276524644946,
+      "grad_norm": 3.3011510372161865,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.9467,
+      "step": 96500
+    },
+    {
+      "epoch": 10.077276524644946,
+      "eval_accuracy": 0.7997884398890616,
+      "eval_loss": 1.0422955751419067,
+      "eval_runtime": 617.5269,
+      "eval_samples_per_second": 102.737,
+      "eval_steps_per_second": 3.211,
+      "step": 96500
+    },
+    {
+      "epoch": 10.129490392648288,
+      "grad_norm": 3.65120792388916,
+      "learning_rate": 3e-06,
+      "loss": 0.9497,
+      "step": 97000
+    },
+    {
+      "epoch": 10.129490392648288,
+      "eval_accuracy": 0.7994027266856298,
+      "eval_loss": 1.0433976650238037,
+      "eval_runtime": 615.8756,
+      "eval_samples_per_second": 103.013,
+      "eval_steps_per_second": 3.22,
+      "step": 97000
+    },
+    {
+      "epoch": 10.18170426065163,
+      "grad_norm": 3.1329991817474365,
+      "learning_rate": 2.5e-06,
+      "loss": 0.9575,
+      "step": 97500
+    },
+    {
+      "epoch": 10.18170426065163,
+      "eval_accuracy": 0.8000353846923677,
+      "eval_loss": 1.0379133224487305,
+      "eval_runtime": 615.8872,
+      "eval_samples_per_second": 103.011,
+      "eval_steps_per_second": 3.22,
+      "step": 97500
+    },
+    {
+      "epoch": 10.23391812865497,
+      "grad_norm": 3.3150088787078857,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.9478,
+      "step": 98000
+    },
+    {
+      "epoch": 10.23391812865497,
+      "eval_accuracy": 0.7997029578657322,
+      "eval_loss": 1.039129614830017,
+      "eval_runtime": 615.7144,
+      "eval_samples_per_second": 103.04,
+      "eval_steps_per_second": 3.221,
+      "step": 98000
+    },
+    {
+      "epoch": 10.286131996658312,
+      "grad_norm": 2.9896209239959717,
+      "learning_rate": 1.5e-06,
+      "loss": 0.9428,
+      "step": 98500
+    },
+    {
+      "epoch": 10.286131996658312,
+      "eval_accuracy": 0.799764992788252,
+      "eval_loss": 1.0273813009262085,
+      "eval_runtime": 615.1763,
+      "eval_samples_per_second": 103.13,
+      "eval_steps_per_second": 3.223,
+      "step": 98500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 100000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 11,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.317352524927468e+17,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea3ad00921e177c34563af8b442bea2f21652ed0254afaeb3ef25cb047cc1c7a
+size 5176