Upload 13 files

Browse files

Files changed (13) hide show

README.md +67 -3
added_tokens.json +3 -0
all_results.json +18 -0
config.json +43 -0
eval_results.json +11 -0
model.safetensors +3 -0
special_tokens_map.json +51 -0
spm.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +66 -0
train_results.json +11 -0
trainer_state.json +1755 -0
training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,67 @@
----
-license: mit
----

+---
+library_name: transformers
+license: mit
+base_model: agentlans/deberta-v3-base-zyda-2-v2
+tags:
+- generated_from_trainer
+model-index:
+- name: deberta-v3-base-zyda-2-v2-text-quality-v3
+  results: []
+---
+# deberta-v3-base-zyda-2-v2-text-quality-v3
+This model is a fine-tuned version of [agentlans/deberta-v3-base-zyda-2-v2](https://huggingface.co/agentlans/deberta-v3-base-zyda-2-v2) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.1408
+- Mse: 0.1408
+- Combined Score: 0.1408
+- Num Input Tokens Seen: 102398720
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- num_epochs: 10.0
+### Training results
+| Training Loss | Epoch | Step   | Validation Loss | Mse    | Combined Score | Input Tokens Seen |
+|:-------------:|:-----:|:------:|:---------------:|:------:|:--------------:|:-----------------:|
+| 0.1635        | 1.0   | 10000  | 0.1854          | 0.1854 | 0.1854         | 10239872          |
+| 0.1241        | 2.0   | 20000  | 0.1408          | 0.1408 | 0.1408         | 20479744          |
+| 0.0882        | 3.0   | 30000  | 0.1747          | 0.1747 | 0.1747         | 30719616          |
+| 0.054         | 4.0   | 40000  | 0.1528          | 0.1528 | 0.1528         | 40959488          |
+| 0.0372        | 5.0   | 50000  | 0.1480          | 0.1480 | 0.1480         | 51199360          |
+| 0.0263        | 6.0   | 60000  | 0.1524          | 0.1524 | 0.1524         | 61439232          |
+| 0.0203        | 7.0   | 70000  | 0.1495          | 0.1495 | 0.1495         | 71679104          |
+| 0.0135        | 8.0   | 80000  | 0.1482          | 0.1482 | 0.1482         | 81918976          |
+| 0.0098        | 9.0   | 90000  | 0.1450          | 0.1450 | 0.1450         | 92158848          |
+| 0.0073        | 10.0  | 100000 | 0.1453          | 0.1453 | 0.1453         | 102398720         |
+### Framework versions
+- Transformers 4.51.3
+- Pytorch 2.6.0+cu124
+- Datasets 3.2.0
+- Tokenizers 0.21.0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "epoch": 10.0,
+    "eval_combined_score": 0.14082256163832602,
+    "eval_loss": 0.14082255959510803,
+    "eval_mse": 0.14082256368154403,
+    "eval_runtime": 29.4816,
+    "eval_samples": 20000,
+    "eval_samples_per_second": 678.389,
+    "eval_steps_per_second": 84.799,
+    "num_input_tokens_seen": 102398720,
+    "total_flos": 5.262202453327104e+16,
+    "train_loss": 0.056572345192432406,
+    "train_runtime": 7202.8043,
+    "train_samples": 79999,
+    "train_samples_per_second": 111.066,
+    "train_steps_per_second": 13.883,
+    "train_tokens_per_second": 14216.507
+}

config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "finetuning_task": "text-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "regression",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 10.0,
+    "eval_combined_score": 0.14082256163832602,
+    "eval_loss": 0.14082255959510803,
+    "eval_mse": 0.14082256368154403,
+    "eval_runtime": 29.4816,
+    "eval_samples": 20000,
+    "eval_samples_per_second": 678.389,
+    "eval_steps_per_second": 84.799,
+    "num_input_tokens_seen": 102398720
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1113d16a7cdd3f48c8ba92a644d96bd6a05008604551916fdf083737ab37121
+size 737716196

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,66 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_length": 512,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "stride": 0,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 10.0,
+    "num_input_tokens_seen": 102398720,
+    "total_flos": 5.262202453327104e+16,
+    "train_loss": 0.056572345192432406,
+    "train_runtime": 7202.8043,
+    "train_samples": 79999,
+    "train_samples_per_second": 111.066,
+    "train_steps_per_second": 13.883,
+    "train_tokens_per_second": 14216.507
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1755 @@

+{
+  "best_global_step": 20000,
+  "best_metric": 0.14082255959510803,
+  "best_model_checkpoint": "/media/user/Expansion1/deberta-v3-base-zyda-2-v2-text-quality-v3/checkpoint-20000",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 100000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05,
+      "grad_norm": 11.949178695678711,
+      "learning_rate": 4.97505e-05,
+      "loss": 0.3835,
+      "num_input_tokens_seen": 512000,
+      "step": 500
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 3.623898506164551,
+      "learning_rate": 4.95005e-05,
+      "loss": 0.2484,
+      "num_input_tokens_seen": 1024000,
+      "step": 1000
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 3.0655770301818848,
+      "learning_rate": 4.9250500000000006e-05,
+      "loss": 0.2332,
+      "num_input_tokens_seen": 1536000,
+      "step": 1500
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 8.194499015808105,
+      "learning_rate": 4.9000500000000006e-05,
+      "loss": 0.2097,
+      "num_input_tokens_seen": 2048000,
+      "step": 2000
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.8507510423660278,
+      "learning_rate": 4.875050000000001e-05,
+      "loss": 0.1988,
+      "num_input_tokens_seen": 2560000,
+      "step": 2500
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 2.8679802417755127,
+      "learning_rate": 4.85005e-05,
+      "loss": 0.1957,
+      "num_input_tokens_seen": 3072000,
+      "step": 3000
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 3.2234883308410645,
+      "learning_rate": 4.82505e-05,
+      "loss": 0.1793,
+      "num_input_tokens_seen": 3584000,
+      "step": 3500
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 4.360517978668213,
+      "learning_rate": 4.80005e-05,
+      "loss": 0.1816,
+      "num_input_tokens_seen": 4096000,
+      "step": 4000
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 5.652502536773682,
+      "learning_rate": 4.77505e-05,
+      "loss": 0.1855,
+      "num_input_tokens_seen": 4608000,
+      "step": 4500
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 3.757875919342041,
+      "learning_rate": 4.7500500000000004e-05,
+      "loss": 0.1751,
+      "num_input_tokens_seen": 5120000,
+      "step": 5000
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 3.0092484951019287,
+      "learning_rate": 4.7250500000000004e-05,
+      "loss": 0.1785,
+      "num_input_tokens_seen": 5632000,
+      "step": 5500
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 7.830347061157227,
+      "learning_rate": 4.7000500000000005e-05,
+      "loss": 0.1711,
+      "num_input_tokens_seen": 6144000,
+      "step": 6000
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 2.926468849182129,
+      "learning_rate": 4.6750500000000006e-05,
+      "loss": 0.168,
+      "num_input_tokens_seen": 6656000,
+      "step": 6500
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 3.43612003326416,
+      "learning_rate": 4.65005e-05,
+      "loss": 0.1772,
+      "num_input_tokens_seen": 7168000,
+      "step": 7000
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 2.3997323513031006,
+      "learning_rate": 4.62505e-05,
+      "loss": 0.1632,
+      "num_input_tokens_seen": 7680000,
+      "step": 7500
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 12.628423690795898,
+      "learning_rate": 4.60005e-05,
+      "loss": 0.1714,
+      "num_input_tokens_seen": 8192000,
+      "step": 8000
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 1.8220003843307495,
+      "learning_rate": 4.57505e-05,
+      "loss": 0.1613,
+      "num_input_tokens_seen": 8704000,
+      "step": 8500
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 2.2584903240203857,
+      "learning_rate": 4.55005e-05,
+      "loss": 0.1547,
+      "num_input_tokens_seen": 9216000,
+      "step": 9000
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 1.5416566133499146,
+      "learning_rate": 4.52505e-05,
+      "loss": 0.1594,
+      "num_input_tokens_seen": 9728000,
+      "step": 9500
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.472825288772583,
+      "learning_rate": 4.5000500000000004e-05,
+      "loss": 0.1635,
+      "num_input_tokens_seen": 10239872,
+      "step": 10000
+    },
+    {
+      "epoch": 1.0,
+      "eval_combined_score": 0.18538867612314003,
+      "eval_loss": 0.18538866937160492,
+      "eval_mse": 0.18538868287467514,
+      "eval_runtime": 29.5714,
+      "eval_samples_per_second": 676.329,
+      "eval_steps_per_second": 84.541,
+      "num_input_tokens_seen": 10239872,
+      "step": 10000
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 2.986963987350464,
+      "learning_rate": 4.47505e-05,
+      "loss": 0.1226,
+      "num_input_tokens_seen": 10751872,
+      "step": 10500
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 0.7588199973106384,
+      "learning_rate": 4.45005e-05,
+      "loss": 0.1172,
+      "num_input_tokens_seen": 11263872,
+      "step": 11000
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 0.8432678580284119,
+      "learning_rate": 4.42505e-05,
+      "loss": 0.1186,
+      "num_input_tokens_seen": 11775872,
+      "step": 11500
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 12.563228607177734,
+      "learning_rate": 4.40005e-05,
+      "loss": 0.1139,
+      "num_input_tokens_seen": 12287872,
+      "step": 12000
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 2.207587242126465,
+      "learning_rate": 4.37505e-05,
+      "loss": 0.121,
+      "num_input_tokens_seen": 12799872,
+      "step": 12500
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 1.978637456893921,
+      "learning_rate": 4.35005e-05,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 13311872,
+      "step": 13000
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 5.6478729248046875,
+      "learning_rate": 4.32505e-05,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 13823872,
+      "step": 13500
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 3.0157413482666016,
+      "learning_rate": 4.30005e-05,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 14335872,
+      "step": 14000
+    },
+    {
+      "epoch": 1.45,
+      "grad_norm": 2.2837512493133545,
+      "learning_rate": 4.2750500000000003e-05,
+      "loss": 0.1154,
+      "num_input_tokens_seen": 14847872,
+      "step": 14500
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 2.124837875366211,
+      "learning_rate": 4.2500500000000004e-05,
+      "loss": 0.1163,
+      "num_input_tokens_seen": 15359872,
+      "step": 15000
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 1.8782966136932373,
+      "learning_rate": 4.2250500000000005e-05,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 15871872,
+      "step": 15500
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 1.085688591003418,
+      "learning_rate": 4.2000500000000006e-05,
+      "loss": 0.1156,
+      "num_input_tokens_seen": 16383872,
+      "step": 16000
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 1.9874955415725708,
+      "learning_rate": 4.1750500000000006e-05,
+      "loss": 0.1183,
+      "num_input_tokens_seen": 16895872,
+      "step": 16500
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 2.6902706623077393,
+      "learning_rate": 4.15005e-05,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 17407872,
+      "step": 17000
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 3.0735440254211426,
+      "learning_rate": 4.12505e-05,
+      "loss": 0.1159,
+      "num_input_tokens_seen": 17919872,
+      "step": 17500
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 2.936267614364624,
+      "learning_rate": 4.10005e-05,
+      "loss": 0.1187,
+      "num_input_tokens_seen": 18431872,
+      "step": 18000
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 3.598895311355591,
+      "learning_rate": 4.07505e-05,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 18943872,
+      "step": 18500
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 3.655381917953491,
+      "learning_rate": 4.05005e-05,
+      "loss": 0.1387,
+      "num_input_tokens_seen": 19455872,
+      "step": 19000
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 9.855778694152832,
+      "learning_rate": 4.0250500000000004e-05,
+      "loss": 0.1238,
+      "num_input_tokens_seen": 19967872,
+      "step": 19500
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 2.558746337890625,
+      "learning_rate": 4.0000500000000004e-05,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 20479744,
+      "step": 20000
+    },
+    {
+      "epoch": 2.0,
+      "eval_combined_score": 0.14082256163832602,
+      "eval_loss": 0.14082255959510803,
+      "eval_mse": 0.14082256368154403,
+      "eval_runtime": 30.1283,
+      "eval_samples_per_second": 663.828,
+      "eval_steps_per_second": 82.979,
+      "num_input_tokens_seen": 20479744,
+      "step": 20000
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 1.3755764961242676,
+      "learning_rate": 3.97505e-05,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 20991744,
+      "step": 20500
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 3.242955207824707,
+      "learning_rate": 3.95005e-05,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 21503744,
+      "step": 21000
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 2.4045000076293945,
+      "learning_rate": 3.92505e-05,
+      "loss": 0.0814,
+      "num_input_tokens_seen": 22015744,
+      "step": 21500
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 2.5508718490600586,
+      "learning_rate": 3.90005e-05,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 22527744,
+      "step": 22000
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 2.8529911041259766,
+      "learning_rate": 3.87505e-05,
+      "loss": 0.081,
+      "num_input_tokens_seen": 23039744,
+      "step": 22500
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 10.657905578613281,
+      "learning_rate": 3.85005e-05,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 23551744,
+      "step": 23000
+    },
+    {
+      "epoch": 2.35,
+      "grad_norm": 2.378411293029785,
+      "learning_rate": 3.82505e-05,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 24063744,
+      "step": 23500
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 2.6125261783599854,
+      "learning_rate": 3.80005e-05,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 24575744,
+      "step": 24000
+    },
+    {
+      "epoch": 2.45,
+      "grad_norm": 1.3133174180984497,
+      "learning_rate": 3.77505e-05,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 25087744,
+      "step": 24500
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 3.3419981002807617,
+      "learning_rate": 3.75005e-05,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 25599744,
+      "step": 25000
+    },
+    {
+      "epoch": 2.55,
+      "grad_norm": 2.1734654903411865,
+      "learning_rate": 3.72505e-05,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 26111744,
+      "step": 25500
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 3.2352869510650635,
+      "learning_rate": 3.70005e-05,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 26623744,
+      "step": 26000
+    },
+    {
+      "epoch": 2.65,
+      "grad_norm": 3.37646746635437,
+      "learning_rate": 3.675050000000001e-05,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 27135744,
+      "step": 26500
+    },
+    {
+      "epoch": 2.7,
+      "grad_norm": 2.5875842571258545,
+      "learning_rate": 3.650050000000001e-05,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 27647744,
+      "step": 27000
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 7.768916606903076,
+      "learning_rate": 3.62505e-05,
+      "loss": 0.089,
+      "num_input_tokens_seen": 28159744,
+      "step": 27500
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 2.6333940029144287,
+      "learning_rate": 3.60005e-05,
+      "loss": 0.1209,
+      "num_input_tokens_seen": 28671744,
+      "step": 28000
+    },
+    {
+      "epoch": 2.85,
+      "grad_norm": 3.4022088050842285,
+      "learning_rate": 3.57505e-05,
+      "loss": 0.082,
+      "num_input_tokens_seen": 29183744,
+      "step": 28500
+    },
+    {
+      "epoch": 2.9,
+      "grad_norm": 1.5310307741165161,
+      "learning_rate": 3.5500500000000003e-05,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 29695744,
+      "step": 29000
+    },
+    {
+      "epoch": 2.95,
+      "grad_norm": 3.3515617847442627,
+      "learning_rate": 3.5250500000000004e-05,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 30207744,
+      "step": 29500
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 1.5893547534942627,
+      "learning_rate": 3.5000500000000005e-05,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 30719616,
+      "step": 30000
+    },
+    {
+      "epoch": 3.0,
+      "eval_combined_score": 0.1746896443902683,
+      "eval_loss": 0.1746896207332611,
+      "eval_mse": 0.17468963824495307,
+      "eval_runtime": 29.4701,
+      "eval_samples_per_second": 678.654,
+      "eval_steps_per_second": 84.832,
+      "num_input_tokens_seen": 30719616,
+      "step": 30000
+    },
+    {
+      "epoch": 3.05,
+      "grad_norm": 1.333294153213501,
+      "learning_rate": 3.4750500000000006e-05,
+      "loss": 0.0562,
+      "num_input_tokens_seen": 31231616,
+      "step": 30500
+    },
+    {
+      "epoch": 3.1,
+      "grad_norm": 0.8254738450050354,
+      "learning_rate": 3.45005e-05,
+      "loss": 0.053,
+      "num_input_tokens_seen": 31743616,
+      "step": 31000
+    },
+    {
+      "epoch": 3.15,
+      "grad_norm": 1.7611359357833862,
+      "learning_rate": 3.42505e-05,
+      "loss": 0.0533,
+      "num_input_tokens_seen": 32255616,
+      "step": 31500
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 1.1055493354797363,
+      "learning_rate": 3.40005e-05,
+      "loss": 0.0557,
+      "num_input_tokens_seen": 32767616,
+      "step": 32000
+    },
+    {
+      "epoch": 3.25,
+      "grad_norm": 1.6912920475006104,
+      "learning_rate": 3.37505e-05,
+      "loss": 0.0557,
+      "num_input_tokens_seen": 33279616,
+      "step": 32500
+    },
+    {
+      "epoch": 3.3,
+      "grad_norm": 2.5604867935180664,
+      "learning_rate": 3.35005e-05,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 33791616,
+      "step": 33000
+    },
+    {
+      "epoch": 3.35,
+      "grad_norm": 1.7852438688278198,
+      "learning_rate": 3.32505e-05,
+      "loss": 0.0564,
+      "num_input_tokens_seen": 34303616,
+      "step": 33500
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 2.84659481048584,
+      "learning_rate": 3.3000500000000004e-05,
+      "loss": 0.0563,
+      "num_input_tokens_seen": 34815616,
+      "step": 34000
+    },
+    {
+      "epoch": 3.45,
+      "grad_norm": 2.0315301418304443,
+      "learning_rate": 3.27505e-05,
+      "loss": 0.054,
+      "num_input_tokens_seen": 35327616,
+      "step": 34500
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 1.9043070077896118,
+      "learning_rate": 3.25005e-05,
+      "loss": 0.0583,
+      "num_input_tokens_seen": 35839616,
+      "step": 35000
+    },
+    {
+      "epoch": 3.55,
+      "grad_norm": 1.7389405965805054,
+      "learning_rate": 3.22505e-05,
+      "loss": 0.0544,
+      "num_input_tokens_seen": 36351616,
+      "step": 35500
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 0.8132746815681458,
+      "learning_rate": 3.20005e-05,
+      "loss": 0.055,
+      "num_input_tokens_seen": 36863616,
+      "step": 36000
+    },
+    {
+      "epoch": 3.65,
+      "grad_norm": 1.8100671768188477,
+      "learning_rate": 3.17505e-05,
+      "loss": 0.0558,
+      "num_input_tokens_seen": 37375616,
+      "step": 36500
+    },
+    {
+      "epoch": 3.7,
+      "grad_norm": 10.433902740478516,
+      "learning_rate": 3.15005e-05,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 37887616,
+      "step": 37000
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 0.7512624263763428,
+      "learning_rate": 3.12505e-05,
+      "loss": 0.0541,
+      "num_input_tokens_seen": 38399616,
+      "step": 37500
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 1.3957535028457642,
+      "learning_rate": 3.1000499999999996e-05,
+      "loss": 0.0546,
+      "num_input_tokens_seen": 38911616,
+      "step": 38000
+    },
+    {
+      "epoch": 3.85,
+      "grad_norm": 1.069032073020935,
+      "learning_rate": 3.0750499999999996e-05,
+      "loss": 0.0547,
+      "num_input_tokens_seen": 39423616,
+      "step": 38500
+    },
+    {
+      "epoch": 3.9,
+      "grad_norm": 3.4046223163604736,
+      "learning_rate": 3.0500500000000004e-05,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 39935616,
+      "step": 39000
+    },
+    {
+      "epoch": 3.95,
+      "grad_norm": 1.5711253881454468,
+      "learning_rate": 3.0250500000000005e-05,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 40447616,
+      "step": 39500
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 2.8568646907806396,
+      "learning_rate": 3.0000500000000005e-05,
+      "loss": 0.054,
+      "num_input_tokens_seen": 40959488,
+      "step": 40000
+    },
+    {
+      "epoch": 4.0,
+      "eval_combined_score": 0.1528494923779644,
+      "eval_loss": 0.152849480509758,
+      "eval_mse": 0.15284948934500966,
+      "eval_runtime": 29.495,
+      "eval_samples_per_second": 678.08,
+      "eval_steps_per_second": 84.76,
+      "num_input_tokens_seen": 40959488,
+      "step": 40000
+    },
+    {
+      "epoch": 4.05,
+      "grad_norm": 1.1214642524719238,
+      "learning_rate": 2.9750500000000003e-05,
+      "loss": 0.0365,
+      "num_input_tokens_seen": 41471488,
+      "step": 40500
+    },
+    {
+      "epoch": 4.1,
+      "grad_norm": 2.6408936977386475,
+      "learning_rate": 2.9500500000000003e-05,
+      "loss": 0.0361,
+      "num_input_tokens_seen": 41983488,
+      "step": 41000
+    },
+    {
+      "epoch": 4.15,
+      "grad_norm": 1.0093015432357788,
+      "learning_rate": 2.9250500000000004e-05,
+      "loss": 0.0361,
+      "num_input_tokens_seen": 42495488,
+      "step": 41500
+    },
+    {
+      "epoch": 4.2,
+      "grad_norm": 2.0412521362304688,
+      "learning_rate": 2.90005e-05,
+      "loss": 0.0377,
+      "num_input_tokens_seen": 43007488,
+      "step": 42000
+    },
+    {
+      "epoch": 4.25,
+      "grad_norm": 2.0059244632720947,
+      "learning_rate": 2.8750500000000002e-05,
+      "loss": 0.0354,
+      "num_input_tokens_seen": 43519488,
+      "step": 42500
+    },
+    {
+      "epoch": 4.3,
+      "grad_norm": 3.214423179626465,
+      "learning_rate": 2.8500500000000003e-05,
+      "loss": 0.0373,
+      "num_input_tokens_seen": 44031488,
+      "step": 43000
+    },
+    {
+      "epoch": 4.35,
+      "grad_norm": 2.101541519165039,
+      "learning_rate": 2.8250500000000003e-05,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 44543488,
+      "step": 43500
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 0.8797721862792969,
+      "learning_rate": 2.80005e-05,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 45055488,
+      "step": 44000
+    },
+    {
+      "epoch": 4.45,
+      "grad_norm": 2.0589728355407715,
+      "learning_rate": 2.77505e-05,
+      "loss": 0.036,
+      "num_input_tokens_seen": 45567488,
+      "step": 44500
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 2.5758140087127686,
+      "learning_rate": 2.7500500000000002e-05,
+      "loss": 0.0372,
+      "num_input_tokens_seen": 46079488,
+      "step": 45000
+    },
+    {
+      "epoch": 4.55,
+      "grad_norm": 1.531252145767212,
+      "learning_rate": 2.72505e-05,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 46591488,
+      "step": 45500
+    },
+    {
+      "epoch": 4.6,
+      "grad_norm": 1.053691029548645,
+      "learning_rate": 2.70005e-05,
+      "loss": 0.0396,
+      "num_input_tokens_seen": 47103488,
+      "step": 46000
+    },
+    {
+      "epoch": 4.65,
+      "grad_norm": 1.031100869178772,
+      "learning_rate": 2.67505e-05,
+      "loss": 0.0376,
+      "num_input_tokens_seen": 47615488,
+      "step": 46500
+    },
+    {
+      "epoch": 4.7,
+      "grad_norm": 0.8592771887779236,
+      "learning_rate": 2.65005e-05,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 48127488,
+      "step": 47000
+    },
+    {
+      "epoch": 4.75,
+      "grad_norm": 3.529454231262207,
+      "learning_rate": 2.62505e-05,
+      "loss": 0.0406,
+      "num_input_tokens_seen": 48639488,
+      "step": 47500
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 1.2595094442367554,
+      "learning_rate": 2.60005e-05,
+      "loss": 0.044,
+      "num_input_tokens_seen": 49151488,
+      "step": 48000
+    },
+    {
+      "epoch": 4.85,
+      "grad_norm": 1.0460163354873657,
+      "learning_rate": 2.57505e-05,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 49663488,
+      "step": 48500
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 0.7415432333946228,
+      "learning_rate": 2.55005e-05,
+      "loss": 0.0376,
+      "num_input_tokens_seen": 50175488,
+      "step": 49000
+    },
+    {
+      "epoch": 4.95,
+      "grad_norm": 0.9863350987434387,
+      "learning_rate": 2.5250499999999998e-05,
+      "loss": 0.039,
+      "num_input_tokens_seen": 50687488,
+      "step": 49500
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.2840659618377686,
+      "learning_rate": 2.50005e-05,
+      "loss": 0.0372,
+      "num_input_tokens_seen": 51199360,
+      "step": 50000
+    },
+    {
+      "epoch": 5.0,
+      "eval_combined_score": 0.14802570643204935,
+      "eval_loss": 0.14802570641040802,
+      "eval_mse": 0.14802570645369068,
+      "eval_runtime": 29.5199,
+      "eval_samples_per_second": 677.508,
+      "eval_steps_per_second": 84.689,
+      "num_input_tokens_seen": 51199360,
+      "step": 50000
+    },
+    {
+      "epoch": 5.05,
+      "grad_norm": 1.0202912092208862,
+      "learning_rate": 2.4750500000000003e-05,
+      "loss": 0.0253,
+      "num_input_tokens_seen": 51711360,
+      "step": 50500
+    },
+    {
+      "epoch": 5.1,
+      "grad_norm": 1.1298741102218628,
+      "learning_rate": 2.45005e-05,
+      "loss": 0.0269,
+      "num_input_tokens_seen": 52223360,
+      "step": 51000
+    },
+    {
+      "epoch": 5.15,
+      "grad_norm": 1.2378206253051758,
+      "learning_rate": 2.42505e-05,
+      "loss": 0.0258,
+      "num_input_tokens_seen": 52735360,
+      "step": 51500
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 1.6293431520462036,
+      "learning_rate": 2.4000500000000002e-05,
+      "loss": 0.0272,
+      "num_input_tokens_seen": 53247360,
+      "step": 52000
+    },
+    {
+      "epoch": 5.25,
+      "grad_norm": 3.9734299182891846,
+      "learning_rate": 2.37505e-05,
+      "loss": 0.0272,
+      "num_input_tokens_seen": 53759360,
+      "step": 52500
+    },
+    {
+      "epoch": 5.3,
+      "grad_norm": 0.6598159074783325,
+      "learning_rate": 2.35005e-05,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 54271360,
+      "step": 53000
+    },
+    {
+      "epoch": 5.35,
+      "grad_norm": 0.6012576818466187,
+      "learning_rate": 2.32505e-05,
+      "loss": 0.027,
+      "num_input_tokens_seen": 54783360,
+      "step": 53500
+    },
+    {
+      "epoch": 5.4,
+      "grad_norm": 2.462887763977051,
+      "learning_rate": 2.30005e-05,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 55295360,
+      "step": 54000
+    },
+    {
+      "epoch": 5.45,
+      "grad_norm": 2.0268304347991943,
+      "learning_rate": 2.2750500000000002e-05,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 55807360,
+      "step": 54500
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 0.8000567555427551,
+      "learning_rate": 2.2500500000000003e-05,
+      "loss": 0.0282,
+      "num_input_tokens_seen": 56319360,
+      "step": 55000
+    },
+    {
+      "epoch": 5.55,
+      "grad_norm": 1.5781893730163574,
+      "learning_rate": 2.2250500000000003e-05,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 56831360,
+      "step": 55500
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 1.2630614042282104,
+      "learning_rate": 2.20005e-05,
+      "loss": 0.0257,
+      "num_input_tokens_seen": 57343360,
+      "step": 56000
+    },
+    {
+      "epoch": 5.65,
+      "grad_norm": 1.3778091669082642,
+      "learning_rate": 2.17505e-05,
+      "loss": 0.0271,
+      "num_input_tokens_seen": 57855360,
+      "step": 56500
+    },
+    {
+      "epoch": 5.7,
+      "grad_norm": 1.0909324884414673,
+      "learning_rate": 2.1500500000000002e-05,
+      "loss": 0.026,
+      "num_input_tokens_seen": 58367360,
+      "step": 57000
+    },
+    {
+      "epoch": 5.75,
+      "grad_norm": 3.5209500789642334,
+      "learning_rate": 2.1250500000000003e-05,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 58879360,
+      "step": 57500
+    },
+    {
+      "epoch": 5.8,
+      "grad_norm": 1.4671865701675415,
+      "learning_rate": 2.10005e-05,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 59391360,
+      "step": 58000
+    },
+    {
+      "epoch": 5.85,
+      "grad_norm": 1.6409125328063965,
+      "learning_rate": 2.07505e-05,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 59903360,
+      "step": 58500
+    },
+    {
+      "epoch": 5.9,
+      "grad_norm": 1.4418998956680298,
+      "learning_rate": 2.05005e-05,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 60415360,
+      "step": 59000
+    },
+    {
+      "epoch": 5.95,
+      "grad_norm": 1.3441293239593506,
+      "learning_rate": 2.02505e-05,
+      "loss": 0.0257,
+      "num_input_tokens_seen": 60927360,
+      "step": 59500
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.8778462409973145,
+      "learning_rate": 2.00005e-05,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 61439232,
+      "step": 60000
+    },
+    {
+      "epoch": 6.0,
+      "eval_combined_score": 0.15236617343673117,
+      "eval_loss": 0.15236616134643555,
+      "eval_mse": 0.1523661706258656,
+      "eval_runtime": 29.4149,
+      "eval_samples_per_second": 679.926,
+      "eval_steps_per_second": 84.991,
+      "num_input_tokens_seen": 61439232,
+      "step": 60000
+    },
+    {
+      "epoch": 6.05,
+      "grad_norm": 1.4335697889328003,
+      "learning_rate": 1.97505e-05,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 61951232,
+      "step": 60500
+    },
+    {
+      "epoch": 6.1,
+      "grad_norm": 1.1381551027297974,
+      "learning_rate": 1.95005e-05,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 62463232,
+      "step": 61000
+    },
+    {
+      "epoch": 6.15,
+      "grad_norm": 0.7046132683753967,
+      "learning_rate": 1.92505e-05,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 62975232,
+      "step": 61500
+    },
+    {
+      "epoch": 6.2,
+      "grad_norm": 1.008306860923767,
+      "learning_rate": 1.9000500000000002e-05,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 63487232,
+      "step": 62000
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 2.0765221118927,
+      "learning_rate": 1.8750500000000003e-05,
+      "loss": 0.0185,
+      "num_input_tokens_seen": 63999232,
+      "step": 62500
+    },
+    {
+      "epoch": 6.3,
+      "grad_norm": 1.2361551523208618,
+      "learning_rate": 1.85005e-05,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 64511232,
+      "step": 63000
+    },
+    {
+      "epoch": 6.35,
+      "grad_norm": 0.7231354117393494,
+      "learning_rate": 1.82505e-05,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 65023232,
+      "step": 63500
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 0.779230535030365,
+      "learning_rate": 1.80005e-05,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 65535232,
+      "step": 64000
+    },
+    {
+      "epoch": 6.45,
+      "grad_norm": 0.7320069074630737,
+      "learning_rate": 1.77505e-05,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 66047232,
+      "step": 64500
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 0.8597579598426819,
+      "learning_rate": 1.75005e-05,
+      "loss": 0.0191,
+      "num_input_tokens_seen": 66559232,
+      "step": 65000
+    },
+    {
+      "epoch": 6.55,
+      "grad_norm": 1.4109529256820679,
+      "learning_rate": 1.72505e-05,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 67071232,
+      "step": 65500
+    },
+    {
+      "epoch": 6.6,
+      "grad_norm": 1.4900848865509033,
+      "learning_rate": 1.70005e-05,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 67583232,
+      "step": 66000
+    },
+    {
+      "epoch": 6.65,
+      "grad_norm": 1.3828743696212769,
+      "learning_rate": 1.6750499999999998e-05,
+      "loss": 0.0176,
+      "num_input_tokens_seen": 68095232,
+      "step": 66500
+    },
+    {
+      "epoch": 6.7,
+      "grad_norm": 0.6733376383781433,
+      "learning_rate": 1.6500500000000002e-05,
+      "loss": 0.019,
+      "num_input_tokens_seen": 68607232,
+      "step": 67000
+    },
+    {
+      "epoch": 6.75,
+      "grad_norm": 0.4570697546005249,
+      "learning_rate": 1.6250500000000003e-05,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 69119232,
+      "step": 67500
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 0.9463149309158325,
+      "learning_rate": 1.60005e-05,
+      "loss": 0.0174,
+      "num_input_tokens_seen": 69631232,
+      "step": 68000
+    },
+    {
+      "epoch": 6.85,
+      "grad_norm": 0.9304377436637878,
+      "learning_rate": 1.57505e-05,
+      "loss": 0.0185,
+      "num_input_tokens_seen": 70143232,
+      "step": 68500
+    },
+    {
+      "epoch": 6.9,
+      "grad_norm": 0.8526313304901123,
+      "learning_rate": 1.5500500000000002e-05,
+      "loss": 0.0185,
+      "num_input_tokens_seen": 70655232,
+      "step": 69000
+    },
+    {
+      "epoch": 6.95,
+      "grad_norm": 1.6793274879455566,
+      "learning_rate": 1.52505e-05,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 71167232,
+      "step": 69500
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 1.2873644828796387,
+      "learning_rate": 1.5000500000000001e-05,
+      "loss": 0.0203,
+      "num_input_tokens_seen": 71679104,
+      "step": 70000
+    },
+    {
+      "epoch": 7.0,
+      "eval_combined_score": 0.1494929350818927,
+      "eval_loss": 0.14949294924736023,
+      "eval_mse": 0.14949293581758635,
+      "eval_runtime": 29.5374,
+      "eval_samples_per_second": 677.107,
+      "eval_steps_per_second": 84.638,
+      "num_input_tokens_seen": 71679104,
+      "step": 70000
+    },
+    {
+      "epoch": 7.05,
+      "grad_norm": 0.8493014574050903,
+      "learning_rate": 1.47505e-05,
+      "loss": 0.014,
+      "num_input_tokens_seen": 72191104,
+      "step": 70500
+    },
+    {
+      "epoch": 7.1,
+      "grad_norm": 0.6162556409835815,
+      "learning_rate": 1.45005e-05,
+      "loss": 0.0145,
+      "num_input_tokens_seen": 72703104,
+      "step": 71000
+    },
+    {
+      "epoch": 7.15,
+      "grad_norm": 0.6198768019676208,
+      "learning_rate": 1.42505e-05,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 73215104,
+      "step": 71500
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 0.6122292876243591,
+      "learning_rate": 1.40005e-05,
+      "loss": 0.0138,
+      "num_input_tokens_seen": 73727104,
+      "step": 72000
+    },
+    {
+      "epoch": 7.25,
+      "grad_norm": 0.8132468461990356,
+      "learning_rate": 1.37505e-05,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 74239104,
+      "step": 72500
+    },
+    {
+      "epoch": 7.3,
+      "grad_norm": 0.791746973991394,
+      "learning_rate": 1.3500499999999999e-05,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 74751104,
+      "step": 73000
+    },
+    {
+      "epoch": 7.35,
+      "grad_norm": 1.6126739978790283,
+      "learning_rate": 1.3250500000000001e-05,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 75263104,
+      "step": 73500
+    },
+    {
+      "epoch": 7.4,
+      "grad_norm": 1.348046898841858,
+      "learning_rate": 1.3000500000000002e-05,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 75775104,
+      "step": 74000
+    },
+    {
+      "epoch": 7.45,
+      "grad_norm": 1.5154032707214355,
+      "learning_rate": 1.2750500000000001e-05,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 76287104,
+      "step": 74500
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 1.3086836338043213,
+      "learning_rate": 1.2500500000000002e-05,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 76799104,
+      "step": 75000
+    },
+    {
+      "epoch": 7.55,
+      "grad_norm": 1.3077424764633179,
+      "learning_rate": 1.22505e-05,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 77311104,
+      "step": 75500
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 1.377185344696045,
+      "learning_rate": 1.2000500000000001e-05,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 77823104,
+      "step": 76000
+    },
+    {
+      "epoch": 7.65,
+      "grad_norm": 1.2250688076019287,
+      "learning_rate": 1.17505e-05,
+      "loss": 0.0146,
+      "num_input_tokens_seen": 78335104,
+      "step": 76500
+    },
+    {
+      "epoch": 7.7,
+      "grad_norm": 0.8044687509536743,
+      "learning_rate": 1.15005e-05,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 78847104,
+      "step": 77000
+    },
+    {
+      "epoch": 7.75,
+      "grad_norm": 0.8126741647720337,
+      "learning_rate": 1.12505e-05,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 79359104,
+      "step": 77500
+    },
+    {
+      "epoch": 7.8,
+      "grad_norm": 0.6075248122215271,
+      "learning_rate": 1.10005e-05,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 79871104,
+      "step": 78000
+    },
+    {
+      "epoch": 7.85,
+      "grad_norm": 1.874189853668213,
+      "learning_rate": 1.0750500000000002e-05,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 80383104,
+      "step": 78500
+    },
+    {
+      "epoch": 7.9,
+      "grad_norm": 0.5488854646682739,
+      "learning_rate": 1.05005e-05,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 80895104,
+      "step": 79000
+    },
+    {
+      "epoch": 7.95,
+      "grad_norm": 1.5739060640335083,
+      "learning_rate": 1.0250500000000001e-05,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 81407104,
+      "step": 79500
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 1.897755742073059,
+      "learning_rate": 1.00005e-05,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 81918976,
+      "step": 80000
+    },
+    {
+      "epoch": 8.0,
+      "eval_combined_score": 0.1482119562218898,
+      "eval_loss": 0.14821195602416992,
+      "eval_mse": 0.14821195641960966,
+      "eval_runtime": 29.5069,
+      "eval_samples_per_second": 677.807,
+      "eval_steps_per_second": 84.726,
+      "num_input_tokens_seen": 81918976,
+      "step": 80000
+    },
+    {
+      "epoch": 8.05,
+      "grad_norm": 0.39859962463378906,
+      "learning_rate": 9.7505e-06,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 82430976,
+      "step": 80500
+    },
+    {
+      "epoch": 8.1,
+      "grad_norm": 1.8892147541046143,
+      "learning_rate": 9.500500000000002e-06,
+      "loss": 0.01,
+      "num_input_tokens_seen": 82942976,
+      "step": 81000
+    },
+    {
+      "epoch": 8.15,
+      "grad_norm": 0.7789964079856873,
+      "learning_rate": 9.2505e-06,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 83454976,
+      "step": 81500
+    },
+    {
+      "epoch": 8.2,
+      "grad_norm": 0.6423227787017822,
+      "learning_rate": 9.000500000000001e-06,
+      "loss": 0.011,
+      "num_input_tokens_seen": 83966976,
+      "step": 82000
+    },
+    {
+      "epoch": 8.25,
+      "grad_norm": 0.6862022876739502,
+      "learning_rate": 8.7505e-06,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 84478976,
+      "step": 82500
+    },
+    {
+      "epoch": 8.3,
+      "grad_norm": 0.6521459817886353,
+      "learning_rate": 8.5005e-06,
+      "loss": 0.011,
+      "num_input_tokens_seen": 84990976,
+      "step": 83000
+    },
+    {
+      "epoch": 8.35,
+      "grad_norm": 1.0782101154327393,
+      "learning_rate": 8.2505e-06,
+      "loss": 0.01,
+      "num_input_tokens_seen": 85502976,
+      "step": 83500
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 0.32573211193084717,
+      "learning_rate": 8.0005e-06,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 86014976,
+      "step": 84000
+    },
+    {
+      "epoch": 8.45,
+      "grad_norm": 0.4790741205215454,
+      "learning_rate": 7.750500000000001e-06,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 86526976,
+      "step": 84500
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 5.938267230987549,
+      "learning_rate": 7.5005000000000004e-06,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 87038976,
+      "step": 85000
+    },
+    {
+      "epoch": 8.55,
+      "grad_norm": 0.3625955283641815,
+      "learning_rate": 7.2505e-06,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 87550976,
+      "step": 85500
+    },
+    {
+      "epoch": 8.6,
+      "grad_norm": 1.664149522781372,
+      "learning_rate": 7.0005e-06,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 88062976,
+      "step": 86000
+    },
+    {
+      "epoch": 8.65,
+      "grad_norm": 0.35580164194107056,
+      "learning_rate": 6.7505e-06,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 88574976,
+      "step": 86500
+    },
+    {
+      "epoch": 8.7,
+      "grad_norm": 0.814786434173584,
+      "learning_rate": 6.5005e-06,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 89086976,
+      "step": 87000
+    },
+    {
+      "epoch": 8.75,
+      "grad_norm": 0.479640930891037,
+      "learning_rate": 6.2505000000000005e-06,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 89598976,
+      "step": 87500
+    },
+    {
+      "epoch": 8.8,
+      "grad_norm": 0.4606671929359436,
+      "learning_rate": 6.0005e-06,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 90110976,
+      "step": 88000
+    },
+    {
+      "epoch": 8.85,
+      "grad_norm": 2.0643467903137207,
+      "learning_rate": 5.7505e-06,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 90622976,
+      "step": 88500
+    },
+    {
+      "epoch": 8.9,
+      "grad_norm": 0.6785427331924438,
+      "learning_rate": 5.5005e-06,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 91134976,
+      "step": 89000
+    },
+    {
+      "epoch": 8.95,
+      "grad_norm": 0.6333959102630615,
+      "learning_rate": 5.250500000000001e-06,
+      "loss": 0.01,
+      "num_input_tokens_seen": 91646976,
+      "step": 89500
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.8463544249534607,
+      "learning_rate": 5.000500000000001e-06,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 92158848,
+      "step": 90000
+    },
+    {
+      "epoch": 9.0,
+      "eval_combined_score": 0.14495953552467267,
+      "eval_loss": 0.14495953917503357,
+      "eval_mse": 0.1449595318743118,
+      "eval_runtime": 29.5073,
+      "eval_samples_per_second": 677.799,
+      "eval_steps_per_second": 84.725,
+      "num_input_tokens_seen": 92158848,
+      "step": 90000
+    },
+    {
+      "epoch": 9.05,
+      "grad_norm": 0.39637425541877747,
+      "learning_rate": 4.7505000000000005e-06,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 92670848,
+      "step": 90500
+    },
+    {
+      "epoch": 9.1,
+      "grad_norm": 0.7424957752227783,
+      "learning_rate": 4.5005e-06,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 93182848,
+      "step": 91000
+    },
+    {
+      "epoch": 9.15,
+      "grad_norm": 0.8151483535766602,
+      "learning_rate": 4.2505e-06,
+      "loss": 0.008,
+      "num_input_tokens_seen": 93694848,
+      "step": 91500
+    },
+    {
+      "epoch": 9.2,
+      "grad_norm": 1.604078769683838,
+      "learning_rate": 4.0005e-06,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 94206848,
+      "step": 92000
+    },
+    {
+      "epoch": 9.25,
+      "grad_norm": 0.42909368872642517,
+      "learning_rate": 3.7505e-06,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 94718848,
+      "step": 92500
+    },
+    {
+      "epoch": 9.3,
+      "grad_norm": 0.6759423017501831,
+      "learning_rate": 3.5005e-06,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 95230848,
+      "step": 93000
+    },
+    {
+      "epoch": 9.35,
+      "grad_norm": 0.5954917669296265,
+      "learning_rate": 3.2505e-06,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 95742848,
+      "step": 93500
+    },
+    {
+      "epoch": 9.4,
+      "grad_norm": 0.6435306072235107,
+      "learning_rate": 3.0005000000000003e-06,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 96254848,
+      "step": 94000
+    },
+    {
+      "epoch": 9.45,
+      "grad_norm": 0.8906601071357727,
+      "learning_rate": 2.7505e-06,
+      "loss": 0.008,
+      "num_input_tokens_seen": 96766848,
+      "step": 94500
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 1.4101794958114624,
+      "learning_rate": 2.5005e-06,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 97278848,
+      "step": 95000
+    },
+    {
+      "epoch": 9.55,
+      "grad_norm": 0.7406792044639587,
+      "learning_rate": 2.2505000000000003e-06,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 97790848,
+      "step": 95500
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 1.437361240386963,
+      "learning_rate": 2.0004999999999997e-06,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 98302848,
+      "step": 96000
+    },
+    {
+      "epoch": 9.65,
+      "grad_norm": 0.4781911373138428,
+      "learning_rate": 1.7505e-06,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 98814848,
+      "step": 96500
+    },
+    {
+      "epoch": 9.7,
+      "grad_norm": 0.5876700282096863,
+      "learning_rate": 1.5005e-06,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 99326848,
+      "step": 97000
+    },
+    {
+      "epoch": 9.75,
+      "grad_norm": 0.933368980884552,
+      "learning_rate": 1.2505000000000001e-06,
+      "loss": 0.008,
+      "num_input_tokens_seen": 99838848,
+      "step": 97500
+    },
+    {
+      "epoch": 9.8,
+      "grad_norm": 0.7791544198989868,
+      "learning_rate": 1.0005e-06,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 100350848,
+      "step": 98000
+    },
+    {
+      "epoch": 9.85,
+      "grad_norm": 0.45317134261131287,
+      "learning_rate": 7.505000000000001e-07,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 100862848,
+      "step": 98500
+    },
+    {
+      "epoch": 9.9,
+      "grad_norm": 1.5439448356628418,
+      "learning_rate": 5.005e-07,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 101374848,
+      "step": 99000
+    },
+    {
+      "epoch": 9.95,
+      "grad_norm": 0.5587248206138611,
+      "learning_rate": 2.5049999999999997e-07,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 101886848,
+      "step": 99500
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.6633381247520447,
+      "learning_rate": 5e-10,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 102398720,
+      "step": 100000
+    },
+    {
+      "epoch": 10.0,
+      "eval_combined_score": 0.14527450438803524,
+      "eval_loss": 0.14527450501918793,
+      "eval_mse": 0.14527450375688256,
+      "eval_runtime": 29.5752,
+      "eval_samples_per_second": 676.241,
+      "eval_steps_per_second": 84.53,
+      "num_input_tokens_seen": 102398720,
+      "step": 100000
+    },
+    {
+      "epoch": 10.0,
+      "num_input_tokens_seen": 102398720,
+      "step": 100000,
+      "total_flos": 5.262202453327104e+16,
+      "train_loss": 0.056572345192432406,
+      "train_runtime": 7202.8043,
+      "train_samples_per_second": 111.066,
+      "train_steps_per_second": 13.883,
+      "train_tokens_per_second": 14216.507
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 100000,
+  "num_input_tokens_seen": 102398720,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.262202453327104e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e337466c451a702eaa21da343acdcf2393707145066dd65c69ab6082990338da
+size 5432