Sven00
/

redpj7B-lora-cnn-dailymail_2870_samples

Model card Files Files and versions Community

Sven00 commited on Aug 16, 2023

Commit

196d17d

1 Parent(s): f1be7a6

Delete redpj7B-lora-cnn-dailymail_6000_samples

Browse files

Files changed (28) hide show

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/adapter_config.json +0 -16
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/adapter_model.bin +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/optimizer.pt +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/rng_state.pth +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/scheduler.pt +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/trainer_state.json +0 -220
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/training_args.bin +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/adapter_config.json +0 -16
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/adapter_model.bin +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/optimizer.pt +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/rng_state.pth +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/scheduler.pt +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/trainer_state.json +0 -3008
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/training_args.bin +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/adapter_config.json +0 -16
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/adapter_model.bin +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/optimizer.pt +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/rng_state.pth +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/scheduler.pt +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/trainer_state.json +0 -3076
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/training_args.bin +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/adapter_config.json +0 -16
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/adapter_model.bin +0 -3
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/special_tokens_map.json +0 -6
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/tokenizer.json +0 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/tokenizer_config.json +0 -10
redpj7B-lora-cnn-dailymail_6000_samples/results/stdout.txt +0 -0
redpj7B-lora-cnn-dailymail_6000_samples/script_fine_tuning.py +0 -170

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/adapter_config.json DELETED Viewed

@@ -1,16 +0,0 @@
-{
-  "base_model_name_or_path": "/domino/edv/afs-mrmc-data-store-rw/innovation/hf/RedPajama-INCITE-7B-Base",
-  "bias": "none",
-  "fan_in_fan_out": false,
-  "inference_mode": true,
-  "init_lora_weights": true,
-  "lora_alpha": 16,
-  "lora_dropout": 0.05,
-  "modules_to_save": null,
-  "peft_type": "LORA",
-  "r": 8,
-  "target_modules": [
-    "query_key_value"
-  ],
-  "task_type": "CAUSAL_LM"
-}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/adapter_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7004b69a5e5338ee5dbc682271079d0cf6750a64f3dd06f0dabf0a4c8129f41b
-size 16800753

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e30ce31dcb0eb6fc197fa6178337af09855e350ceabc29748e3bfad2865b0828
-size 33592261

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:bf3c8c6a24cf587ccbaf1b3ebf006c31756fbbb284486b45c4447d10a3da99c3
-size 14575

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:ff6d8dcf74529ca71baf62714afafbea88dc48c81b1277347aebdfdd87c4533d
-size 627

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/trainer_state.json DELETED Viewed

@@ -1,220 +0,0 @@
-{
-  "best_metric": 1.9635850191116333,
-  "best_model_checkpoint": "./results/redpj7B-lora-cnn-dailymail-results_fine_tune_test/checkpoint-600",
-  "epoch": 0.19900497512437812,
-  "global_step": 600,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.01,
-      "learning_rate": 0.00027082228116710874,
-      "loss": 1.8654,
-      "step": 20
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 0.0002681697612732095,
-      "loss": 1.8124,
-      "step": 40
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 0.0002655172413793103,
-      "loss": 1.8231,
-      "step": 60
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 0.0002628647214854111,
-      "loss": 1.7818,
-      "step": 80
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 0.00026021220159151194,
-      "loss": 1.8446,
-      "step": 100
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 0.0002575596816976127,
-      "loss": 1.9001,
-      "step": 120
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.0002549071618037135,
-      "loss": 1.8073,
-      "step": 140
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.0002522546419098143,
-      "loss": 1.8506,
-      "step": 160
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 0.0002496021220159151,
-      "loss": 1.8471,
-      "step": 180
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 0.0002469496021220159,
-      "loss": 1.8647,
-      "step": 200
-    },
-    {
-      "epoch": 0.07,
-      "eval_loss": 1.966022253036499,
-      "eval_runtime": 12002.3952,
-      "eval_samples_per_second": 1.114,
-      "eval_steps_per_second": 0.139,
-      "step": 200
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 0.00024429708222811666,
-      "loss": 1.8578,
-      "step": 220
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 0.0002416445623342175,
-      "loss": 1.8329,
-      "step": 240
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.0002389920424403183,
-      "loss": 1.8119,
-      "step": 260
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.0002363395225464191,
-      "loss": 1.8884,
-      "step": 280
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 0.00023368700265251986,
-      "loss": 1.9077,
-      "step": 300
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 0.00023103448275862065,
-      "loss": 1.8092,
-      "step": 320
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 0.00022838196286472146,
-      "loss": 1.9237,
-      "step": 340
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 0.00022572944297082225,
-      "loss": 1.8701,
-      "step": 360
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.00022307692307692306,
-      "loss": 1.8933,
-      "step": 380
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.00022042440318302385,
-      "loss": 1.8453,
-      "step": 400
-    },
-    {
-      "epoch": 0.13,
-      "eval_loss": 1.9667036533355713,
-      "eval_runtime": 11991.8036,
-      "eval_samples_per_second": 1.115,
-      "eval_steps_per_second": 0.139,
-      "step": 400
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 0.00021777188328912466,
-      "loss": 1.8272,
-      "step": 420
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.00021511936339522545,
-      "loss": 1.8149,
-      "step": 440
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.00021246684350132626,
-      "loss": 1.8565,
-      "step": 460
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 0.00020981432360742705,
-      "loss": 1.8139,
-      "step": 480
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.0002071618037135278,
-      "loss": 1.802,
-      "step": 500
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.00020450928381962862,
-      "loss": 1.8795,
-      "step": 520
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 0.0002018567639257294,
-      "loss": 1.8621,
-      "step": 540
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.00019920424403183022,
-      "loss": 1.8363,
-      "step": 560
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.000196551724137931,
-      "loss": 1.8746,
-      "step": 580
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 0.00019389920424403182,
-      "loss": 1.7763,
-      "step": 600
-    },
-    {
-      "epoch": 0.2,
-      "eval_loss": 1.9635850191116333,
-      "eval_runtime": 11976.5234,
-      "eval_samples_per_second": 1.116,
-      "eval_steps_per_second": 0.14,
-      "step": 600
-    }
-  ],
-  "max_steps": 9045,
-  "num_train_epochs": 3,
-  "total_flos": 3.74219846516736e+16,
-  "trial_name": null,
-  "trial_params": null
-}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f5a78612ea8930d68eba4cb53d62254ccf547582e754aa049d169c3c11dd5fe4
-size 4027

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/adapter_config.json DELETED Viewed

@@ -1,16 +0,0 @@
-{
-  "base_model_name_or_path": "/domino/edv/afs-mrmc-data-store-rw/innovation/hf/RedPajama-INCITE-7B-Base",
-  "bias": "none",
-  "fan_in_fan_out": false,
-  "inference_mode": true,
-  "init_lora_weights": true,
-  "lora_alpha": 16,
-  "lora_dropout": 0.05,
-  "modules_to_save": null,
-  "peft_type": "LORA",
-  "r": 8,
-  "target_modules": [
-    "query_key_value"
-  ],
-  "task_type": "CAUSAL_LM"
-}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/adapter_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:36c95157caaa0e8a49516175a38f9e3dfad6634df6c2d7fc47b2e3298cf4d68e
-size 16800753

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f45578cb0861cd43c16230fed120f8164d6858bd1387fe11181131bf8618591c
-size 33592261

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c4113cbc0a2963d4c364a9d22be5bb0998af83f60ca6808727b9e33650e173f6
-size 14575

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c67c61a9d3974b17ff5914527d23045fa60ef4e1f1e7017cc41f7ea5686f8e9a
-size 627

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/trainer_state.json DELETED Viewed

@@ -1,3008 +0,0 @@
-{
-  "best_metric": 1.9635850191116333,
-  "best_model_checkpoint": "./results/redpj7B-lora-cnn-dailymail-results_fine_tune_test/checkpoint-600",
-  "epoch": 2.9187396351575456,
-  "global_step": 8800,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.01,
-      "learning_rate": 0.00027082228116710874,
-      "loss": 1.8654,
-      "step": 20
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 0.0002681697612732095,
-      "loss": 1.8124,
-      "step": 40
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 0.0002655172413793103,
-      "loss": 1.8231,
-      "step": 60
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 0.0002628647214854111,
-      "loss": 1.7818,
-      "step": 80
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 0.00026021220159151194,
-      "loss": 1.8446,
-      "step": 100
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 0.0002575596816976127,
-      "loss": 1.9001,
-      "step": 120
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.0002549071618037135,
-      "loss": 1.8073,
-      "step": 140
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.0002522546419098143,
-      "loss": 1.8506,
-      "step": 160
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 0.0002496021220159151,
-      "loss": 1.8471,
-      "step": 180
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 0.0002469496021220159,
-      "loss": 1.8647,
-      "step": 200
-    },
-    {
-      "epoch": 0.07,
-      "eval_loss": 1.966022253036499,
-      "eval_runtime": 12002.3952,
-      "eval_samples_per_second": 1.114,
-      "eval_steps_per_second": 0.139,
-      "step": 200
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 0.00024429708222811666,
-      "loss": 1.8578,
-      "step": 220
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 0.0002416445623342175,
-      "loss": 1.8329,
-      "step": 240
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.0002389920424403183,
-      "loss": 1.8119,
-      "step": 260
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.0002363395225464191,
-      "loss": 1.8884,
-      "step": 280
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 0.00023368700265251986,
-      "loss": 1.9077,
-      "step": 300
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 0.00023103448275862065,
-      "loss": 1.8092,
-      "step": 320
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 0.00022838196286472146,
-      "loss": 1.9237,
-      "step": 340
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 0.00022572944297082225,
-      "loss": 1.8701,
-      "step": 360
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.00022307692307692306,
-      "loss": 1.8933,
-      "step": 380
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.00022042440318302385,
-      "loss": 1.8453,
-      "step": 400
-    },
-    {
-      "epoch": 0.13,
-      "eval_loss": 1.9667036533355713,
-      "eval_runtime": 11991.8036,
-      "eval_samples_per_second": 1.115,
-      "eval_steps_per_second": 0.139,
-      "step": 400
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 0.00021777188328912466,
-      "loss": 1.8272,
-      "step": 420
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.00021511936339522545,
-      "loss": 1.8149,
-      "step": 440
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.00021246684350132626,
-      "loss": 1.8565,
-      "step": 460
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 0.00020981432360742705,
-      "loss": 1.8139,
-      "step": 480
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.0002071618037135278,
-      "loss": 1.802,
-      "step": 500
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.00020450928381962862,
-      "loss": 1.8795,
-      "step": 520
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 0.0002018567639257294,
-      "loss": 1.8621,
-      "step": 540
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.00019920424403183022,
-      "loss": 1.8363,
-      "step": 560
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.000196551724137931,
-      "loss": 1.8746,
-      "step": 580
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 0.00019389920424403182,
-      "loss": 1.7763,
-      "step": 600
-    },
-    {
-      "epoch": 0.2,
-      "eval_loss": 1.9635850191116333,
-      "eval_runtime": 11976.5234,
-      "eval_samples_per_second": 1.116,
-      "eval_steps_per_second": 0.14,
-      "step": 600
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.0001912466843501326,
-      "loss": 1.8423,
-      "step": 620
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.00018859416445623343,
-      "loss": 1.8998,
-      "step": 640
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 0.0001859416445623342,
-      "loss": 1.8131,
-      "step": 660
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.00018328912466843497,
-      "loss": 1.8656,
-      "step": 680
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.00018063660477453579,
-      "loss": 1.8181,
-      "step": 700
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 0.00017798408488063657,
-      "loss": 1.8425,
-      "step": 720
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 0.00017533156498673739,
-      "loss": 1.7883,
-      "step": 740
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 0.00017267904509283817,
-      "loss": 1.8469,
-      "step": 760
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.000170026525198939,
-      "loss": 1.8447,
-      "step": 780
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.00016737400530503977,
-      "loss": 1.7872,
-      "step": 800
-    },
-    {
-      "epoch": 0.27,
-      "eval_loss": 1.9704641103744507,
-      "eval_runtime": 11963.7945,
-      "eval_samples_per_second": 1.117,
-      "eval_steps_per_second": 0.14,
-      "step": 800
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.0001647214854111406,
-      "loss": 1.8032,
-      "step": 820
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 0.00016206896551724137,
-      "loss": 1.8709,
-      "step": 840
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.00015941644562334216,
-      "loss": 1.8801,
-      "step": 860
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.00015676392572944298,
-      "loss": 1.8535,
-      "step": 880
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 0.00015411140583554373,
-      "loss": 1.8631,
-      "step": 900
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 0.00015145888594164455,
-      "loss": 1.752,
-      "step": 920
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 0.00014880636604774534,
-      "loss": 1.8705,
-      "step": 940
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 0.00014615384615384615,
-      "loss": 1.8301,
-      "step": 960
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.00014350132625994694,
-      "loss": 1.7892,
-      "step": 980
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.00014084880636604772,
-      "loss": 1.8671,
-      "step": 1000
-    },
-    {
-      "epoch": 0.33,
-      "eval_loss": 1.9677250385284424,
-      "eval_runtime": 11951.074,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 1000
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 0.00013819628647214854,
-      "loss": 1.8168,
-      "step": 1020
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 0.00013554376657824932,
-      "loss": 1.8268,
-      "step": 1040
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 0.00013289124668435014,
-      "loss": 1.8073,
-      "step": 1060
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.0001302387267904509,
-      "loss": 1.9313,
-      "step": 1080
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.0001275862068965517,
-      "loss": 1.9097,
-      "step": 1100
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 0.0001249336870026525,
-      "loss": 1.9032,
-      "step": 1120
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 0.0001222811671087533,
-      "loss": 1.8207,
-      "step": 1140
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 0.0001196286472148541,
-      "loss": 1.8815,
-      "step": 1160
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.0001169761273209549,
-      "loss": 1.8297,
-      "step": 1180
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 0.0001143236074270557,
-      "loss": 1.8899,
-      "step": 1200
-    },
-    {
-      "epoch": 0.4,
-      "eval_loss": 1.9722812175750732,
-      "eval_runtime": 11951.1639,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 1200
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 0.0001116710875331565,
-      "loss": 1.8803,
-      "step": 1220
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 0.00010901856763925729,
-      "loss": 1.8548,
-      "step": 1240
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 0.00010636604774535807,
-      "loss": 1.8498,
-      "step": 1260
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 0.00010371352785145887,
-      "loss": 1.8057,
-      "step": 1280
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 0.00010106100795755967,
-      "loss": 1.8572,
-      "step": 1300
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 9.840848806366047e-05,
-      "loss": 1.8469,
-      "step": 1320
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 9.575596816976126e-05,
-      "loss": 1.8405,
-      "step": 1340
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 9.310344827586206e-05,
-      "loss": 1.8193,
-      "step": 1360
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 9.045092838196286e-05,
-      "loss": 1.7731,
-      "step": 1380
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 8.779840848806366e-05,
-      "loss": 1.8329,
-      "step": 1400
-    },
-    {
-      "epoch": 0.46,
-      "eval_loss": 1.9736511707305908,
-      "eval_runtime": 11956.5916,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 1400
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 8.514588859416444e-05,
-      "loss": 1.8872,
-      "step": 1420
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 8.249336870026524e-05,
-      "loss": 1.8511,
-      "step": 1440
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 7.984084880636604e-05,
-      "loss": 1.7523,
-      "step": 1460
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 7.718832891246684e-05,
-      "loss": 1.8619,
-      "step": 1480
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 7.453580901856764e-05,
-      "loss": 1.8363,
-      "step": 1500
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 7.188328912466844e-05,
-      "loss": 1.7745,
-      "step": 1520
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 6.923076923076922e-05,
-      "loss": 1.8164,
-      "step": 1540
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 6.657824933687002e-05,
-      "loss": 1.7997,
-      "step": 1560
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 6.392572944297081e-05,
-      "loss": 1.8377,
-      "step": 1580
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 6.127320954907161e-05,
-      "loss": 1.851,
-      "step": 1600
-    },
-    {
-      "epoch": 0.53,
-      "eval_loss": 1.9729183912277222,
-      "eval_runtime": 11970.5767,
-      "eval_samples_per_second": 1.117,
-      "eval_steps_per_second": 0.14,
-      "step": 1600
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 5.862068965517241e-05,
-      "loss": 1.8382,
-      "step": 1620
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 5.59681697612732e-05,
-      "loss": 1.8863,
-      "step": 1640
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 5.3315649867374e-05,
-      "loss": 1.762,
-      "step": 1660
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 5.06631299734748e-05,
-      "loss": 1.822,
-      "step": 1680
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 4.801061007957559e-05,
-      "loss": 1.7776,
-      "step": 1700
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 4.5358090185676386e-05,
-      "loss": 1.809,
-      "step": 1720
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 4.2705570291777186e-05,
-      "loss": 1.912,
-      "step": 1740
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 4.005305039787798e-05,
-      "loss": 1.7557,
-      "step": 1760
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 3.7400530503978774e-05,
-      "loss": 1.8232,
-      "step": 1780
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 3.4748010610079574e-05,
-      "loss": 1.8613,
-      "step": 1800
-    },
-    {
-      "epoch": 0.6,
-      "eval_loss": 1.9704504013061523,
-      "eval_runtime": 11980.5334,
-      "eval_samples_per_second": 1.116,
-      "eval_steps_per_second": 0.139,
-      "step": 1800
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 3.209549071618037e-05,
-      "loss": 1.8378,
-      "step": 1820
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 2.9442970822281164e-05,
-      "loss": 1.8871,
-      "step": 1840
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 2.679045092838196e-05,
-      "loss": 1.8821,
-      "step": 1860
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 2.4137931034482755e-05,
-      "loss": 1.8487,
-      "step": 1880
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 2.1485411140583555e-05,
-      "loss": 1.8439,
-      "step": 1900
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 1.883289124668435e-05,
-      "loss": 1.8469,
-      "step": 1920
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 1.6180371352785142e-05,
-      "loss": 1.7797,
-      "step": 1940
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 1.352785145888594e-05,
-      "loss": 1.7795,
-      "step": 1960
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 1.0875331564986736e-05,
-      "loss": 1.8483,
-      "step": 1980
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 8.222811671087533e-06,
-      "loss": 1.8321,
-      "step": 2000
-    },
-    {
-      "epoch": 0.66,
-      "eval_loss": 1.9704707860946655,
-      "eval_runtime": 11964.4776,
-      "eval_samples_per_second": 1.117,
-      "eval_steps_per_second": 0.14,
-      "step": 2000
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 5.5702917771883284e-06,
-      "loss": 1.7708,
-      "step": 2020
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 2.9177718832891245e-06,
-      "loss": 1.8731,
-      "step": 2040
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 2.652519893899204e-07,
-      "loss": 1.8181,
-      "step": 2060
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 0.0,
-      "loss": 1.8692,
-      "step": 2080
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 0.0,
-      "loss": 1.8602,
-      "step": 2100
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 0.0,
-      "loss": 1.8891,
-      "step": 2120
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 0.0,
-      "loss": 1.8205,
-      "step": 2140
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.0,
-      "loss": 1.8242,
-      "step": 2160
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.0,
-      "loss": 1.8661,
-      "step": 2180
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 0.0,
-      "loss": 1.7982,
-      "step": 2200
-    },
-    {
-      "epoch": 0.73,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11950.1314,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 2200
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 0.0,
-      "loss": 1.7967,
-      "step": 2220
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 0.0,
-      "loss": 1.8346,
-      "step": 2240
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 0.0,
-      "loss": 1.8242,
-      "step": 2260
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 0.0,
-      "loss": 1.8429,
-      "step": 2280
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 0.0,
-      "loss": 1.8795,
-      "step": 2300
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 0.0,
-      "loss": 1.8967,
-      "step": 2320
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 0.0,
-      "loss": 1.815,
-      "step": 2340
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 0.0,
-      "loss": 1.8165,
-      "step": 2360
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 0.0,
-      "loss": 1.838,
-      "step": 2380
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.0,
-      "loss": 1.7798,
-      "step": 2400
-    },
-    {
-      "epoch": 0.8,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11951.0888,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 2400
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.0,
-      "loss": 1.7999,
-      "step": 2420
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 0.0,
-      "loss": 1.7957,
-      "step": 2440
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 0.0,
-      "loss": 1.8306,
-      "step": 2460
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 0.0,
-      "loss": 1.87,
-      "step": 2480
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 0.0,
-      "loss": 1.8046,
-      "step": 2500
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 0.0,
-      "loss": 1.76,
-      "step": 2520
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 0.0,
-      "loss": 1.869,
-      "step": 2540
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 0.0,
-      "loss": 1.8684,
-      "step": 2560
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 0.0,
-      "loss": 1.8757,
-      "step": 2580
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 0.0,
-      "loss": 1.868,
-      "step": 2600
-    },
-    {
-      "epoch": 0.86,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11952.488,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 2600
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 0.0,
-      "loss": 1.8228,
-      "step": 2620
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 0.0,
-      "loss": 1.8721,
-      "step": 2640
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 0.0,
-      "loss": 1.8557,
-      "step": 2660
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 0.0,
-      "loss": 1.8545,
-      "step": 2680
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 0.0,
-      "loss": 1.8366,
-      "step": 2700
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 0.0,
-      "loss": 1.8381,
-      "step": 2720
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 0.0,
-      "loss": 1.8305,
-      "step": 2740
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 0.0,
-      "loss": 1.8162,
-      "step": 2760
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 0.0,
-      "loss": 1.8109,
-      "step": 2780
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 0.0,
-      "loss": 1.8694,
-      "step": 2800
-    },
-    {
-      "epoch": 0.93,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11969.9504,
-      "eval_samples_per_second": 1.117,
-      "eval_steps_per_second": 0.14,
-      "step": 2800
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 0.0,
-      "loss": 1.8201,
-      "step": 2820
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 0.0,
-      "loss": 1.848,
-      "step": 2840
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.0,
-      "loss": 1.8138,
-      "step": 2860
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 0.0,
-      "loss": 1.8554,
-      "step": 2880
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 0.0,
-      "loss": 1.8321,
-      "step": 2900
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 0.0,
-      "loss": 1.8404,
-      "step": 2920
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 0.0,
-      "loss": 1.7883,
-      "step": 2940
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 0.0,
-      "loss": 1.8733,
-      "step": 2960
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 0.0,
-      "loss": 1.8074,
-      "step": 2980
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 0.0,
-      "loss": 1.887,
-      "step": 3000
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11974.5637,
-      "eval_samples_per_second": 1.116,
-      "eval_steps_per_second": 0.14,
-      "step": 3000
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 0.0,
-      "loss": 1.7165,
-      "step": 3020
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 0.0,
-      "loss": 1.8041,
-      "step": 3040
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 0.0,
-      "loss": 1.8031,
-      "step": 3060
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 0.0,
-      "loss": 1.8493,
-      "step": 3080
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 0.0,
-      "loss": 1.8475,
-      "step": 3100
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 0.0,
-      "loss": 1.7994,
-      "step": 3120
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 0.0,
-      "loss": 1.7904,
-      "step": 3140
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 0.0,
-      "loss": 1.8078,
-      "step": 3160
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 0.0,
-      "loss": 1.8625,
-      "step": 3180
-    },
-    {
-      "epoch": 1.06,
-      "learning_rate": 0.0,
-      "loss": 1.7874,
-      "step": 3200
-    },
-    {
-      "epoch": 1.06,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11966.566,
-      "eval_samples_per_second": 1.117,
-      "eval_steps_per_second": 0.14,
-      "step": 3200
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 0.0,
-      "loss": 1.7956,
-      "step": 3220
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 0.0,
-      "loss": 1.7517,
-      "step": 3240
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 0.0,
-      "loss": 1.7861,
-      "step": 3260
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 0.0,
-      "loss": 1.7957,
-      "step": 3280
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 0.0,
-      "loss": 1.8147,
-      "step": 3300
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 0.0,
-      "loss": 1.7795,
-      "step": 3320
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 0.0,
-      "loss": 1.7532,
-      "step": 3340
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 0.0,
-      "loss": 1.8414,
-      "step": 3360
-    },
-    {
-      "epoch": 1.12,
-      "learning_rate": 0.0,
-      "loss": 1.771,
-      "step": 3380
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.0,
-      "loss": 1.8119,
-      "step": 3400
-    },
-    {
-      "epoch": 1.13,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11954.7549,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 3400
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.0,
-      "loss": 1.7944,
-      "step": 3420
-    },
-    {
-      "epoch": 1.14,
-      "learning_rate": 0.0,
-      "loss": 1.7855,
-      "step": 3440
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 0.0,
-      "loss": 1.8574,
-      "step": 3460
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 0.0,
-      "loss": 1.8189,
-      "step": 3480
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 0.0,
-      "loss": 1.8033,
-      "step": 3500
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 0.0,
-      "loss": 1.7689,
-      "step": 3520
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 0.0,
-      "loss": 1.8455,
-      "step": 3540
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 0.0,
-      "loss": 1.8255,
-      "step": 3560
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 0.0,
-      "loss": 1.8431,
-      "step": 3580
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 0.0,
-      "loss": 1.7924,
-      "step": 3600
-    },
-    {
-      "epoch": 1.19,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11953.5885,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 3600
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 0.0,
-      "loss": 1.8475,
-      "step": 3620
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 0.0,
-      "loss": 1.6746,
-      "step": 3640
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 0.0,
-      "loss": 1.8006,
-      "step": 3660
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 0.0,
-      "loss": 1.816,
-      "step": 3680
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.0,
-      "loss": 1.7486,
-      "step": 3700
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.0,
-      "loss": 1.8086,
-      "step": 3720
-    },
-    {
-      "epoch": 1.24,
-      "learning_rate": 0.0,
-      "loss": 1.8241,
-      "step": 3740
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 0.0,
-      "loss": 1.823,
-      "step": 3760
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 0.0,
-      "loss": 1.7365,
-      "step": 3780
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 0.0,
-      "loss": 1.801,
-      "step": 3800
-    },
-    {
-      "epoch": 1.26,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11952.013,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 3800
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 0.0,
-      "loss": 1.8497,
-      "step": 3820
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 0.0,
-      "loss": 1.7803,
-      "step": 3840
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 0.0,
-      "loss": 1.6921,
-      "step": 3860
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 0.0,
-      "loss": 1.8508,
-      "step": 3880
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 0.0,
-      "loss": 1.8816,
-      "step": 3900
-    },
-    {
-      "epoch": 1.3,
-      "learning_rate": 0.0,
-      "loss": 1.8105,
-      "step": 3920
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0,
-      "loss": 1.8477,
-      "step": 3940
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0,
-      "loss": 1.841,
-      "step": 3960
-    },
-    {
-      "epoch": 1.32,
-      "learning_rate": 0.0,
-      "loss": 1.7599,
-      "step": 3980
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.0,
-      "loss": 1.7074,
-      "step": 4000
-    },
-    {
-      "epoch": 1.33,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11952.3623,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 4000
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.0,
-      "loss": 1.7529,
-      "step": 4020
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 0.0,
-      "loss": 1.8928,
-      "step": 4040
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 0.0,
-      "loss": 1.8585,
-      "step": 4060
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 0.0,
-      "loss": 1.8279,
-      "step": 4080
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 0.0,
-      "loss": 1.7949,
-      "step": 4100
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 0.0,
-      "loss": 1.8488,
-      "step": 4120
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 0.0,
-      "loss": 1.7572,
-      "step": 4140
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 0.0,
-      "loss": 1.7533,
-      "step": 4160
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.0,
-      "loss": 1.772,
-      "step": 4180
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.0,
-      "loss": 1.8338,
-      "step": 4200
-    },
-    {
-      "epoch": 1.39,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11954.2113,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 4200
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 0.0,
-      "loss": 1.8084,
-      "step": 4220
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.0,
-      "loss": 1.8791,
-      "step": 4240
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.0,
-      "loss": 1.7906,
-      "step": 4260
-    },
-    {
-      "epoch": 1.42,
-      "learning_rate": 0.0,
-      "loss": 1.8669,
-      "step": 4280
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 0.0,
-      "loss": 1.8108,
-      "step": 4300
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 0.0,
-      "loss": 1.7769,
-      "step": 4320
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 0.0,
-      "loss": 1.7599,
-      "step": 4340
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 0.0,
-      "loss": 1.843,
-      "step": 4360
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 0.0,
-      "loss": 1.8608,
-      "step": 4380
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 0.0,
-      "loss": 1.8382,
-      "step": 4400
-    },
-    {
-      "epoch": 1.46,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11958.7166,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 4400
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.0,
-      "loss": 1.8002,
-      "step": 4420
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.0,
-      "loss": 1.8292,
-      "step": 4440
-    },
-    {
-      "epoch": 1.48,
-      "learning_rate": 0.0,
-      "loss": 1.8184,
-      "step": 4460
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.0,
-      "loss": 1.7712,
-      "step": 4480
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.0,
-      "loss": 1.8307,
-      "step": 4500
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 0.0,
-      "loss": 1.7883,
-      "step": 4520
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 0.0,
-      "loss": 1.8106,
-      "step": 4540
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 0.0,
-      "loss": 1.7999,
-      "step": 4560
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 0.0,
-      "loss": 1.8353,
-      "step": 4580
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 0.0,
-      "loss": 1.8366,
-      "step": 4600
-    },
-    {
-      "epoch": 1.53,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11971.0491,
-      "eval_samples_per_second": 1.117,
-      "eval_steps_per_second": 0.14,
-      "step": 4600
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 0.0,
-      "loss": 1.8018,
-      "step": 4620
-    },
-    {
-      "epoch": 1.54,
-      "learning_rate": 0.0,
-      "loss": 1.84,
-      "step": 4640
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 0.0,
-      "loss": 1.7784,
-      "step": 4660
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 0.0,
-      "loss": 1.794,
-      "step": 4680
-    },
-    {
-      "epoch": 1.56,
-      "learning_rate": 0.0,
-      "loss": 1.8237,
-      "step": 4700
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 0.0,
-      "loss": 1.7697,
-      "step": 4720
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 0.0,
-      "loss": 1.8482,
-      "step": 4740
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 0.0,
-      "loss": 1.8008,
-      "step": 4760
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 0.0,
-      "loss": 1.8082,
-      "step": 4780
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 0.0,
-      "loss": 1.7799,
-      "step": 4800
-    },
-    {
-      "epoch": 1.59,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11955.9821,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 4800
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 0.0,
-      "loss": 1.8339,
-      "step": 4820
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 0.0,
-      "loss": 1.8072,
-      "step": 4840
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 0.0,
-      "loss": 1.8024,
-      "step": 4860
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 0.0,
-      "loss": 1.8609,
-      "step": 4880
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 0.0,
-      "loss": 1.8769,
-      "step": 4900
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 0.0,
-      "loss": 1.808,
-      "step": 4920
-    },
-    {
-      "epoch": 1.64,
-      "learning_rate": 0.0,
-      "loss": 1.8482,
-      "step": 4940
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 0.0,
-      "loss": 1.8116,
-      "step": 4960
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 0.0,
-      "loss": 1.7922,
-      "step": 4980
-    },
-    {
-      "epoch": 1.66,
-      "learning_rate": 0.0,
-      "loss": 1.8409,
-      "step": 5000
-    },
-    {
-      "epoch": 1.66,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11953.6568,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 5000
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 0.0,
-      "loss": 1.867,
-      "step": 5020
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 0.0,
-      "loss": 1.8902,
-      "step": 5040
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 0.0,
-      "loss": 1.8835,
-      "step": 5060
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 0.0,
-      "loss": 1.741,
-      "step": 5080
-    },
-    {
-      "epoch": 1.69,
-      "learning_rate": 0.0,
-      "loss": 1.7543,
-      "step": 5100
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 0.0,
-      "loss": 1.7913,
-      "step": 5120
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 0.0,
-      "loss": 1.829,
-      "step": 5140
-    },
-    {
-      "epoch": 1.71,
-      "learning_rate": 0.0,
-      "loss": 1.7915,
-      "step": 5160
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 0.0,
-      "loss": 1.767,
-      "step": 5180
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 0.0,
-      "loss": 1.7809,
-      "step": 5200
-    },
-    {
-      "epoch": 1.72,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11951.295,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 5200
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 0.0,
-      "loss": 1.8715,
-      "step": 5220
-    },
-    {
-      "epoch": 1.74,
-      "learning_rate": 0.0,
-      "loss": 1.8517,
-      "step": 5240
-    },
-    {
-      "epoch": 1.74,
-      "learning_rate": 0.0,
-      "loss": 1.8255,
-      "step": 5260
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 0.0,
-      "loss": 1.7973,
-      "step": 5280
-    },
-    {
-      "epoch": 1.76,
-      "learning_rate": 0.0,
-      "loss": 1.7912,
-      "step": 5300
-    },
-    {
-      "epoch": 1.76,
-      "learning_rate": 0.0,
-      "loss": 1.8331,
-      "step": 5320
-    },
-    {
-      "epoch": 1.77,
-      "learning_rate": 0.0,
-      "loss": 1.835,
-      "step": 5340
-    },
-    {
-      "epoch": 1.78,
-      "learning_rate": 0.0,
-      "loss": 1.8051,
-      "step": 5360
-    },
-    {
-      "epoch": 1.78,
-      "learning_rate": 0.0,
-      "loss": 1.8007,
-      "step": 5380
-    },
-    {
-      "epoch": 1.79,
-      "learning_rate": 0.0,
-      "loss": 1.8069,
-      "step": 5400
-    },
-    {
-      "epoch": 1.79,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11948.5086,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 5400
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 0.0,
-      "loss": 1.784,
-      "step": 5420
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 0.0,
-      "loss": 1.7557,
-      "step": 5440
-    },
-    {
-      "epoch": 1.81,
-      "learning_rate": 0.0,
-      "loss": 1.8011,
-      "step": 5460
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 0.0,
-      "loss": 1.8392,
-      "step": 5480
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 0.0,
-      "loss": 1.7507,
-      "step": 5500
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 0.0,
-      "loss": 1.8043,
-      "step": 5520
-    },
-    {
-      "epoch": 1.84,
-      "learning_rate": 0.0,
-      "loss": 1.7804,
-      "step": 5540
-    },
-    {
-      "epoch": 1.84,
-      "learning_rate": 0.0,
-      "loss": 1.811,
-      "step": 5560
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 0.0,
-      "loss": 1.806,
-      "step": 5580
-    },
-    {
-      "epoch": 1.86,
-      "learning_rate": 0.0,
-      "loss": 1.8103,
-      "step": 5600
-    },
-    {
-      "epoch": 1.86,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11953.5582,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 5600
-    },
-    {
-      "epoch": 1.86,
-      "learning_rate": 0.0,
-      "loss": 1.7947,
-      "step": 5620
-    },
-    {
-      "epoch": 1.87,
-      "learning_rate": 0.0,
-      "loss": 1.8062,
-      "step": 5640
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 0.0,
-      "loss": 1.7997,
-      "step": 5660
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 0.0,
-      "loss": 1.843,
-      "step": 5680
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 0.0,
-      "loss": 1.848,
-      "step": 5700
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 0.0,
-      "loss": 1.8393,
-      "step": 5720
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 0.0,
-      "loss": 1.8187,
-      "step": 5740
-    },
-    {
-      "epoch": 1.91,
-      "learning_rate": 0.0,
-      "loss": 1.802,
-      "step": 5760
-    },
-    {
-      "epoch": 1.92,
-      "learning_rate": 0.0,
-      "loss": 1.7646,
-      "step": 5780
-    },
-    {
-      "epoch": 1.92,
-      "learning_rate": 0.0,
-      "loss": 1.7993,
-      "step": 5800
-    },
-    {
-      "epoch": 1.92,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11953.0956,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 5800
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 0.0,
-      "loss": 1.7962,
-      "step": 5820
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 0.0,
-      "loss": 1.849,
-      "step": 5840
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 0.0,
-      "loss": 1.8254,
-      "step": 5860
-    },
-    {
-      "epoch": 1.95,
-      "learning_rate": 0.0,
-      "loss": 1.8583,
-      "step": 5880
-    },
-    {
-      "epoch": 1.96,
-      "learning_rate": 0.0,
-      "loss": 1.8398,
-      "step": 5900
-    },
-    {
-      "epoch": 1.96,
-      "learning_rate": 0.0,
-      "loss": 1.7306,
-      "step": 5920
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 0.0,
-      "loss": 1.81,
-      "step": 5940
-    },
-    {
-      "epoch": 1.98,
-      "learning_rate": 0.0,
-      "loss": 1.7762,
-      "step": 5960
-    },
-    {
-      "epoch": 1.98,
-      "learning_rate": 0.0,
-      "loss": 1.8549,
-      "step": 5980
-    },
-    {
-      "epoch": 1.99,
-      "learning_rate": 0.0,
-      "loss": 1.84,
-      "step": 6000
-    },
-    {
-      "epoch": 1.99,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11950.3766,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 6000
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 0.0,
-      "loss": 1.7897,
-      "step": 6020
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 0.0,
-      "loss": 1.7844,
-      "step": 6040
-    },
-    {
-      "epoch": 2.01,
-      "learning_rate": 0.0,
-      "loss": 1.8453,
-      "step": 6060
-    },
-    {
-      "epoch": 2.02,
-      "learning_rate": 0.0,
-      "loss": 1.8268,
-      "step": 6080
-    },
-    {
-      "epoch": 2.02,
-      "learning_rate": 0.0,
-      "loss": 1.7932,
-      "step": 6100
-    },
-    {
-      "epoch": 2.03,
-      "learning_rate": 0.0,
-      "loss": 1.8005,
-      "step": 6120
-    },
-    {
-      "epoch": 2.04,
-      "learning_rate": 0.0,
-      "loss": 1.773,
-      "step": 6140
-    },
-    {
-      "epoch": 2.04,
-      "learning_rate": 0.0,
-      "loss": 1.8029,
-      "step": 6160
-    },
-    {
-      "epoch": 2.05,
-      "learning_rate": 0.0,
-      "loss": 1.8283,
-      "step": 6180
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 0.0,
-      "loss": 1.8167,
-      "step": 6200
-    },
-    {
-      "epoch": 2.06,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11950.9199,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 6200
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 0.0,
-      "loss": 1.8465,
-      "step": 6220
-    },
-    {
-      "epoch": 2.07,
-      "learning_rate": 0.0,
-      "loss": 1.8747,
-      "step": 6240
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 0.0,
-      "loss": 1.8031,
-      "step": 6260
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 0.0,
-      "loss": 1.8366,
-      "step": 6280
-    },
-    {
-      "epoch": 2.09,
-      "learning_rate": 0.0,
-      "loss": 1.7998,
-      "step": 6300
-    },
-    {
-      "epoch": 2.1,
-      "learning_rate": 0.0,
-      "loss": 1.8143,
-      "step": 6320
-    },
-    {
-      "epoch": 2.1,
-      "learning_rate": 0.0,
-      "loss": 1.8586,
-      "step": 6340
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 0.0,
-      "loss": 1.836,
-      "step": 6360
-    },
-    {
-      "epoch": 2.12,
-      "learning_rate": 0.0,
-      "loss": 1.863,
-      "step": 6380
-    },
-    {
-      "epoch": 2.12,
-      "learning_rate": 0.0,
-      "loss": 1.7667,
-      "step": 6400
-    },
-    {
-      "epoch": 2.12,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11949.7143,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 6400
-    },
-    {
-      "epoch": 2.13,
-      "learning_rate": 0.0,
-      "loss": 1.8187,
-      "step": 6420
-    },
-    {
-      "epoch": 2.14,
-      "learning_rate": 0.0,
-      "loss": 1.7883,
-      "step": 6440
-    },
-    {
-      "epoch": 2.14,
-      "learning_rate": 0.0,
-      "loss": 1.9299,
-      "step": 6460
-    },
-    {
-      "epoch": 2.15,
-      "learning_rate": 0.0,
-      "loss": 1.8286,
-      "step": 6480
-    },
-    {
-      "epoch": 2.16,
-      "learning_rate": 0.0,
-      "loss": 1.8181,
-      "step": 6500
-    },
-    {
-      "epoch": 2.16,
-      "learning_rate": 0.0,
-      "loss": 1.7856,
-      "step": 6520
-    },
-    {
-      "epoch": 2.17,
-      "learning_rate": 0.0,
-      "loss": 1.7192,
-      "step": 6540
-    },
-    {
-      "epoch": 2.18,
-      "learning_rate": 0.0,
-      "loss": 1.7715,
-      "step": 6560
-    },
-    {
-      "epoch": 2.18,
-      "learning_rate": 0.0,
-      "loss": 1.8359,
-      "step": 6580
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 0.0,
-      "loss": 1.7989,
-      "step": 6600
-    },
-    {
-      "epoch": 2.19,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11949.8024,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 6600
-    },
-    {
-      "epoch": 2.2,
-      "learning_rate": 0.0,
-      "loss": 1.7869,
-      "step": 6620
-    },
-    {
-      "epoch": 2.2,
-      "learning_rate": 0.0,
-      "loss": 1.7855,
-      "step": 6640
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 0.0,
-      "loss": 1.8312,
-      "step": 6660
-    },
-    {
-      "epoch": 2.22,
-      "learning_rate": 0.0,
-      "loss": 1.7717,
-      "step": 6680
-    },
-    {
-      "epoch": 2.22,
-      "learning_rate": 0.0,
-      "loss": 1.7621,
-      "step": 6700
-    },
-    {
-      "epoch": 2.23,
-      "learning_rate": 0.0,
-      "loss": 1.8031,
-      "step": 6720
-    },
-    {
-      "epoch": 2.24,
-      "learning_rate": 0.0,
-      "loss": 1.8061,
-      "step": 6740
-    },
-    {
-      "epoch": 2.24,
-      "learning_rate": 0.0,
-      "loss": 1.8063,
-      "step": 6760
-    },
-    {
-      "epoch": 2.25,
-      "learning_rate": 0.0,
-      "loss": 1.7469,
-      "step": 6780
-    },
-    {
-      "epoch": 2.26,
-      "learning_rate": 0.0,
-      "loss": 1.7543,
-      "step": 6800
-    },
-    {
-      "epoch": 2.26,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11954.2042,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 6800
-    },
-    {
-      "epoch": 2.26,
-      "learning_rate": 0.0,
-      "loss": 1.8659,
-      "step": 6820
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 0.0,
-      "loss": 1.7935,
-      "step": 6840
-    },
-    {
-      "epoch": 2.28,
-      "learning_rate": 0.0,
-      "loss": 1.8247,
-      "step": 6860
-    },
-    {
-      "epoch": 2.28,
-      "learning_rate": 0.0,
-      "loss": 1.8339,
-      "step": 6880
-    },
-    {
-      "epoch": 2.29,
-      "learning_rate": 0.0,
-      "loss": 1.8419,
-      "step": 6900
-    },
-    {
-      "epoch": 2.3,
-      "learning_rate": 0.0,
-      "loss": 1.7978,
-      "step": 6920
-    },
-    {
-      "epoch": 2.3,
-      "learning_rate": 0.0,
-      "loss": 1.8048,
-      "step": 6940
-    },
-    {
-      "epoch": 2.31,
-      "learning_rate": 0.0,
-      "loss": 1.8523,
-      "step": 6960
-    },
-    {
-      "epoch": 2.32,
-      "learning_rate": 0.0,
-      "loss": 1.7875,
-      "step": 6980
-    },
-    {
-      "epoch": 2.32,
-      "learning_rate": 0.0,
-      "loss": 1.8262,
-      "step": 7000
-    },
-    {
-      "epoch": 2.32,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11967.8262,
-      "eval_samples_per_second": 1.117,
-      "eval_steps_per_second": 0.14,
-      "step": 7000
-    },
-    {
-      "epoch": 2.33,
-      "learning_rate": 0.0,
-      "loss": 1.8661,
-      "step": 7020
-    },
-    {
-      "epoch": 2.33,
-      "learning_rate": 0.0,
-      "loss": 1.8136,
-      "step": 7040
-    },
-    {
-      "epoch": 2.34,
-      "learning_rate": 0.0,
-      "loss": 1.8066,
-      "step": 7060
-    },
-    {
-      "epoch": 2.35,
-      "learning_rate": 0.0,
-      "loss": 1.8355,
-      "step": 7080
-    },
-    {
-      "epoch": 2.35,
-      "learning_rate": 0.0,
-      "loss": 1.7598,
-      "step": 7100
-    },
-    {
-      "epoch": 2.36,
-      "learning_rate": 0.0,
-      "loss": 1.8384,
-      "step": 7120
-    },
-    {
-      "epoch": 2.37,
-      "learning_rate": 0.0,
-      "loss": 1.7768,
-      "step": 7140
-    },
-    {
-      "epoch": 2.37,
-      "learning_rate": 0.0,
-      "loss": 1.8371,
-      "step": 7160
-    },
-    {
-      "epoch": 2.38,
-      "learning_rate": 0.0,
-      "loss": 1.7989,
-      "step": 7180
-    },
-    {
-      "epoch": 2.39,
-      "learning_rate": 0.0,
-      "loss": 1.8204,
-      "step": 7200
-    },
-    {
-      "epoch": 2.39,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11959.9088,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 7200
-    },
-    {
-      "epoch": 2.39,
-      "learning_rate": 0.0,
-      "loss": 1.8632,
-      "step": 7220
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 0.0,
-      "loss": 1.838,
-      "step": 7240
-    },
-    {
-      "epoch": 2.41,
-      "learning_rate": 0.0,
-      "loss": 1.8492,
-      "step": 7260
-    },
-    {
-      "epoch": 2.41,
-      "learning_rate": 0.0,
-      "loss": 1.8213,
-      "step": 7280
-    },
-    {
-      "epoch": 2.42,
-      "learning_rate": 0.0,
-      "loss": 1.7367,
-      "step": 7300
-    },
-    {
-      "epoch": 2.43,
-      "learning_rate": 0.0,
-      "loss": 1.9046,
-      "step": 7320
-    },
-    {
-      "epoch": 2.43,
-      "learning_rate": 0.0,
-      "loss": 1.7799,
-      "step": 7340
-    },
-    {
-      "epoch": 2.44,
-      "learning_rate": 0.0,
-      "loss": 1.793,
-      "step": 7360
-    },
-    {
-      "epoch": 2.45,
-      "learning_rate": 0.0,
-      "loss": 1.7864,
-      "step": 7380
-    },
-    {
-      "epoch": 2.45,
-      "learning_rate": 0.0,
-      "loss": 1.8071,
-      "step": 7400
-    },
-    {
-      "epoch": 2.45,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11949.9374,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 7400
-    },
-    {
-      "epoch": 2.46,
-      "learning_rate": 0.0,
-      "loss": 1.7708,
-      "step": 7420
-    },
-    {
-      "epoch": 2.47,
-      "learning_rate": 0.0,
-      "loss": 1.8234,
-      "step": 7440
-    },
-    {
-      "epoch": 2.47,
-      "learning_rate": 0.0,
-      "loss": 1.8214,
-      "step": 7460
-    },
-    {
-      "epoch": 2.48,
-      "learning_rate": 0.0,
-      "loss": 1.8468,
-      "step": 7480
-    },
-    {
-      "epoch": 2.49,
-      "learning_rate": 0.0,
-      "loss": 1.784,
-      "step": 7500
-    },
-    {
-      "epoch": 2.49,
-      "learning_rate": 0.0,
-      "loss": 1.8571,
-      "step": 7520
-    },
-    {
-      "epoch": 2.5,
-      "learning_rate": 0.0,
-      "loss": 1.7871,
-      "step": 7540
-    },
-    {
-      "epoch": 2.51,
-      "learning_rate": 0.0,
-      "loss": 1.7819,
-      "step": 7560
-    },
-    {
-      "epoch": 2.51,
-      "learning_rate": 0.0,
-      "loss": 1.8035,
-      "step": 7580
-    },
-    {
-      "epoch": 2.52,
-      "learning_rate": 0.0,
-      "loss": 1.801,
-      "step": 7600
-    },
-    {
-      "epoch": 2.52,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11949.3183,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 7600
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 0.0,
-      "loss": 1.8302,
-      "step": 7620
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 0.0,
-      "loss": 1.8208,
-      "step": 7640
-    },
-    {
-      "epoch": 2.54,
-      "learning_rate": 0.0,
-      "loss": 1.917,
-      "step": 7660
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 0.0,
-      "loss": 1.8184,
-      "step": 7680
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 0.0,
-      "loss": 1.7462,
-      "step": 7700
-    },
-    {
-      "epoch": 2.56,
-      "learning_rate": 0.0,
-      "loss": 1.7699,
-      "step": 7720
-    },
-    {
-      "epoch": 2.57,
-      "learning_rate": 0.0,
-      "loss": 1.8377,
-      "step": 7740
-    },
-    {
-      "epoch": 2.57,
-      "learning_rate": 0.0,
-      "loss": 1.7713,
-      "step": 7760
-    },
-    {
-      "epoch": 2.58,
-      "learning_rate": 0.0,
-      "loss": 1.798,
-      "step": 7780
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 0.0,
-      "loss": 1.8425,
-      "step": 7800
-    },
-    {
-      "epoch": 2.59,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11947.7265,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 7800
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 0.0,
-      "loss": 1.7816,
-      "step": 7820
-    },
-    {
-      "epoch": 2.6,
-      "learning_rate": 0.0,
-      "loss": 1.8193,
-      "step": 7840
-    },
-    {
-      "epoch": 2.61,
-      "learning_rate": 0.0,
-      "loss": 1.8044,
-      "step": 7860
-    },
-    {
-      "epoch": 2.61,
-      "learning_rate": 0.0,
-      "loss": 1.7937,
-      "step": 7880
-    },
-    {
-      "epoch": 2.62,
-      "learning_rate": 0.0,
-      "loss": 1.8224,
-      "step": 7900
-    },
-    {
-      "epoch": 2.63,
-      "learning_rate": 0.0,
-      "loss": 1.7937,
-      "step": 7920
-    },
-    {
-      "epoch": 2.63,
-      "learning_rate": 0.0,
-      "loss": 1.7988,
-      "step": 7940
-    },
-    {
-      "epoch": 2.64,
-      "learning_rate": 0.0,
-      "loss": 1.8622,
-      "step": 7960
-    },
-    {
-      "epoch": 2.65,
-      "learning_rate": 0.0,
-      "loss": 1.8407,
-      "step": 7980
-    },
-    {
-      "epoch": 2.65,
-      "learning_rate": 0.0,
-      "loss": 1.7578,
-      "step": 8000
-    },
-    {
-      "epoch": 2.65,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11948.4274,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 8000
-    },
-    {
-      "epoch": 2.66,
-      "learning_rate": 0.0,
-      "loss": 1.789,
-      "step": 8020
-    },
-    {
-      "epoch": 2.67,
-      "learning_rate": 0.0,
-      "loss": 1.7939,
-      "step": 8040
-    },
-    {
-      "epoch": 2.67,
-      "learning_rate": 0.0,
-      "loss": 1.7694,
-      "step": 8060
-    },
-    {
-      "epoch": 2.68,
-      "learning_rate": 0.0,
-      "loss": 1.7917,
-      "step": 8080
-    },
-    {
-      "epoch": 2.69,
-      "learning_rate": 0.0,
-      "loss": 1.7737,
-      "step": 8100
-    },
-    {
-      "epoch": 2.69,
-      "learning_rate": 0.0,
-      "loss": 1.8049,
-      "step": 8120
-    },
-    {
-      "epoch": 2.7,
-      "learning_rate": 0.0,
-      "loss": 1.8419,
-      "step": 8140
-    },
-    {
-      "epoch": 2.71,
-      "learning_rate": 0.0,
-      "loss": 1.7835,
-      "step": 8160
-    },
-    {
-      "epoch": 2.71,
-      "learning_rate": 0.0,
-      "loss": 1.7898,
-      "step": 8180
-    },
-    {
-      "epoch": 2.72,
-      "learning_rate": 0.0,
-      "loss": 1.7798,
-      "step": 8200
-    },
-    {
-      "epoch": 2.72,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11959.3563,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 8200
-    },
-    {
-      "epoch": 2.73,
-      "learning_rate": 0.0,
-      "loss": 1.7904,
-      "step": 8220
-    },
-    {
-      "epoch": 2.73,
-      "learning_rate": 0.0,
-      "loss": 1.8054,
-      "step": 8240
-    },
-    {
-      "epoch": 2.74,
-      "learning_rate": 0.0,
-      "loss": 1.8316,
-      "step": 8260
-    },
-    {
-      "epoch": 2.75,
-      "learning_rate": 0.0,
-      "loss": 1.8059,
-      "step": 8280
-    },
-    {
-      "epoch": 2.75,
-      "learning_rate": 0.0,
-      "loss": 1.7908,
-      "step": 8300
-    },
-    {
-      "epoch": 2.76,
-      "learning_rate": 0.0,
-      "loss": 1.8092,
-      "step": 8320
-    },
-    {
-      "epoch": 2.77,
-      "learning_rate": 0.0,
-      "loss": 1.8954,
-      "step": 8340
-    },
-    {
-      "epoch": 2.77,
-      "learning_rate": 0.0,
-      "loss": 1.835,
-      "step": 8360
-    },
-    {
-      "epoch": 2.78,
-      "learning_rate": 0.0,
-      "loss": 1.8018,
-      "step": 8380
-    },
-    {
-      "epoch": 2.79,
-      "learning_rate": 0.0,
-      "loss": 1.8474,
-      "step": 8400
-    },
-    {
-      "epoch": 2.79,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11978.111,
-      "eval_samples_per_second": 1.116,
-      "eval_steps_per_second": 0.14,
-      "step": 8400
-    },
-    {
-      "epoch": 2.79,
-      "learning_rate": 0.0,
-      "loss": 1.7878,
-      "step": 8420
-    },
-    {
-      "epoch": 2.8,
-      "learning_rate": 0.0,
-      "loss": 1.7629,
-      "step": 8440
-    },
-    {
-      "epoch": 2.81,
-      "learning_rate": 0.0,
-      "loss": 1.8068,
-      "step": 8460
-    },
-    {
-      "epoch": 2.81,
-      "learning_rate": 0.0,
-      "loss": 1.7907,
-      "step": 8480
-    },
-    {
-      "epoch": 2.82,
-      "learning_rate": 0.0,
-      "loss": 1.7598,
-      "step": 8500
-    },
-    {
-      "epoch": 2.83,
-      "learning_rate": 0.0,
-      "loss": 1.7964,
-      "step": 8520
-    },
-    {
-      "epoch": 2.83,
-      "learning_rate": 0.0,
-      "loss": 1.7951,
-      "step": 8540
-    },
-    {
-      "epoch": 2.84,
-      "learning_rate": 0.0,
-      "loss": 1.7962,
-      "step": 8560
-    },
-    {
-      "epoch": 2.85,
-      "learning_rate": 0.0,
-      "loss": 1.7908,
-      "step": 8580
-    },
-    {
-      "epoch": 2.85,
-      "learning_rate": 0.0,
-      "loss": 1.7525,
-      "step": 8600
-    },
-    {
-      "epoch": 2.85,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11977.8941,
-      "eval_samples_per_second": 1.116,
-      "eval_steps_per_second": 0.14,
-      "step": 8600
-    },
-    {
-      "epoch": 2.86,
-      "learning_rate": 0.0,
-      "loss": 1.7268,
-      "step": 8620
-    },
-    {
-      "epoch": 2.87,
-      "learning_rate": 0.0,
-      "loss": 1.7716,
-      "step": 8640
-    },
-    {
-      "epoch": 2.87,
-      "learning_rate": 0.0,
-      "loss": 1.8214,
-      "step": 8660
-    },
-    {
-      "epoch": 2.88,
-      "learning_rate": 0.0,
-      "loss": 1.8116,
-      "step": 8680
-    },
-    {
-      "epoch": 2.89,
-      "learning_rate": 0.0,
-      "loss": 1.8204,
-      "step": 8700
-    },
-    {
-      "epoch": 2.89,
-      "learning_rate": 0.0,
-      "loss": 1.7878,
-      "step": 8720
-    },
-    {
-      "epoch": 2.9,
-      "learning_rate": 0.0,
-      "loss": 1.8828,
-      "step": 8740
-    },
-    {
-      "epoch": 2.91,
-      "learning_rate": 0.0,
-      "loss": 1.8015,
-      "step": 8760
-    },
-    {
-      "epoch": 2.91,
-      "learning_rate": 0.0,
-      "loss": 1.7989,
-      "step": 8780
-    },
-    {
-      "epoch": 2.92,
-      "learning_rate": 0.0,
-      "loss": 1.7467,
-      "step": 8800
-    },
-    {
-      "epoch": 2.92,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11960.8065,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 8800
-    }
-  ],
-  "max_steps": 9045,
-  "num_train_epochs": 3,
-  "total_flos": 5.4879340491679334e+17,
-  "trial_name": null,
-  "trial_params": null
-}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f5a78612ea8930d68eba4cb53d62254ccf547582e754aa049d169c3c11dd5fe4
-size 4027

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/adapter_config.json DELETED Viewed

@@ -1,16 +0,0 @@
-{
-  "base_model_name_or_path": "/domino/edv/afs-mrmc-data-store-rw/innovation/hf/RedPajama-INCITE-7B-Base",
-  "bias": "none",
-  "fan_in_fan_out": false,
-  "inference_mode": true,
-  "init_lora_weights": true,
-  "lora_alpha": 16,
-  "lora_dropout": 0.05,
-  "modules_to_save": null,
-  "peft_type": "LORA",
-  "r": 8,
-  "target_modules": [
-    "query_key_value"
-  ],
-  "task_type": "CAUSAL_LM"
-}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/adapter_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:36c95157caaa0e8a49516175a38f9e3dfad6634df6c2d7fc47b2e3298cf4d68e
-size 16800753

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:a3c62c46fbec701f73b9c0d2af49122155f2c1654a0d513a7842e367f0516218
-size 33592261

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:2d6e839a14f185d11ef5c6540bd37eb7bad7288947ab9f31a50d914db4272e23
-size 14575

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:471be078058bbf990ff963153250176cf0c4eef4d5abd363e271020185c5758c
-size 627

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/trainer_state.json DELETED Viewed

@@ -1,3076 +0,0 @@
-{
-  "best_metric": 1.9635850191116333,
-  "best_model_checkpoint": "./results/redpj7B-lora-cnn-dailymail-results_fine_tune_test/checkpoint-600",
-  "epoch": 2.9850746268656714,
-  "global_step": 9000,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.01,
-      "learning_rate": 0.00027082228116710874,
-      "loss": 1.8654,
-      "step": 20
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 0.0002681697612732095,
-      "loss": 1.8124,
-      "step": 40
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 0.0002655172413793103,
-      "loss": 1.8231,
-      "step": 60
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 0.0002628647214854111,
-      "loss": 1.7818,
-      "step": 80
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 0.00026021220159151194,
-      "loss": 1.8446,
-      "step": 100
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 0.0002575596816976127,
-      "loss": 1.9001,
-      "step": 120
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.0002549071618037135,
-      "loss": 1.8073,
-      "step": 140
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.0002522546419098143,
-      "loss": 1.8506,
-      "step": 160
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 0.0002496021220159151,
-      "loss": 1.8471,
-      "step": 180
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 0.0002469496021220159,
-      "loss": 1.8647,
-      "step": 200
-    },
-    {
-      "epoch": 0.07,
-      "eval_loss": 1.966022253036499,
-      "eval_runtime": 12002.3952,
-      "eval_samples_per_second": 1.114,
-      "eval_steps_per_second": 0.139,
-      "step": 200
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 0.00024429708222811666,
-      "loss": 1.8578,
-      "step": 220
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 0.0002416445623342175,
-      "loss": 1.8329,
-      "step": 240
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.0002389920424403183,
-      "loss": 1.8119,
-      "step": 260
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.0002363395225464191,
-      "loss": 1.8884,
-      "step": 280
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 0.00023368700265251986,
-      "loss": 1.9077,
-      "step": 300
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 0.00023103448275862065,
-      "loss": 1.8092,
-      "step": 320
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 0.00022838196286472146,
-      "loss": 1.9237,
-      "step": 340
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 0.00022572944297082225,
-      "loss": 1.8701,
-      "step": 360
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.00022307692307692306,
-      "loss": 1.8933,
-      "step": 380
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.00022042440318302385,
-      "loss": 1.8453,
-      "step": 400
-    },
-    {
-      "epoch": 0.13,
-      "eval_loss": 1.9667036533355713,
-      "eval_runtime": 11991.8036,
-      "eval_samples_per_second": 1.115,
-      "eval_steps_per_second": 0.139,
-      "step": 400
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 0.00021777188328912466,
-      "loss": 1.8272,
-      "step": 420
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.00021511936339522545,
-      "loss": 1.8149,
-      "step": 440
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.00021246684350132626,
-      "loss": 1.8565,
-      "step": 460
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 0.00020981432360742705,
-      "loss": 1.8139,
-      "step": 480
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.0002071618037135278,
-      "loss": 1.802,
-      "step": 500
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.00020450928381962862,
-      "loss": 1.8795,
-      "step": 520
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 0.0002018567639257294,
-      "loss": 1.8621,
-      "step": 540
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.00019920424403183022,
-      "loss": 1.8363,
-      "step": 560
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.000196551724137931,
-      "loss": 1.8746,
-      "step": 580
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 0.00019389920424403182,
-      "loss": 1.7763,
-      "step": 600
-    },
-    {
-      "epoch": 0.2,
-      "eval_loss": 1.9635850191116333,
-      "eval_runtime": 11976.5234,
-      "eval_samples_per_second": 1.116,
-      "eval_steps_per_second": 0.14,
-      "step": 600
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.0001912466843501326,
-      "loss": 1.8423,
-      "step": 620
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.00018859416445623343,
-      "loss": 1.8998,
-      "step": 640
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 0.0001859416445623342,
-      "loss": 1.8131,
-      "step": 660
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.00018328912466843497,
-      "loss": 1.8656,
-      "step": 680
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.00018063660477453579,
-      "loss": 1.8181,
-      "step": 700
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 0.00017798408488063657,
-      "loss": 1.8425,
-      "step": 720
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 0.00017533156498673739,
-      "loss": 1.7883,
-      "step": 740
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 0.00017267904509283817,
-      "loss": 1.8469,
-      "step": 760
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.000170026525198939,
-      "loss": 1.8447,
-      "step": 780
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.00016737400530503977,
-      "loss": 1.7872,
-      "step": 800
-    },
-    {
-      "epoch": 0.27,
-      "eval_loss": 1.9704641103744507,
-      "eval_runtime": 11963.7945,
-      "eval_samples_per_second": 1.117,
-      "eval_steps_per_second": 0.14,
-      "step": 800
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.0001647214854111406,
-      "loss": 1.8032,
-      "step": 820
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 0.00016206896551724137,
-      "loss": 1.8709,
-      "step": 840
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.00015941644562334216,
-      "loss": 1.8801,
-      "step": 860
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.00015676392572944298,
-      "loss": 1.8535,
-      "step": 880
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 0.00015411140583554373,
-      "loss": 1.8631,
-      "step": 900
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 0.00015145888594164455,
-      "loss": 1.752,
-      "step": 920
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 0.00014880636604774534,
-      "loss": 1.8705,
-      "step": 940
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 0.00014615384615384615,
-      "loss": 1.8301,
-      "step": 960
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.00014350132625994694,
-      "loss": 1.7892,
-      "step": 980
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.00014084880636604772,
-      "loss": 1.8671,
-      "step": 1000
-    },
-    {
-      "epoch": 0.33,
-      "eval_loss": 1.9677250385284424,
-      "eval_runtime": 11951.074,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 1000
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 0.00013819628647214854,
-      "loss": 1.8168,
-      "step": 1020
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 0.00013554376657824932,
-      "loss": 1.8268,
-      "step": 1040
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 0.00013289124668435014,
-      "loss": 1.8073,
-      "step": 1060
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.0001302387267904509,
-      "loss": 1.9313,
-      "step": 1080
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.0001275862068965517,
-      "loss": 1.9097,
-      "step": 1100
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 0.0001249336870026525,
-      "loss": 1.9032,
-      "step": 1120
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 0.0001222811671087533,
-      "loss": 1.8207,
-      "step": 1140
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 0.0001196286472148541,
-      "loss": 1.8815,
-      "step": 1160
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.0001169761273209549,
-      "loss": 1.8297,
-      "step": 1180
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 0.0001143236074270557,
-      "loss": 1.8899,
-      "step": 1200
-    },
-    {
-      "epoch": 0.4,
-      "eval_loss": 1.9722812175750732,
-      "eval_runtime": 11951.1639,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 1200
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 0.0001116710875331565,
-      "loss": 1.8803,
-      "step": 1220
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 0.00010901856763925729,
-      "loss": 1.8548,
-      "step": 1240
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 0.00010636604774535807,
-      "loss": 1.8498,
-      "step": 1260
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 0.00010371352785145887,
-      "loss": 1.8057,
-      "step": 1280
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 0.00010106100795755967,
-      "loss": 1.8572,
-      "step": 1300
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 9.840848806366047e-05,
-      "loss": 1.8469,
-      "step": 1320
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 9.575596816976126e-05,
-      "loss": 1.8405,
-      "step": 1340
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 9.310344827586206e-05,
-      "loss": 1.8193,
-      "step": 1360
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 9.045092838196286e-05,
-      "loss": 1.7731,
-      "step": 1380
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 8.779840848806366e-05,
-      "loss": 1.8329,
-      "step": 1400
-    },
-    {
-      "epoch": 0.46,
-      "eval_loss": 1.9736511707305908,
-      "eval_runtime": 11956.5916,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 1400
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 8.514588859416444e-05,
-      "loss": 1.8872,
-      "step": 1420
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 8.249336870026524e-05,
-      "loss": 1.8511,
-      "step": 1440
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 7.984084880636604e-05,
-      "loss": 1.7523,
-      "step": 1460
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 7.718832891246684e-05,
-      "loss": 1.8619,
-      "step": 1480
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 7.453580901856764e-05,
-      "loss": 1.8363,
-      "step": 1500
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 7.188328912466844e-05,
-      "loss": 1.7745,
-      "step": 1520
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 6.923076923076922e-05,
-      "loss": 1.8164,
-      "step": 1540
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 6.657824933687002e-05,
-      "loss": 1.7997,
-      "step": 1560
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 6.392572944297081e-05,
-      "loss": 1.8377,
-      "step": 1580
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 6.127320954907161e-05,
-      "loss": 1.851,
-      "step": 1600
-    },
-    {
-      "epoch": 0.53,
-      "eval_loss": 1.9729183912277222,
-      "eval_runtime": 11970.5767,
-      "eval_samples_per_second": 1.117,
-      "eval_steps_per_second": 0.14,
-      "step": 1600
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 5.862068965517241e-05,
-      "loss": 1.8382,
-      "step": 1620
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 5.59681697612732e-05,
-      "loss": 1.8863,
-      "step": 1640
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 5.3315649867374e-05,
-      "loss": 1.762,
-      "step": 1660
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 5.06631299734748e-05,
-      "loss": 1.822,
-      "step": 1680
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 4.801061007957559e-05,
-      "loss": 1.7776,
-      "step": 1700
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 4.5358090185676386e-05,
-      "loss": 1.809,
-      "step": 1720
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 4.2705570291777186e-05,
-      "loss": 1.912,
-      "step": 1740
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 4.005305039787798e-05,
-      "loss": 1.7557,
-      "step": 1760
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 3.7400530503978774e-05,
-      "loss": 1.8232,
-      "step": 1780
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 3.4748010610079574e-05,
-      "loss": 1.8613,
-      "step": 1800
-    },
-    {
-      "epoch": 0.6,
-      "eval_loss": 1.9704504013061523,
-      "eval_runtime": 11980.5334,
-      "eval_samples_per_second": 1.116,
-      "eval_steps_per_second": 0.139,
-      "step": 1800
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 3.209549071618037e-05,
-      "loss": 1.8378,
-      "step": 1820
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 2.9442970822281164e-05,
-      "loss": 1.8871,
-      "step": 1840
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 2.679045092838196e-05,
-      "loss": 1.8821,
-      "step": 1860
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 2.4137931034482755e-05,
-      "loss": 1.8487,
-      "step": 1880
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 2.1485411140583555e-05,
-      "loss": 1.8439,
-      "step": 1900
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 1.883289124668435e-05,
-      "loss": 1.8469,
-      "step": 1920
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 1.6180371352785142e-05,
-      "loss": 1.7797,
-      "step": 1940
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 1.352785145888594e-05,
-      "loss": 1.7795,
-      "step": 1960
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 1.0875331564986736e-05,
-      "loss": 1.8483,
-      "step": 1980
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 8.222811671087533e-06,
-      "loss": 1.8321,
-      "step": 2000
-    },
-    {
-      "epoch": 0.66,
-      "eval_loss": 1.9704707860946655,
-      "eval_runtime": 11964.4776,
-      "eval_samples_per_second": 1.117,
-      "eval_steps_per_second": 0.14,
-      "step": 2000
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 5.5702917771883284e-06,
-      "loss": 1.7708,
-      "step": 2020
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 2.9177718832891245e-06,
-      "loss": 1.8731,
-      "step": 2040
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 2.652519893899204e-07,
-      "loss": 1.8181,
-      "step": 2060
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 0.0,
-      "loss": 1.8692,
-      "step": 2080
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 0.0,
-      "loss": 1.8602,
-      "step": 2100
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 0.0,
-      "loss": 1.8891,
-      "step": 2120
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 0.0,
-      "loss": 1.8205,
-      "step": 2140
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.0,
-      "loss": 1.8242,
-      "step": 2160
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.0,
-      "loss": 1.8661,
-      "step": 2180
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 0.0,
-      "loss": 1.7982,
-      "step": 2200
-    },
-    {
-      "epoch": 0.73,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11950.1314,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 2200
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 0.0,
-      "loss": 1.7967,
-      "step": 2220
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 0.0,
-      "loss": 1.8346,
-      "step": 2240
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 0.0,
-      "loss": 1.8242,
-      "step": 2260
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 0.0,
-      "loss": 1.8429,
-      "step": 2280
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 0.0,
-      "loss": 1.8795,
-      "step": 2300
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 0.0,
-      "loss": 1.8967,
-      "step": 2320
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 0.0,
-      "loss": 1.815,
-      "step": 2340
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 0.0,
-      "loss": 1.8165,
-      "step": 2360
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 0.0,
-      "loss": 1.838,
-      "step": 2380
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.0,
-      "loss": 1.7798,
-      "step": 2400
-    },
-    {
-      "epoch": 0.8,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11951.0888,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 2400
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.0,
-      "loss": 1.7999,
-      "step": 2420
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 0.0,
-      "loss": 1.7957,
-      "step": 2440
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 0.0,
-      "loss": 1.8306,
-      "step": 2460
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 0.0,
-      "loss": 1.87,
-      "step": 2480
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 0.0,
-      "loss": 1.8046,
-      "step": 2500
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 0.0,
-      "loss": 1.76,
-      "step": 2520
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 0.0,
-      "loss": 1.869,
-      "step": 2540
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 0.0,
-      "loss": 1.8684,
-      "step": 2560
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 0.0,
-      "loss": 1.8757,
-      "step": 2580
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 0.0,
-      "loss": 1.868,
-      "step": 2600
-    },
-    {
-      "epoch": 0.86,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11952.488,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 2600
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 0.0,
-      "loss": 1.8228,
-      "step": 2620
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 0.0,
-      "loss": 1.8721,
-      "step": 2640
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 0.0,
-      "loss": 1.8557,
-      "step": 2660
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 0.0,
-      "loss": 1.8545,
-      "step": 2680
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 0.0,
-      "loss": 1.8366,
-      "step": 2700
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 0.0,
-      "loss": 1.8381,
-      "step": 2720
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 0.0,
-      "loss": 1.8305,
-      "step": 2740
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 0.0,
-      "loss": 1.8162,
-      "step": 2760
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 0.0,
-      "loss": 1.8109,
-      "step": 2780
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 0.0,
-      "loss": 1.8694,
-      "step": 2800
-    },
-    {
-      "epoch": 0.93,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11969.9504,
-      "eval_samples_per_second": 1.117,
-      "eval_steps_per_second": 0.14,
-      "step": 2800
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 0.0,
-      "loss": 1.8201,
-      "step": 2820
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 0.0,
-      "loss": 1.848,
-      "step": 2840
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.0,
-      "loss": 1.8138,
-      "step": 2860
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 0.0,
-      "loss": 1.8554,
-      "step": 2880
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 0.0,
-      "loss": 1.8321,
-      "step": 2900
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 0.0,
-      "loss": 1.8404,
-      "step": 2920
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 0.0,
-      "loss": 1.7883,
-      "step": 2940
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 0.0,
-      "loss": 1.8733,
-      "step": 2960
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 0.0,
-      "loss": 1.8074,
-      "step": 2980
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 0.0,
-      "loss": 1.887,
-      "step": 3000
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11974.5637,
-      "eval_samples_per_second": 1.116,
-      "eval_steps_per_second": 0.14,
-      "step": 3000
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 0.0,
-      "loss": 1.7165,
-      "step": 3020
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 0.0,
-      "loss": 1.8041,
-      "step": 3040
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 0.0,
-      "loss": 1.8031,
-      "step": 3060
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 0.0,
-      "loss": 1.8493,
-      "step": 3080
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 0.0,
-      "loss": 1.8475,
-      "step": 3100
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 0.0,
-      "loss": 1.7994,
-      "step": 3120
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 0.0,
-      "loss": 1.7904,
-      "step": 3140
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 0.0,
-      "loss": 1.8078,
-      "step": 3160
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 0.0,
-      "loss": 1.8625,
-      "step": 3180
-    },
-    {
-      "epoch": 1.06,
-      "learning_rate": 0.0,
-      "loss": 1.7874,
-      "step": 3200
-    },
-    {
-      "epoch": 1.06,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11966.566,
-      "eval_samples_per_second": 1.117,
-      "eval_steps_per_second": 0.14,
-      "step": 3200
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 0.0,
-      "loss": 1.7956,
-      "step": 3220
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 0.0,
-      "loss": 1.7517,
-      "step": 3240
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 0.0,
-      "loss": 1.7861,
-      "step": 3260
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 0.0,
-      "loss": 1.7957,
-      "step": 3280
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 0.0,
-      "loss": 1.8147,
-      "step": 3300
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 0.0,
-      "loss": 1.7795,
-      "step": 3320
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 0.0,
-      "loss": 1.7532,
-      "step": 3340
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 0.0,
-      "loss": 1.8414,
-      "step": 3360
-    },
-    {
-      "epoch": 1.12,
-      "learning_rate": 0.0,
-      "loss": 1.771,
-      "step": 3380
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.0,
-      "loss": 1.8119,
-      "step": 3400
-    },
-    {
-      "epoch": 1.13,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11954.7549,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 3400
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.0,
-      "loss": 1.7944,
-      "step": 3420
-    },
-    {
-      "epoch": 1.14,
-      "learning_rate": 0.0,
-      "loss": 1.7855,
-      "step": 3440
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 0.0,
-      "loss": 1.8574,
-      "step": 3460
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 0.0,
-      "loss": 1.8189,
-      "step": 3480
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 0.0,
-      "loss": 1.8033,
-      "step": 3500
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 0.0,
-      "loss": 1.7689,
-      "step": 3520
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 0.0,
-      "loss": 1.8455,
-      "step": 3540
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 0.0,
-      "loss": 1.8255,
-      "step": 3560
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 0.0,
-      "loss": 1.8431,
-      "step": 3580
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 0.0,
-      "loss": 1.7924,
-      "step": 3600
-    },
-    {
-      "epoch": 1.19,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11953.5885,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 3600
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 0.0,
-      "loss": 1.8475,
-      "step": 3620
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 0.0,
-      "loss": 1.6746,
-      "step": 3640
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 0.0,
-      "loss": 1.8006,
-      "step": 3660
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 0.0,
-      "loss": 1.816,
-      "step": 3680
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.0,
-      "loss": 1.7486,
-      "step": 3700
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.0,
-      "loss": 1.8086,
-      "step": 3720
-    },
-    {
-      "epoch": 1.24,
-      "learning_rate": 0.0,
-      "loss": 1.8241,
-      "step": 3740
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 0.0,
-      "loss": 1.823,
-      "step": 3760
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 0.0,
-      "loss": 1.7365,
-      "step": 3780
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 0.0,
-      "loss": 1.801,
-      "step": 3800
-    },
-    {
-      "epoch": 1.26,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11952.013,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 3800
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 0.0,
-      "loss": 1.8497,
-      "step": 3820
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 0.0,
-      "loss": 1.7803,
-      "step": 3840
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 0.0,
-      "loss": 1.6921,
-      "step": 3860
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 0.0,
-      "loss": 1.8508,
-      "step": 3880
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 0.0,
-      "loss": 1.8816,
-      "step": 3900
-    },
-    {
-      "epoch": 1.3,
-      "learning_rate": 0.0,
-      "loss": 1.8105,
-      "step": 3920
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0,
-      "loss": 1.8477,
-      "step": 3940
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0,
-      "loss": 1.841,
-      "step": 3960
-    },
-    {
-      "epoch": 1.32,
-      "learning_rate": 0.0,
-      "loss": 1.7599,
-      "step": 3980
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.0,
-      "loss": 1.7074,
-      "step": 4000
-    },
-    {
-      "epoch": 1.33,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11952.3623,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 4000
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.0,
-      "loss": 1.7529,
-      "step": 4020
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 0.0,
-      "loss": 1.8928,
-      "step": 4040
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 0.0,
-      "loss": 1.8585,
-      "step": 4060
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 0.0,
-      "loss": 1.8279,
-      "step": 4080
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 0.0,
-      "loss": 1.7949,
-      "step": 4100
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 0.0,
-      "loss": 1.8488,
-      "step": 4120
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 0.0,
-      "loss": 1.7572,
-      "step": 4140
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 0.0,
-      "loss": 1.7533,
-      "step": 4160
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.0,
-      "loss": 1.772,
-      "step": 4180
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.0,
-      "loss": 1.8338,
-      "step": 4200
-    },
-    {
-      "epoch": 1.39,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11954.2113,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 4200
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 0.0,
-      "loss": 1.8084,
-      "step": 4220
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.0,
-      "loss": 1.8791,
-      "step": 4240
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.0,
-      "loss": 1.7906,
-      "step": 4260
-    },
-    {
-      "epoch": 1.42,
-      "learning_rate": 0.0,
-      "loss": 1.8669,
-      "step": 4280
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 0.0,
-      "loss": 1.8108,
-      "step": 4300
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 0.0,
-      "loss": 1.7769,
-      "step": 4320
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 0.0,
-      "loss": 1.7599,
-      "step": 4340
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 0.0,
-      "loss": 1.843,
-      "step": 4360
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 0.0,
-      "loss": 1.8608,
-      "step": 4380
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 0.0,
-      "loss": 1.8382,
-      "step": 4400
-    },
-    {
-      "epoch": 1.46,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11958.7166,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 4400
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.0,
-      "loss": 1.8002,
-      "step": 4420
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.0,
-      "loss": 1.8292,
-      "step": 4440
-    },
-    {
-      "epoch": 1.48,
-      "learning_rate": 0.0,
-      "loss": 1.8184,
-      "step": 4460
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.0,
-      "loss": 1.7712,
-      "step": 4480
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.0,
-      "loss": 1.8307,
-      "step": 4500
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 0.0,
-      "loss": 1.7883,
-      "step": 4520
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 0.0,
-      "loss": 1.8106,
-      "step": 4540
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 0.0,
-      "loss": 1.7999,
-      "step": 4560
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 0.0,
-      "loss": 1.8353,
-      "step": 4580
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 0.0,
-      "loss": 1.8366,
-      "step": 4600
-    },
-    {
-      "epoch": 1.53,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11971.0491,
-      "eval_samples_per_second": 1.117,
-      "eval_steps_per_second": 0.14,
-      "step": 4600
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 0.0,
-      "loss": 1.8018,
-      "step": 4620
-    },
-    {
-      "epoch": 1.54,
-      "learning_rate": 0.0,
-      "loss": 1.84,
-      "step": 4640
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 0.0,
-      "loss": 1.7784,
-      "step": 4660
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 0.0,
-      "loss": 1.794,
-      "step": 4680
-    },
-    {
-      "epoch": 1.56,
-      "learning_rate": 0.0,
-      "loss": 1.8237,
-      "step": 4700
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 0.0,
-      "loss": 1.7697,
-      "step": 4720
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 0.0,
-      "loss": 1.8482,
-      "step": 4740
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 0.0,
-      "loss": 1.8008,
-      "step": 4760
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 0.0,
-      "loss": 1.8082,
-      "step": 4780
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 0.0,
-      "loss": 1.7799,
-      "step": 4800
-    },
-    {
-      "epoch": 1.59,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11955.9821,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 4800
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 0.0,
-      "loss": 1.8339,
-      "step": 4820
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 0.0,
-      "loss": 1.8072,
-      "step": 4840
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 0.0,
-      "loss": 1.8024,
-      "step": 4860
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 0.0,
-      "loss": 1.8609,
-      "step": 4880
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 0.0,
-      "loss": 1.8769,
-      "step": 4900
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 0.0,
-      "loss": 1.808,
-      "step": 4920
-    },
-    {
-      "epoch": 1.64,
-      "learning_rate": 0.0,
-      "loss": 1.8482,
-      "step": 4940
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 0.0,
-      "loss": 1.8116,
-      "step": 4960
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 0.0,
-      "loss": 1.7922,
-      "step": 4980
-    },
-    {
-      "epoch": 1.66,
-      "learning_rate": 0.0,
-      "loss": 1.8409,
-      "step": 5000
-    },
-    {
-      "epoch": 1.66,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11953.6568,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 5000
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 0.0,
-      "loss": 1.867,
-      "step": 5020
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 0.0,
-      "loss": 1.8902,
-      "step": 5040
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 0.0,
-      "loss": 1.8835,
-      "step": 5060
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 0.0,
-      "loss": 1.741,
-      "step": 5080
-    },
-    {
-      "epoch": 1.69,
-      "learning_rate": 0.0,
-      "loss": 1.7543,
-      "step": 5100
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 0.0,
-      "loss": 1.7913,
-      "step": 5120
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 0.0,
-      "loss": 1.829,
-      "step": 5140
-    },
-    {
-      "epoch": 1.71,
-      "learning_rate": 0.0,
-      "loss": 1.7915,
-      "step": 5160
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 0.0,
-      "loss": 1.767,
-      "step": 5180
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 0.0,
-      "loss": 1.7809,
-      "step": 5200
-    },
-    {
-      "epoch": 1.72,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11951.295,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 5200
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 0.0,
-      "loss": 1.8715,
-      "step": 5220
-    },
-    {
-      "epoch": 1.74,
-      "learning_rate": 0.0,
-      "loss": 1.8517,
-      "step": 5240
-    },
-    {
-      "epoch": 1.74,
-      "learning_rate": 0.0,
-      "loss": 1.8255,
-      "step": 5260
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 0.0,
-      "loss": 1.7973,
-      "step": 5280
-    },
-    {
-      "epoch": 1.76,
-      "learning_rate": 0.0,
-      "loss": 1.7912,
-      "step": 5300
-    },
-    {
-      "epoch": 1.76,
-      "learning_rate": 0.0,
-      "loss": 1.8331,
-      "step": 5320
-    },
-    {
-      "epoch": 1.77,
-      "learning_rate": 0.0,
-      "loss": 1.835,
-      "step": 5340
-    },
-    {
-      "epoch": 1.78,
-      "learning_rate": 0.0,
-      "loss": 1.8051,
-      "step": 5360
-    },
-    {
-      "epoch": 1.78,
-      "learning_rate": 0.0,
-      "loss": 1.8007,
-      "step": 5380
-    },
-    {
-      "epoch": 1.79,
-      "learning_rate": 0.0,
-      "loss": 1.8069,
-      "step": 5400
-    },
-    {
-      "epoch": 1.79,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11948.5086,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 5400
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 0.0,
-      "loss": 1.784,
-      "step": 5420
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 0.0,
-      "loss": 1.7557,
-      "step": 5440
-    },
-    {
-      "epoch": 1.81,
-      "learning_rate": 0.0,
-      "loss": 1.8011,
-      "step": 5460
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 0.0,
-      "loss": 1.8392,
-      "step": 5480
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 0.0,
-      "loss": 1.7507,
-      "step": 5500
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 0.0,
-      "loss": 1.8043,
-      "step": 5520
-    },
-    {
-      "epoch": 1.84,
-      "learning_rate": 0.0,
-      "loss": 1.7804,
-      "step": 5540
-    },
-    {
-      "epoch": 1.84,
-      "learning_rate": 0.0,
-      "loss": 1.811,
-      "step": 5560
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 0.0,
-      "loss": 1.806,
-      "step": 5580
-    },
-    {
-      "epoch": 1.86,
-      "learning_rate": 0.0,
-      "loss": 1.8103,
-      "step": 5600
-    },
-    {
-      "epoch": 1.86,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11953.5582,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 5600
-    },
-    {
-      "epoch": 1.86,
-      "learning_rate": 0.0,
-      "loss": 1.7947,
-      "step": 5620
-    },
-    {
-      "epoch": 1.87,
-      "learning_rate": 0.0,
-      "loss": 1.8062,
-      "step": 5640
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 0.0,
-      "loss": 1.7997,
-      "step": 5660
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 0.0,
-      "loss": 1.843,
-      "step": 5680
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 0.0,
-      "loss": 1.848,
-      "step": 5700
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 0.0,
-      "loss": 1.8393,
-      "step": 5720
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 0.0,
-      "loss": 1.8187,
-      "step": 5740
-    },
-    {
-      "epoch": 1.91,
-      "learning_rate": 0.0,
-      "loss": 1.802,
-      "step": 5760
-    },
-    {
-      "epoch": 1.92,
-      "learning_rate": 0.0,
-      "loss": 1.7646,
-      "step": 5780
-    },
-    {
-      "epoch": 1.92,
-      "learning_rate": 0.0,
-      "loss": 1.7993,
-      "step": 5800
-    },
-    {
-      "epoch": 1.92,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11953.0956,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 5800
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 0.0,
-      "loss": 1.7962,
-      "step": 5820
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 0.0,
-      "loss": 1.849,
-      "step": 5840
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 0.0,
-      "loss": 1.8254,
-      "step": 5860
-    },
-    {
-      "epoch": 1.95,
-      "learning_rate": 0.0,
-      "loss": 1.8583,
-      "step": 5880
-    },
-    {
-      "epoch": 1.96,
-      "learning_rate": 0.0,
-      "loss": 1.8398,
-      "step": 5900
-    },
-    {
-      "epoch": 1.96,
-      "learning_rate": 0.0,
-      "loss": 1.7306,
-      "step": 5920
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 0.0,
-      "loss": 1.81,
-      "step": 5940
-    },
-    {
-      "epoch": 1.98,
-      "learning_rate": 0.0,
-      "loss": 1.7762,
-      "step": 5960
-    },
-    {
-      "epoch": 1.98,
-      "learning_rate": 0.0,
-      "loss": 1.8549,
-      "step": 5980
-    },
-    {
-      "epoch": 1.99,
-      "learning_rate": 0.0,
-      "loss": 1.84,
-      "step": 6000
-    },
-    {
-      "epoch": 1.99,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11950.3766,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 6000
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 0.0,
-      "loss": 1.7897,
-      "step": 6020
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 0.0,
-      "loss": 1.7844,
-      "step": 6040
-    },
-    {
-      "epoch": 2.01,
-      "learning_rate": 0.0,
-      "loss": 1.8453,
-      "step": 6060
-    },
-    {
-      "epoch": 2.02,
-      "learning_rate": 0.0,
-      "loss": 1.8268,
-      "step": 6080
-    },
-    {
-      "epoch": 2.02,
-      "learning_rate": 0.0,
-      "loss": 1.7932,
-      "step": 6100
-    },
-    {
-      "epoch": 2.03,
-      "learning_rate": 0.0,
-      "loss": 1.8005,
-      "step": 6120
-    },
-    {
-      "epoch": 2.04,
-      "learning_rate": 0.0,
-      "loss": 1.773,
-      "step": 6140
-    },
-    {
-      "epoch": 2.04,
-      "learning_rate": 0.0,
-      "loss": 1.8029,
-      "step": 6160
-    },
-    {
-      "epoch": 2.05,
-      "learning_rate": 0.0,
-      "loss": 1.8283,
-      "step": 6180
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 0.0,
-      "loss": 1.8167,
-      "step": 6200
-    },
-    {
-      "epoch": 2.06,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11950.9199,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 6200
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 0.0,
-      "loss": 1.8465,
-      "step": 6220
-    },
-    {
-      "epoch": 2.07,
-      "learning_rate": 0.0,
-      "loss": 1.8747,
-      "step": 6240
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 0.0,
-      "loss": 1.8031,
-      "step": 6260
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 0.0,
-      "loss": 1.8366,
-      "step": 6280
-    },
-    {
-      "epoch": 2.09,
-      "learning_rate": 0.0,
-      "loss": 1.7998,
-      "step": 6300
-    },
-    {
-      "epoch": 2.1,
-      "learning_rate": 0.0,
-      "loss": 1.8143,
-      "step": 6320
-    },
-    {
-      "epoch": 2.1,
-      "learning_rate": 0.0,
-      "loss": 1.8586,
-      "step": 6340
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 0.0,
-      "loss": 1.836,
-      "step": 6360
-    },
-    {
-      "epoch": 2.12,
-      "learning_rate": 0.0,
-      "loss": 1.863,
-      "step": 6380
-    },
-    {
-      "epoch": 2.12,
-      "learning_rate": 0.0,
-      "loss": 1.7667,
-      "step": 6400
-    },
-    {
-      "epoch": 2.12,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11949.7143,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 6400
-    },
-    {
-      "epoch": 2.13,
-      "learning_rate": 0.0,
-      "loss": 1.8187,
-      "step": 6420
-    },
-    {
-      "epoch": 2.14,
-      "learning_rate": 0.0,
-      "loss": 1.7883,
-      "step": 6440
-    },
-    {
-      "epoch": 2.14,
-      "learning_rate": 0.0,
-      "loss": 1.9299,
-      "step": 6460
-    },
-    {
-      "epoch": 2.15,
-      "learning_rate": 0.0,
-      "loss": 1.8286,
-      "step": 6480
-    },
-    {
-      "epoch": 2.16,
-      "learning_rate": 0.0,
-      "loss": 1.8181,
-      "step": 6500
-    },
-    {
-      "epoch": 2.16,
-      "learning_rate": 0.0,
-      "loss": 1.7856,
-      "step": 6520
-    },
-    {
-      "epoch": 2.17,
-      "learning_rate": 0.0,
-      "loss": 1.7192,
-      "step": 6540
-    },
-    {
-      "epoch": 2.18,
-      "learning_rate": 0.0,
-      "loss": 1.7715,
-      "step": 6560
-    },
-    {
-      "epoch": 2.18,
-      "learning_rate": 0.0,
-      "loss": 1.8359,
-      "step": 6580
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 0.0,
-      "loss": 1.7989,
-      "step": 6600
-    },
-    {
-      "epoch": 2.19,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11949.8024,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 6600
-    },
-    {
-      "epoch": 2.2,
-      "learning_rate": 0.0,
-      "loss": 1.7869,
-      "step": 6620
-    },
-    {
-      "epoch": 2.2,
-      "learning_rate": 0.0,
-      "loss": 1.7855,
-      "step": 6640
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 0.0,
-      "loss": 1.8312,
-      "step": 6660
-    },
-    {
-      "epoch": 2.22,
-      "learning_rate": 0.0,
-      "loss": 1.7717,
-      "step": 6680
-    },
-    {
-      "epoch": 2.22,
-      "learning_rate": 0.0,
-      "loss": 1.7621,
-      "step": 6700
-    },
-    {
-      "epoch": 2.23,
-      "learning_rate": 0.0,
-      "loss": 1.8031,
-      "step": 6720
-    },
-    {
-      "epoch": 2.24,
-      "learning_rate": 0.0,
-      "loss": 1.8061,
-      "step": 6740
-    },
-    {
-      "epoch": 2.24,
-      "learning_rate": 0.0,
-      "loss": 1.8063,
-      "step": 6760
-    },
-    {
-      "epoch": 2.25,
-      "learning_rate": 0.0,
-      "loss": 1.7469,
-      "step": 6780
-    },
-    {
-      "epoch": 2.26,
-      "learning_rate": 0.0,
-      "loss": 1.7543,
-      "step": 6800
-    },
-    {
-      "epoch": 2.26,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11954.2042,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 6800
-    },
-    {
-      "epoch": 2.26,
-      "learning_rate": 0.0,
-      "loss": 1.8659,
-      "step": 6820
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 0.0,
-      "loss": 1.7935,
-      "step": 6840
-    },
-    {
-      "epoch": 2.28,
-      "learning_rate": 0.0,
-      "loss": 1.8247,
-      "step": 6860
-    },
-    {
-      "epoch": 2.28,
-      "learning_rate": 0.0,
-      "loss": 1.8339,
-      "step": 6880
-    },
-    {
-      "epoch": 2.29,
-      "learning_rate": 0.0,
-      "loss": 1.8419,
-      "step": 6900
-    },
-    {
-      "epoch": 2.3,
-      "learning_rate": 0.0,
-      "loss": 1.7978,
-      "step": 6920
-    },
-    {
-      "epoch": 2.3,
-      "learning_rate": 0.0,
-      "loss": 1.8048,
-      "step": 6940
-    },
-    {
-      "epoch": 2.31,
-      "learning_rate": 0.0,
-      "loss": 1.8523,
-      "step": 6960
-    },
-    {
-      "epoch": 2.32,
-      "learning_rate": 0.0,
-      "loss": 1.7875,
-      "step": 6980
-    },
-    {
-      "epoch": 2.32,
-      "learning_rate": 0.0,
-      "loss": 1.8262,
-      "step": 7000
-    },
-    {
-      "epoch": 2.32,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11967.8262,
-      "eval_samples_per_second": 1.117,
-      "eval_steps_per_second": 0.14,
-      "step": 7000
-    },
-    {
-      "epoch": 2.33,
-      "learning_rate": 0.0,
-      "loss": 1.8661,
-      "step": 7020
-    },
-    {
-      "epoch": 2.33,
-      "learning_rate": 0.0,
-      "loss": 1.8136,
-      "step": 7040
-    },
-    {
-      "epoch": 2.34,
-      "learning_rate": 0.0,
-      "loss": 1.8066,
-      "step": 7060
-    },
-    {
-      "epoch": 2.35,
-      "learning_rate": 0.0,
-      "loss": 1.8355,
-      "step": 7080
-    },
-    {
-      "epoch": 2.35,
-      "learning_rate": 0.0,
-      "loss": 1.7598,
-      "step": 7100
-    },
-    {
-      "epoch": 2.36,
-      "learning_rate": 0.0,
-      "loss": 1.8384,
-      "step": 7120
-    },
-    {
-      "epoch": 2.37,
-      "learning_rate": 0.0,
-      "loss": 1.7768,
-      "step": 7140
-    },
-    {
-      "epoch": 2.37,
-      "learning_rate": 0.0,
-      "loss": 1.8371,
-      "step": 7160
-    },
-    {
-      "epoch": 2.38,
-      "learning_rate": 0.0,
-      "loss": 1.7989,
-      "step": 7180
-    },
-    {
-      "epoch": 2.39,
-      "learning_rate": 0.0,
-      "loss": 1.8204,
-      "step": 7200
-    },
-    {
-      "epoch": 2.39,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11959.9088,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 7200
-    },
-    {
-      "epoch": 2.39,
-      "learning_rate": 0.0,
-      "loss": 1.8632,
-      "step": 7220
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 0.0,
-      "loss": 1.838,
-      "step": 7240
-    },
-    {
-      "epoch": 2.41,
-      "learning_rate": 0.0,
-      "loss": 1.8492,
-      "step": 7260
-    },
-    {
-      "epoch": 2.41,
-      "learning_rate": 0.0,
-      "loss": 1.8213,
-      "step": 7280
-    },
-    {
-      "epoch": 2.42,
-      "learning_rate": 0.0,
-      "loss": 1.7367,
-      "step": 7300
-    },
-    {
-      "epoch": 2.43,
-      "learning_rate": 0.0,
-      "loss": 1.9046,
-      "step": 7320
-    },
-    {
-      "epoch": 2.43,
-      "learning_rate": 0.0,
-      "loss": 1.7799,
-      "step": 7340
-    },
-    {
-      "epoch": 2.44,
-      "learning_rate": 0.0,
-      "loss": 1.793,
-      "step": 7360
-    },
-    {
-      "epoch": 2.45,
-      "learning_rate": 0.0,
-      "loss": 1.7864,
-      "step": 7380
-    },
-    {
-      "epoch": 2.45,
-      "learning_rate": 0.0,
-      "loss": 1.8071,
-      "step": 7400
-    },
-    {
-      "epoch": 2.45,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11949.9374,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 7400
-    },
-    {
-      "epoch": 2.46,
-      "learning_rate": 0.0,
-      "loss": 1.7708,
-      "step": 7420
-    },
-    {
-      "epoch": 2.47,
-      "learning_rate": 0.0,
-      "loss": 1.8234,
-      "step": 7440
-    },
-    {
-      "epoch": 2.47,
-      "learning_rate": 0.0,
-      "loss": 1.8214,
-      "step": 7460
-    },
-    {
-      "epoch": 2.48,
-      "learning_rate": 0.0,
-      "loss": 1.8468,
-      "step": 7480
-    },
-    {
-      "epoch": 2.49,
-      "learning_rate": 0.0,
-      "loss": 1.784,
-      "step": 7500
-    },
-    {
-      "epoch": 2.49,
-      "learning_rate": 0.0,
-      "loss": 1.8571,
-      "step": 7520
-    },
-    {
-      "epoch": 2.5,
-      "learning_rate": 0.0,
-      "loss": 1.7871,
-      "step": 7540
-    },
-    {
-      "epoch": 2.51,
-      "learning_rate": 0.0,
-      "loss": 1.7819,
-      "step": 7560
-    },
-    {
-      "epoch": 2.51,
-      "learning_rate": 0.0,
-      "loss": 1.8035,
-      "step": 7580
-    },
-    {
-      "epoch": 2.52,
-      "learning_rate": 0.0,
-      "loss": 1.801,
-      "step": 7600
-    },
-    {
-      "epoch": 2.52,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11949.3183,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 7600
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 0.0,
-      "loss": 1.8302,
-      "step": 7620
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 0.0,
-      "loss": 1.8208,
-      "step": 7640
-    },
-    {
-      "epoch": 2.54,
-      "learning_rate": 0.0,
-      "loss": 1.917,
-      "step": 7660
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 0.0,
-      "loss": 1.8184,
-      "step": 7680
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 0.0,
-      "loss": 1.7462,
-      "step": 7700
-    },
-    {
-      "epoch": 2.56,
-      "learning_rate": 0.0,
-      "loss": 1.7699,
-      "step": 7720
-    },
-    {
-      "epoch": 2.57,
-      "learning_rate": 0.0,
-      "loss": 1.8377,
-      "step": 7740
-    },
-    {
-      "epoch": 2.57,
-      "learning_rate": 0.0,
-      "loss": 1.7713,
-      "step": 7760
-    },
-    {
-      "epoch": 2.58,
-      "learning_rate": 0.0,
-      "loss": 1.798,
-      "step": 7780
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 0.0,
-      "loss": 1.8425,
-      "step": 7800
-    },
-    {
-      "epoch": 2.59,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11947.7265,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 7800
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 0.0,
-      "loss": 1.7816,
-      "step": 7820
-    },
-    {
-      "epoch": 2.6,
-      "learning_rate": 0.0,
-      "loss": 1.8193,
-      "step": 7840
-    },
-    {
-      "epoch": 2.61,
-      "learning_rate": 0.0,
-      "loss": 1.8044,
-      "step": 7860
-    },
-    {
-      "epoch": 2.61,
-      "learning_rate": 0.0,
-      "loss": 1.7937,
-      "step": 7880
-    },
-    {
-      "epoch": 2.62,
-      "learning_rate": 0.0,
-      "loss": 1.8224,
-      "step": 7900
-    },
-    {
-      "epoch": 2.63,
-      "learning_rate": 0.0,
-      "loss": 1.7937,
-      "step": 7920
-    },
-    {
-      "epoch": 2.63,
-      "learning_rate": 0.0,
-      "loss": 1.7988,
-      "step": 7940
-    },
-    {
-      "epoch": 2.64,
-      "learning_rate": 0.0,
-      "loss": 1.8622,
-      "step": 7960
-    },
-    {
-      "epoch": 2.65,
-      "learning_rate": 0.0,
-      "loss": 1.8407,
-      "step": 7980
-    },
-    {
-      "epoch": 2.65,
-      "learning_rate": 0.0,
-      "loss": 1.7578,
-      "step": 8000
-    },
-    {
-      "epoch": 2.65,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11948.4274,
-      "eval_samples_per_second": 1.119,
-      "eval_steps_per_second": 0.14,
-      "step": 8000
-    },
-    {
-      "epoch": 2.66,
-      "learning_rate": 0.0,
-      "loss": 1.789,
-      "step": 8020
-    },
-    {
-      "epoch": 2.67,
-      "learning_rate": 0.0,
-      "loss": 1.7939,
-      "step": 8040
-    },
-    {
-      "epoch": 2.67,
-      "learning_rate": 0.0,
-      "loss": 1.7694,
-      "step": 8060
-    },
-    {
-      "epoch": 2.68,
-      "learning_rate": 0.0,
-      "loss": 1.7917,
-      "step": 8080
-    },
-    {
-      "epoch": 2.69,
-      "learning_rate": 0.0,
-      "loss": 1.7737,
-      "step": 8100
-    },
-    {
-      "epoch": 2.69,
-      "learning_rate": 0.0,
-      "loss": 1.8049,
-      "step": 8120
-    },
-    {
-      "epoch": 2.7,
-      "learning_rate": 0.0,
-      "loss": 1.8419,
-      "step": 8140
-    },
-    {
-      "epoch": 2.71,
-      "learning_rate": 0.0,
-      "loss": 1.7835,
-      "step": 8160
-    },
-    {
-      "epoch": 2.71,
-      "learning_rate": 0.0,
-      "loss": 1.7898,
-      "step": 8180
-    },
-    {
-      "epoch": 2.72,
-      "learning_rate": 0.0,
-      "loss": 1.7798,
-      "step": 8200
-    },
-    {
-      "epoch": 2.72,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11959.3563,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 8200
-    },
-    {
-      "epoch": 2.73,
-      "learning_rate": 0.0,
-      "loss": 1.7904,
-      "step": 8220
-    },
-    {
-      "epoch": 2.73,
-      "learning_rate": 0.0,
-      "loss": 1.8054,
-      "step": 8240
-    },
-    {
-      "epoch": 2.74,
-      "learning_rate": 0.0,
-      "loss": 1.8316,
-      "step": 8260
-    },
-    {
-      "epoch": 2.75,
-      "learning_rate": 0.0,
-      "loss": 1.8059,
-      "step": 8280
-    },
-    {
-      "epoch": 2.75,
-      "learning_rate": 0.0,
-      "loss": 1.7908,
-      "step": 8300
-    },
-    {
-      "epoch": 2.76,
-      "learning_rate": 0.0,
-      "loss": 1.8092,
-      "step": 8320
-    },
-    {
-      "epoch": 2.77,
-      "learning_rate": 0.0,
-      "loss": 1.8954,
-      "step": 8340
-    },
-    {
-      "epoch": 2.77,
-      "learning_rate": 0.0,
-      "loss": 1.835,
-      "step": 8360
-    },
-    {
-      "epoch": 2.78,
-      "learning_rate": 0.0,
-      "loss": 1.8018,
-      "step": 8380
-    },
-    {
-      "epoch": 2.79,
-      "learning_rate": 0.0,
-      "loss": 1.8474,
-      "step": 8400
-    },
-    {
-      "epoch": 2.79,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11978.111,
-      "eval_samples_per_second": 1.116,
-      "eval_steps_per_second": 0.14,
-      "step": 8400
-    },
-    {
-      "epoch": 2.79,
-      "learning_rate": 0.0,
-      "loss": 1.7878,
-      "step": 8420
-    },
-    {
-      "epoch": 2.8,
-      "learning_rate": 0.0,
-      "loss": 1.7629,
-      "step": 8440
-    },
-    {
-      "epoch": 2.81,
-      "learning_rate": 0.0,
-      "loss": 1.8068,
-      "step": 8460
-    },
-    {
-      "epoch": 2.81,
-      "learning_rate": 0.0,
-      "loss": 1.7907,
-      "step": 8480
-    },
-    {
-      "epoch": 2.82,
-      "learning_rate": 0.0,
-      "loss": 1.7598,
-      "step": 8500
-    },
-    {
-      "epoch": 2.83,
-      "learning_rate": 0.0,
-      "loss": 1.7964,
-      "step": 8520
-    },
-    {
-      "epoch": 2.83,
-      "learning_rate": 0.0,
-      "loss": 1.7951,
-      "step": 8540
-    },
-    {
-      "epoch": 2.84,
-      "learning_rate": 0.0,
-      "loss": 1.7962,
-      "step": 8560
-    },
-    {
-      "epoch": 2.85,
-      "learning_rate": 0.0,
-      "loss": 1.7908,
-      "step": 8580
-    },
-    {
-      "epoch": 2.85,
-      "learning_rate": 0.0,
-      "loss": 1.7525,
-      "step": 8600
-    },
-    {
-      "epoch": 2.85,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11977.8941,
-      "eval_samples_per_second": 1.116,
-      "eval_steps_per_second": 0.14,
-      "step": 8600
-    },
-    {
-      "epoch": 2.86,
-      "learning_rate": 0.0,
-      "loss": 1.7268,
-      "step": 8620
-    },
-    {
-      "epoch": 2.87,
-      "learning_rate": 0.0,
-      "loss": 1.7716,
-      "step": 8640
-    },
-    {
-      "epoch": 2.87,
-      "learning_rate": 0.0,
-      "loss": 1.8214,
-      "step": 8660
-    },
-    {
-      "epoch": 2.88,
-      "learning_rate": 0.0,
-      "loss": 1.8116,
-      "step": 8680
-    },
-    {
-      "epoch": 2.89,
-      "learning_rate": 0.0,
-      "loss": 1.8204,
-      "step": 8700
-    },
-    {
-      "epoch": 2.89,
-      "learning_rate": 0.0,
-      "loss": 1.7878,
-      "step": 8720
-    },
-    {
-      "epoch": 2.9,
-      "learning_rate": 0.0,
-      "loss": 1.8828,
-      "step": 8740
-    },
-    {
-      "epoch": 2.91,
-      "learning_rate": 0.0,
-      "loss": 1.8015,
-      "step": 8760
-    },
-    {
-      "epoch": 2.91,
-      "learning_rate": 0.0,
-      "loss": 1.7989,
-      "step": 8780
-    },
-    {
-      "epoch": 2.92,
-      "learning_rate": 0.0,
-      "loss": 1.7467,
-      "step": 8800
-    },
-    {
-      "epoch": 2.92,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11960.8065,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 8800
-    },
-    {
-      "epoch": 2.93,
-      "learning_rate": 0.0,
-      "loss": 1.7823,
-      "step": 8820
-    },
-    {
-      "epoch": 2.93,
-      "learning_rate": 0.0,
-      "loss": 1.8734,
-      "step": 8840
-    },
-    {
-      "epoch": 2.94,
-      "learning_rate": 0.0,
-      "loss": 1.8192,
-      "step": 8860
-    },
-    {
-      "epoch": 2.95,
-      "learning_rate": 0.0,
-      "loss": 1.8,
-      "step": 8880
-    },
-    {
-      "epoch": 2.95,
-      "learning_rate": 0.0,
-      "loss": 1.8057,
-      "step": 8900
-    },
-    {
-      "epoch": 2.96,
-      "learning_rate": 0.0,
-      "loss": 1.8007,
-      "step": 8920
-    },
-    {
-      "epoch": 2.97,
-      "learning_rate": 0.0,
-      "loss": 1.7826,
-      "step": 8940
-    },
-    {
-      "epoch": 2.97,
-      "learning_rate": 0.0,
-      "loss": 1.8612,
-      "step": 8960
-    },
-    {
-      "epoch": 2.98,
-      "learning_rate": 0.0,
-      "loss": 1.7843,
-      "step": 8980
-    },
-    {
-      "epoch": 2.99,
-      "learning_rate": 0.0,
-      "loss": 1.8619,
-      "step": 9000
-    },
-    {
-      "epoch": 2.99,
-      "eval_loss": 1.970503568649292,
-      "eval_runtime": 11953.5723,
-      "eval_samples_per_second": 1.118,
-      "eval_steps_per_second": 0.14,
-      "step": 9000
-    }
-  ],
-  "max_steps": 9045,
-  "num_train_epochs": 3,
-  "total_flos": 5.6126739980068454e+17,
-  "trial_name": null,
-  "trial_params": null
-}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f5a78612ea8930d68eba4cb53d62254ccf547582e754aa049d169c3c11dd5fe4
-size 4027

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/adapter_config.json DELETED Viewed

@@ -1,16 +0,0 @@
-{
-  "base_model_name_or_path": "/domino/edv/afs-mrmc-data-store-rw/innovation/hf/RedPajama-INCITE-7B-Base",
-  "bias": "none",
-  "fan_in_fan_out": false,
-  "inference_mode": true,
-  "init_lora_weights": true,
-  "lora_alpha": 16,
-  "lora_dropout": 0.05,
-  "modules_to_save": null,
-  "peft_type": "LORA",
-  "r": 8,
-  "target_modules": [
-    "query_key_value"
-  ],
-  "task_type": "CAUSAL_LM"
-}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/adapter_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7004b69a5e5338ee5dbc682271079d0cf6750a64f3dd06f0dabf0a4c8129f41b
-size 16800753

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/special_tokens_map.json DELETED Viewed

@@ -1,6 +0,0 @@
-{
-  "bos_token": "<|endoftext|>",
-  "eos_token": "<eos>",
-  "pad_token": "<|endoftext|>",
-  "unk_token": "<|endoftext|>"
-}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/tokenizer_config.json DELETED Viewed

@@ -1,10 +0,0 @@
-{
-  "add_eos_token": true,
-  "add_prefix_space": false,
-  "bos_token": "<|endoftext|>",
-  "clean_up_tokenization_spaces": true,
-  "eos_token": "<|endoftext|>",
-  "model_max_length": 2048,
-  "tokenizer_class": "GPTNeoXTokenizer",
-  "unk_token": "<|endoftext|>"
-}

redpj7B-lora-cnn-dailymail_6000_samples/results/stdout.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

redpj7B-lora-cnn-dailymail_6000_samples/script_fine_tuning.py DELETED Viewed

@@ -1,170 +0,0 @@
-afs_path = '/domino/edv/afs-mrmc-data-store-rw/innovation/hf/'
-import datasets
-from datasets import  load_dataset
-import numpy as np
-from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training, TaskType, PeftModel
-import transformers
-import torch
-print('transformers version: '+transformers.__version__)
-#print('tensorflow version: '+tf.__version__)
-print('torch version: '+torch.__version__)
-device = 'cuda' if torch.cuda.is_available() else 'cpu'
-model = '7B' #'7B' # Pick your poison
-if model == '7B':
-    model_name = ("RedPajama-INCITE-7B-Base","RedPajama-INCITE-7B-Base")
-    run_name = 'redpj7B-lora-cnn-dailymail_fine_tune_test'
-    dataset = 'cnn_dailymail'
-    peft_name = './results/redpj7B-lora-cnn-dailymail_fine_tune_test'
-    output_dir = './results/redpj7B-lora-cnn-dailymail-results_fine_tune_test'
-else: #3B
-    model_name = ("RedPajama-INCITE-Base-3B-v1","RedPajama-INCITE-Base-3B-v1")
-    run_name = 'redpj3B-lora-cnn-dailymail_fine_tune_test'
-    dataset = 'cnn_dailymail'
-    peft_name = './results/redpj3B-lora-cnn-dailymail_fine_tune_test'
-    output_dir = './results/redpj3B-lora-cnn-dailymail-results_fine_tune_test'
-print(f"""model_name: {model_name[1]}, dataset: {dataset}, peft_name {peft_name},  run_name {run_name}, output_dir {output_dir}""")
-from transformers import AutoTokenizer
-print("Loading tokenizer for model: ", model_name[1])
-tokenizer = AutoTokenizer.from_pretrained(afs_path+model_name[1],add_eos_token=True)
-tokenizer.pad_token_id = 0
-tokenizer.add_special_tokens({'eos_token':'<eos>'})
-print('eos_token_id:',tokenizer.eos_token_id)
-#CUTOFF_LEN = 256  # 256 accounts for about 96% of the data in the alpaca dataset
-CUTOFF_LEN = 781  # 781 is the average token count for the articles according to https://huggingface.co/datasets/cnn_dailymail
-def tokenize(prompt, tokenizer,add_eos_token=True):
-    result = tokenizer(
-        prompt+"<eos>",  # add the end-of-stream token
-        truncation=True,
-        max_length=CUTOFF_LEN,
-        padding="max_length",
-    )
-    return {
-        "input_ids": result["input_ids"],
-        "attention_mask": result["attention_mask"],
-    }
-data = datasets.load_from_disk('cnn_dailymail_dataset')
-num_train_examples = len(data['train'])
-# Define the percentage of data you want to keep
-percentage_to_keep = 0.02  # Adjust this value to your desired percentage (0.02 is about 6k samples)
-# Calculate the number of examples to keep
-num_examples_to_keep = int(num_train_examples * percentage_to_keep)
-# Reduce the 'train' split to the desired amount
-train_data_reduced = data['train'].select(range(num_examples_to_keep))
-#train_data_reduced.save_to_disk("./cnn_dailymail_dataset/train_data_reduced")
-def generate_prompt(data_point):
-    # sorry about the formatting disaster gotta move fast
-    if data_point["article"]:
-        return f"""Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.
-### Instruction:
-Summarize the text from the input.
-### Input:
-{data_point["article"]}
-### Response:
-{data_point["highlights"]}"""
-    else:
-        return f"""Below is an instruction that describes a task. Write a response that appropriately completes the request.
-### Instruction:
-Summarize the text.
-### Response:
-{data_point["highlights"]}"""
-train_data = data["train"]
-val_data = data["validation"]
-#train_data = train_data.map(lambda x: tokenize(generate_prompt(x), tokenizer))
-train_data = train_data_reduced.map(lambda x: tokenize(generate_prompt(x), tokenizer)) # use reduced train set
-val_data = val_data.map(lambda x: tokenize(generate_prompt(x), tokenizer))
-from transformers import AutoModelForCausalLM
-print("Loading model for model: ", model_name[0])
-model = AutoModelForCausalLM.from_pretrained(
-    afs_path+model_name[0],
-    load_in_8bit=False, # changed from True to False
-    device_map="auto",
-)
-# Define LoRA Config
-lora_config = LoraConfig(
- r= 8,
- lora_alpha=16,
- target_modules=["query_key_value"],
- lora_dropout=0.05,
- bias="none",
- task_type=TaskType.CAUSAL_LM
-)
-# prepare int-8 model for training
-#model = prepare_model_for_int8_training(model) #uncomment for int8
-# add LoRA adaptor
-model = get_peft_model(model, lora_config)
-eval_steps = 200
-save_steps = 200
-logging_steps = 20
-trainer = transformers.Trainer(
-    model=model,
-    train_dataset=train_data,
-    eval_dataset=val_data,
-    args=transformers.TrainingArguments(
-        num_train_epochs=3,
-        learning_rate=3e-4,
-        logging_steps=logging_steps,
-        logging_dir='./results',            # directory for storing logs
-        evaluation_strategy="steps",
-        save_strategy="steps",
-        eval_steps=eval_steps,
-        save_steps=save_steps,
-        output_dir=output_dir,
-        report_to="none", #changed from report_to if report_to else to "none"
-        save_total_limit=3,
-        load_best_model_at_end=True,
-        push_to_hub=False,
-        auto_find_batch_size=True
-    ),
-    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False),
-)
-model.config.use_cache = False  # silence the warnings. Please re-enable for inference!
-trainer.train()
-# Save our LoRA model & tokenizer results
-trainer.model.save_pretrained(peft_name)
-tokenizer.save_pretrained(peft_name)