End of training

Browse files

Files changed (6) hide show

README.md +28 -68
config.json +1 -1
pytorch_model.bin +1 -1
special_tokens_map.json +102 -0
trainer_state.json +945 -1345
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 license: mit
-base_model: cointegrated/rut5-small
 tags:
 - generated_from_trainer
 model-index:
@@ -13,11 +13,11 @@ should probably proofread and complete it, then remove this comment. -->
 # text-normalization-ru-new
-This model is a fine-tuned version of [cointegrated/rut5-small](https://huggingface.co/cointegrated/rut5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0318
 - Mean Distance: 0
-- Max Distance: 11
 ## Model description
@@ -36,79 +36,39 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.001
 - train_batch_size: 30
 - eval_batch_size: 30
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 60
 ### Training results
-| Training Loss | Epoch | Step   | Validation Loss | Mean Distance | Max Distance |
-|:-------------:|:-----:|:------:|:---------------:|:-------------:|:------------:|
-| 0.2251        | 1.0   | 3334   | 0.1190          | 3             | 29           |
-| 0.1179        | 2.0   | 6668   | 0.0574          | 2             | 31           |
-| 0.0848        | 3.0   | 10002  | 0.0436          | 1             | 15           |
-| 0.0618        | 4.0   | 13336  | 0.0359          | 1             | 20           |
-| 0.0532        | 5.0   | 16670  | 0.0315          | 0             | 11           |
-| 0.0446        | 6.0   | 20004  | 0.0299          | 0             | 16           |
-| 0.0388        | 7.0   | 23338  | 0.0295          | 0             | 15           |
-| 0.0311        | 8.0   | 26672  | 0.0287          | 0             | 15           |
-| 0.0269        | 9.0   | 30006  | 0.0241          | 0             | 15           |
-| 0.0232        | 10.0  | 33340  | 0.0228          | 0             | 13           |
-| 0.0203        | 11.0  | 36674  | 0.0243          | 0             | 16           |
-| 0.0173        | 12.0  | 40008  | 0.0250          | 0             | 15           |
-| 0.0151        | 13.0  | 43342  | 0.0244          | 0             | 9            |
-| 0.0136        | 14.0  | 46676  | 0.0234          | 0             | 15           |
-| 0.0123        | 15.0  | 50010  | 0.0221          | 0             | 9            |
-| 0.0113        | 16.0  | 53344  | 0.0244          | 0             | 12           |
-| 0.01          | 17.0  | 56678  | 0.0226          | 0             | 13           |
-| 0.0089        | 18.0  | 60012  | 0.0271          | 0             | 13           |
-| 0.0085        | 19.0  | 63346  | 0.0248          | 0             | 13           |
-| 0.0074        | 20.0  | 66680  | 0.0277          | 0             | 12           |
-| 0.007         | 21.0  | 70014  | 0.0309          | 0             | 13           |
-| 0.0066        | 22.0  | 73348  | 0.0306          | 0             | 11           |
-| 0.0056        | 23.0  | 76682  | 0.0287          | 0             | 10           |
-| 0.0053        | 24.0  | 80016  | 0.0312          | 0             | 12           |
-| 0.0049        | 25.0  | 83350  | 0.0276          | 0             | 11           |
-| 0.0053        | 26.0  | 86684  | 0.0308          | 0             | 10           |
-| 0.0041        | 27.0  | 90018  | 0.0279          | 0             | 10           |
-| 0.0041        | 28.0  | 93352  | 0.0292          | 0             | 11           |
-| 0.0037        | 29.0  | 96686  | 0.0306          | 0             | 11           |
-| 0.0035        | 30.0  | 100020 | 0.0272          | 0             | 12           |
-| 0.0032        | 31.0  | 103354 | 0.0255          | 0             | 9            |
-| 0.0031        | 32.0  | 106688 | 0.0293          | 0             | 10           |
-| 0.0029        | 33.0  | 110022 | 0.0300          | 0             | 13           |
-| 0.0026        | 34.0  | 113356 | 0.0305          | 0             | 11           |
-| 0.0024        | 35.0  | 116690 | 0.0273          | 0             | 9            |
-| 0.0023        | 36.0  | 120024 | 0.0284          | 0             | 10           |
-| 0.0022        | 37.0  | 123358 | 0.0313          | 0             | 13           |
-| 0.002         | 38.0  | 126692 | 0.0341          | 0             | 13           |
-| 0.0017        | 39.0  | 130026 | 0.0301          | 0             | 13           |
-| 0.0017        | 40.0  | 133360 | 0.0330          | 0             | 11           |
-| 0.0016        | 41.0  | 136694 | 0.0344          | 0             | 11           |
-| 0.0014        | 42.0  | 140028 | 0.0337          | 0             | 10           |
-| 0.0013        | 43.0  | 143362 | 0.0292          | 0             | 12           |
-| 0.0012        | 44.0  | 146696 | 0.0339          | 0             | 11           |
-| 0.0012        | 45.0  | 150030 | 0.0330          | 0             | 11           |
-| 0.001         | 46.0  | 153364 | 0.0307          | 0             | 11           |
-| 0.001         | 47.0  | 156698 | 0.0330          | 0             | 10           |
-| 0.0009        | 48.0  | 160032 | 0.0338          | 0             | 11           |
-| 0.0009        | 49.0  | 163366 | 0.0288          | 0             | 10           |
-| 0.0008        | 50.0  | 166700 | 0.0256          | 0             | 10           |
-| 0.0007        | 51.0  | 170034 | 0.0284          | 0             | 11           |
-| 0.0006        | 52.0  | 173368 | 0.0342          | 0             | 10           |
-| 0.0006        | 53.0  | 176702 | 0.0312          | 0             | 10           |
-| 0.0005        | 54.0  | 180036 | 0.0326          | 0             | 10           |
-| 0.0005        | 55.0  | 183370 | 0.0304          | 0             | 11           |
-| 0.0005        | 56.0  | 186704 | 0.0300          | 0             | 11           |
-| 0.0004        | 57.0  | 190038 | 0.0313          | 0             | 11           |
-| 0.0003        | 58.0  | 193372 | 0.0321          | 0             | 11           |
-| 0.0003        | 59.0  | 196706 | 0.0316          | 0             | 10           |
-| 0.0004        | 60.0  | 200040 | 0.0318          | 0             | 11           |
 ### Framework versions

 ---
 license: mit
+base_model: alexue4/text-normalization-ru-new
 tags:
 - generated_from_trainer
 model-index:
 # text-normalization-ru-new
+This model is a fine-tuned version of [alexue4/text-normalization-ru-new](https://huggingface.co/alexue4/text-normalization-ru-new) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0007
 - Mean Distance: 0
+- Max Distance: 3
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0001
 - train_batch_size: 30
 - eval_batch_size: 30
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 20
 ### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Mean Distance | Max Distance |
+|:-------------:|:-----:|:-----:|:---------------:|:-------------:|:------------:|
+| 0.0028        | 1.0   | 3443  | 0.0015          | 0             | 3            |
+| 0.0019        | 2.0   | 6886  | 0.0009          | 0             | 3            |
+| 0.0016        | 3.0   | 10329 | 0.0013          | 0             | 3            |
+| 0.0013        | 4.0   | 13772 | 0.0008          | 0             | 1            |
+| 0.0012        | 5.0   | 17215 | 0.0011          | 0             | 3            |
+| 0.0009        | 6.0   | 20658 | 0.0009          | 0             | 3            |
+| 0.0008        | 7.0   | 24101 | 0.0011          | 0             | 3            |
+| 0.0007        | 8.0   | 27544 | 0.0010          | 0             | 3            |
+| 0.0006        | 9.0   | 30987 | 0.0012          | 0             | 3            |
+| 0.0006        | 10.0  | 34430 | 0.0008          | 0             | 3            |
+| 0.0006        | 11.0  | 37873 | 0.0005          | 0             | 0            |
+| 0.0005        | 12.0  | 41316 | 0.0007          | 0             | 1            |
+| 0.0004        | 13.0  | 44759 | 0.0007          | 0             | 0            |
+| 0.0006        | 14.0  | 48202 | 0.0011          | 0             | 3            |
+| 0.0005        | 15.0  | 51645 | 0.0008          | 0             | 3            |
+| 0.0005        | 16.0  | 55088 | 0.0008          | 0             | 3            |
+| 0.0005        | 17.0  | 58531 | 0.0008          | 0             | 3            |
+| 0.0004        | 18.0  | 61974 | 0.0007          | 0             | 3            |
+| 0.0004        | 19.0  | 65417 | 0.0007          | 0             | 3            |
+| 0.0005        | 20.0  | 68860 | 0.0007          | 0             | 3            |
 ### Framework versions

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "cointegrated/rut5-small",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

 {
+  "_name_or_path": "alexue4/text-normalization-ru-new",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:640ab93c6e6932ab1eb56e93439e8e20cf9ed1484ccd6ca0aa7250c2acf8ab00
 size 258643461

 version https://git-lfs.github.com/spec/v1
+oid sha256:426d8940304254b400c7865e3f92b2ed60ec87d2cec52df3644476d19c0451e2
 size 258643461

special_tokens_map.json CHANGED Viewed

@@ -1,4 +1,106 @@
 {
   "eos_token": "</s>",
   "pad_token": "<pad>",
   "unk_token": "<unk>"

 {
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
   "eos_token": "</s>",
   "pad_token": "<pad>",
   "unk_token": "<unk>"

trainer_state.json CHANGED Viewed

@@ -1,1828 +1,1428 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 60.0,
   "eval_steps": 500,
-  "global_step": 200040,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 4.999000199960008e-08,
-      "loss": 13.1619,
       "step": 1
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 5.003999200159968e-05,
-      "loss": 3.3531,
-      "step": 1001
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 0.00010007998400319936,
-      "loss": 0.3338,
-      "step": 2002
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 0.00015011997600479905,
-      "loss": 0.2251,
-      "step": 3003
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": 0.118980273604393,
-      "eval_max_distance": 29,
-      "eval_mean_distance": 3,
-      "eval_runtime": 0.3245,
-      "eval_samples_per_second": 154.076,
-      "eval_steps_per_second": 6.163,
-      "step": 3334
     },
     {
-      "epoch": 1.2,
-      "learning_rate": 0.00020015996800639872,
-      "loss": 0.1668,
-      "step": 4004
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 0.0002501999600079984,
-      "loss": 0.1375,
-      "step": 5005
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 0.0003002399520095981,
-      "loss": 0.1179,
-      "step": 6006
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.057394467294216156,
-      "eval_max_distance": 31,
-      "eval_mean_distance": 2,
-      "eval_runtime": 0.2749,
-      "eval_samples_per_second": 181.873,
-      "eval_steps_per_second": 7.275,
-      "step": 6668
     },
     {
-      "epoch": 2.1,
-      "learning_rate": 0.00035027994401119777,
-      "loss": 0.0992,
-      "step": 7007
     },
     {
-      "epoch": 2.4,
-      "learning_rate": 0.00040031993601279744,
-      "loss": 0.0886,
-      "step": 8008
     },
     {
-      "epoch": 2.7,
-      "learning_rate": 0.0004503599280143971,
-      "loss": 0.0848,
-      "step": 9009
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 0.043563079088926315,
-      "eval_max_distance": 15,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.2795,
-      "eval_samples_per_second": 178.881,
-      "eval_steps_per_second": 7.155,
-      "step": 10002
     },
     {
-      "epoch": 3.0,
-      "learning_rate": 0.0005003999200159968,
-      "loss": 0.0757,
-      "step": 10010
     },
     {
-      "epoch": 3.3,
-      "learning_rate": 0.0005504399120175964,
-      "loss": 0.0681,
-      "step": 11011
     },
     {
-      "epoch": 3.6,
-      "learning_rate": 0.0006004799040191962,
-      "loss": 0.0653,
-      "step": 12012
     },
     {
-      "epoch": 3.9,
-      "learning_rate": 0.0006505198960207959,
-      "loss": 0.0618,
-      "step": 13013
     },
     {
-      "epoch": 4.0,
-      "eval_loss": 0.035945579409599304,
-      "eval_max_distance": 20,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.2802,
-      "eval_samples_per_second": 178.422,
-      "eval_steps_per_second": 7.137,
-      "step": 13336
     },
     {
-      "epoch": 4.2,
-      "learning_rate": 0.0007005598880223955,
-      "loss": 0.0564,
-      "step": 14014
     },
     {
-      "epoch": 4.5,
-      "learning_rate": 0.0007505998800239953,
-      "loss": 0.0537,
-      "step": 15015
     },
     {
-      "epoch": 4.8,
-      "learning_rate": 0.0008006398720255949,
-      "loss": 0.0532,
-      "step": 16016
     },
     {
-      "epoch": 5.0,
-      "eval_loss": 0.031485434621572495,
-      "eval_max_distance": 11,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2717,
-      "eval_samples_per_second": 184.007,
-      "eval_steps_per_second": 7.36,
-      "step": 16670
     },
     {
-      "epoch": 5.1,
-      "learning_rate": 0.0008506798640271945,
-      "loss": 0.05,
-      "step": 17017
     },
     {
-      "epoch": 5.4,
-      "learning_rate": 0.0009007198560287942,
-      "loss": 0.0468,
-      "step": 18018
     },
     {
-      "epoch": 5.7,
-      "learning_rate": 0.000950759848030394,
-      "loss": 0.0446,
-      "step": 19019
     },
     {
-      "epoch": 6.0,
-      "eval_loss": 0.0298615675419569,
-      "eval_max_distance": 16,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2573,
-      "eval_samples_per_second": 194.348,
-      "eval_steps_per_second": 7.774,
-      "step": 20004
-    },
-    {
-      "epoch": 6.0,
-      "learning_rate": 0.000999911128885334,
-      "loss": 0.0465,
-      "step": 20020
-    },
-    {
-      "epoch": 6.31,
-      "learning_rate": 0.0009943511297740451,
-      "loss": 0.0384,
-      "step": 21021
     },
     {
-      "epoch": 6.61,
-      "learning_rate": 0.0009887911306627564,
-      "loss": 0.0378,
-      "step": 22022
     },
     {
-      "epoch": 6.91,
-      "learning_rate": 0.0009832311315514674,
-      "loss": 0.0388,
-      "step": 23023
     },
     {
-      "epoch": 7.0,
-      "eval_loss": 0.029532546177506447,
-      "eval_max_distance": 15,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2674,
-      "eval_samples_per_second": 187.01,
-      "eval_steps_per_second": 7.48,
-      "step": 23338
     },
     {
-      "epoch": 7.21,
-      "learning_rate": 0.0009776711324401787,
-      "loss": 0.0336,
-      "step": 24024
     },
     {
-      "epoch": 7.51,
-      "learning_rate": 0.0009721111333288898,
-      "loss": 0.032,
-      "step": 25025
     },
     {
-      "epoch": 7.81,
-      "learning_rate": 0.000966551134217601,
-      "loss": 0.0311,
-      "step": 26026
     },
     {
-      "epoch": 8.0,
-      "eval_loss": 0.02873826026916504,
-      "eval_max_distance": 15,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2674,
-      "eval_samples_per_second": 186.98,
-      "eval_steps_per_second": 7.479,
-      "step": 26672
     },
     {
-      "epoch": 8.11,
-      "learning_rate": 0.0009609911351063121,
-      "loss": 0.0304,
-      "step": 27027
     },
     {
-      "epoch": 8.41,
-      "learning_rate": 0.0009554311359950233,
-      "loss": 0.0267,
-      "step": 28028
     },
     {
-      "epoch": 8.71,
-      "learning_rate": 0.0009498711368837344,
-      "loss": 0.0269,
-      "step": 29029
     },
     {
-      "epoch": 9.0,
-      "eval_loss": 0.02408006228506565,
-      "eval_max_distance": 15,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2548,
-      "eval_samples_per_second": 196.242,
-      "eval_steps_per_second": 7.85,
-      "step": 30006
-    },
-    {
-      "epoch": 9.01,
-      "learning_rate": 0.0009443111377724454,
-      "loss": 0.0269,
-      "step": 30030
     },
     {
-      "epoch": 9.31,
-      "learning_rate": 0.0009387511386611567,
-      "loss": 0.022,
-      "step": 31031
-    },
-    {
-      "epoch": 9.61,
-      "learning_rate": 0.0009331911395498677,
-      "loss": 0.0231,
-      "step": 32032
     },
     {
-      "epoch": 9.91,
-      "learning_rate": 0.000927631140438579,
-      "loss": 0.0232,
-      "step": 33033
     },
     {
-      "epoch": 10.0,
-      "eval_loss": 0.022765493020415306,
-      "eval_max_distance": 13,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2488,
-      "eval_samples_per_second": 200.959,
-      "eval_steps_per_second": 8.038,
-      "step": 33340
     },
     {
-      "epoch": 10.21,
-      "learning_rate": 0.00092207114132729,
-      "loss": 0.0199,
-      "step": 34034
     },
     {
-      "epoch": 10.51,
-      "learning_rate": 0.0009165111422160013,
-      "loss": 0.0196,
-      "step": 35035
     },
     {
-      "epoch": 10.81,
-      "learning_rate": 0.0009109511431047123,
-      "loss": 0.0203,
-      "step": 36036
     },
     {
-      "epoch": 11.0,
-      "eval_loss": 0.024308495223522186,
-      "eval_max_distance": 16,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2617,
-      "eval_samples_per_second": 191.039,
-      "eval_steps_per_second": 7.642,
-      "step": 36674
     },
     {
-      "epoch": 11.11,
-      "learning_rate": 0.0009053911439934236,
-      "loss": 0.0186,
-      "step": 37037
     },
     {
-      "epoch": 11.41,
-      "learning_rate": 0.0008998311448821347,
-      "loss": 0.0167,
-      "step": 38038
     },
     {
-      "epoch": 11.71,
-      "learning_rate": 0.0008942711457708459,
-      "loss": 0.0173,
-      "step": 39039
     },
     {
-      "epoch": 12.0,
-      "eval_loss": 0.0250206608325243,
-      "eval_max_distance": 15,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2565,
-      "eval_samples_per_second": 194.951,
-      "eval_steps_per_second": 7.798,
-      "step": 40008
-    },
-    {
-      "epoch": 12.01,
-      "learning_rate": 0.000888711146659557,
-      "loss": 0.0178,
-      "step": 40040
     },
     {
-      "epoch": 12.31,
-      "learning_rate": 0.0008831511475482682,
-      "loss": 0.0146,
-      "step": 41041
-    },
-    {
-      "epoch": 12.61,
-      "learning_rate": 0.0008775911484369793,
-      "loss": 0.0149,
-      "step": 42042
     },
     {
-      "epoch": 12.91,
-      "learning_rate": 0.0008720311493256904,
-      "loss": 0.0151,
-      "step": 43043
     },
     {
-      "epoch": 13.0,
-      "eval_loss": 0.024401402100920677,
-      "eval_max_distance": 9,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2582,
-      "eval_samples_per_second": 193.662,
-      "eval_steps_per_second": 7.746,
-      "step": 43342
     },
     {
-      "epoch": 13.21,
-      "learning_rate": 0.0008664711502144016,
-      "loss": 0.0138,
-      "step": 44044
     },
     {
-      "epoch": 13.51,
-      "learning_rate": 0.0008609111511031127,
-      "loss": 0.0137,
-      "step": 45045
     },
     {
-      "epoch": 13.81,
-      "learning_rate": 0.0008553511519918239,
-      "loss": 0.0136,
-      "step": 46046
     },
     {
-      "epoch": 14.0,
-      "eval_loss": 0.023412013426423073,
-      "eval_max_distance": 15,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2465,
-      "eval_samples_per_second": 202.834,
-      "eval_steps_per_second": 8.113,
-      "step": 46676
     },
     {
-      "epoch": 14.11,
-      "learning_rate": 0.000849791152880535,
-      "loss": 0.0126,
-      "step": 47047
     },
     {
-      "epoch": 14.41,
-      "learning_rate": 0.0008442311537692462,
-      "loss": 0.0121,
-      "step": 48048
     },
     {
-      "epoch": 14.71,
-      "learning_rate": 0.0008386711546579573,
-      "loss": 0.0123,
-      "step": 49049
     },
     {
-      "epoch": 15.0,
-      "eval_loss": 0.022092605009675026,
-      "eval_max_distance": 9,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2607,
-      "eval_samples_per_second": 191.77,
-      "eval_steps_per_second": 7.671,
-      "step": 50010
     },
     {
-      "epoch": 15.01,
-      "learning_rate": 0.0008331111555466685,
-      "loss": 0.0125,
-      "step": 50050
-    },
-    {
-      "epoch": 15.31,
-      "learning_rate": 0.0008275511564353796,
-      "loss": 0.0101,
-      "step": 51051
-    },
-    {
-      "epoch": 15.61,
-      "learning_rate": 0.0008219911573240908,
-      "loss": 0.0108,
-      "step": 52052
     },
     {
-      "epoch": 15.91,
-      "learning_rate": 0.0008164311582128019,
-      "loss": 0.0113,
-      "step": 53053
     },
     {
-      "epoch": 16.0,
-      "eval_loss": 0.024386152625083923,
-      "eval_max_distance": 12,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2455,
-      "eval_samples_per_second": 203.682,
-      "eval_steps_per_second": 8.147,
-      "step": 53344
     },
     {
-      "epoch": 16.21,
-      "learning_rate": 0.0008108711591015131,
-      "loss": 0.0099,
-      "step": 54054
     },
     {
-      "epoch": 16.51,
-      "learning_rate": 0.0008053111599902242,
-      "loss": 0.0096,
-      "step": 55055
     },
     {
-      "epoch": 16.81,
-      "learning_rate": 0.0007997511608789353,
-      "loss": 0.01,
-      "step": 56056
     },
     {
-      "epoch": 17.0,
-      "eval_loss": 0.02255043014883995,
-      "eval_max_distance": 13,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2506,
-      "eval_samples_per_second": 199.486,
-      "eval_steps_per_second": 7.979,
-      "step": 56678
     },
     {
-      "epoch": 17.11,
-      "learning_rate": 0.0007941911617676465,
-      "loss": 0.0093,
-      "step": 57057
     },
     {
-      "epoch": 17.41,
-      "learning_rate": 0.0007886311626563576,
-      "loss": 0.0087,
-      "step": 58058
     },
     {
-      "epoch": 17.71,
-      "learning_rate": 0.0007830711635450687,
-      "loss": 0.0089,
-      "step": 59059
     },
     {
-      "epoch": 18.0,
-      "eval_loss": 0.027119183912873268,
-      "eval_max_distance": 13,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2424,
-      "eval_samples_per_second": 206.232,
-      "eval_steps_per_second": 8.249,
-      "step": 60012
     },
     {
-      "epoch": 18.01,
-      "learning_rate": 0.0007775111644337799,
-      "loss": 0.0091,
-      "step": 60060
-    },
-    {
-      "epoch": 18.31,
-      "learning_rate": 0.0007719511653224912,
-      "loss": 0.0075,
-      "step": 61061
-    },
-    {
-      "epoch": 18.61,
-      "learning_rate": 0.0007663911662112022,
-      "loss": 0.0079,
-      "step": 62062
     },
     {
-      "epoch": 18.92,
-      "learning_rate": 0.0007608311670999134,
-      "loss": 0.0085,
-      "step": 63063
     },
     {
-      "epoch": 19.0,
-      "eval_loss": 0.024822326377034187,
-      "eval_max_distance": 13,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2416,
-      "eval_samples_per_second": 206.915,
-      "eval_steps_per_second": 8.277,
-      "step": 63346
     },
     {
-      "epoch": 19.22,
-      "learning_rate": 0.0007552711679886245,
-      "loss": 0.0071,
-      "step": 64064
     },
     {
-      "epoch": 19.52,
-      "learning_rate": 0.0007497111688773357,
-      "loss": 0.0074,
-      "step": 65065
     },
     {
-      "epoch": 19.82,
-      "learning_rate": 0.0007441511697660468,
-      "loss": 0.0074,
-      "step": 66066
     },
     {
-      "epoch": 20.0,
-      "eval_loss": 0.027729548513889313,
-      "eval_max_distance": 12,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2481,
-      "eval_samples_per_second": 201.568,
-      "eval_steps_per_second": 8.063,
-      "step": 66680
     },
     {
-      "epoch": 20.12,
-      "learning_rate": 0.000738591170654758,
-      "loss": 0.007,
-      "step": 67067
     },
     {
-      "epoch": 20.42,
-      "learning_rate": 0.0007330311715434691,
-      "loss": 0.0061,
-      "step": 68068
     },
     {
-      "epoch": 20.72,
-      "learning_rate": 0.0007274711724321802,
-      "loss": 0.007,
-      "step": 69069
     },
     {
-      "epoch": 21.0,
-      "eval_loss": 0.030854225158691406,
-      "eval_max_distance": 13,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2457,
-      "eval_samples_per_second": 203.54,
-      "eval_steps_per_second": 8.142,
-      "step": 70014
-    },
-    {
-      "epoch": 21.02,
-      "learning_rate": 0.0007219111733208914,
-      "loss": 0.0069,
-      "step": 70070
     },
     {
-      "epoch": 21.32,
-      "learning_rate": 0.0007163511742096025,
-      "loss": 0.006,
-      "step": 71071
-    },
-    {
-      "epoch": 21.62,
-      "learning_rate": 0.0007107911750983137,
-      "loss": 0.0061,
-      "step": 72072
     },
     {
-      "epoch": 21.92,
-      "learning_rate": 0.0007052311759870248,
-      "loss": 0.0066,
-      "step": 73073
     },
     {
-      "epoch": 22.0,
-      "eval_loss": 0.030563361942768097,
-      "eval_max_distance": 11,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2419,
-      "eval_samples_per_second": 206.734,
-      "eval_steps_per_second": 8.269,
-      "step": 73348
     },
     {
-      "epoch": 22.22,
-      "learning_rate": 0.000699671176875736,
-      "loss": 0.0054,
-      "step": 74074
     },
     {
-      "epoch": 22.52,
-      "learning_rate": 0.0006941111777644471,
-      "loss": 0.0061,
-      "step": 75075
     },
     {
-      "epoch": 22.82,
-      "learning_rate": 0.0006885511786531583,
-      "loss": 0.0056,
-      "step": 76076
     },
     {
-      "epoch": 23.0,
-      "eval_loss": 0.028730520978569984,
-      "eval_max_distance": 10,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2431,
-      "eval_samples_per_second": 205.684,
-      "eval_steps_per_second": 8.227,
-      "step": 76682
     },
     {
-      "epoch": 23.12,
-      "learning_rate": 0.0006829911795418694,
-      "loss": 0.0054,
-      "step": 77077
     },
     {
-      "epoch": 23.42,
-      "learning_rate": 0.0006774311804305806,
-      "loss": 0.0052,
-      "step": 78078
     },
     {
-      "epoch": 23.72,
-      "learning_rate": 0.0006718711813192917,
-      "loss": 0.0053,
-      "step": 79079
     },
     {
-      "epoch": 24.0,
-      "eval_loss": 0.031197942793369293,
-      "eval_max_distance": 12,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2517,
-      "eval_samples_per_second": 198.643,
-      "eval_steps_per_second": 7.946,
-      "step": 80016
-    },
-    {
-      "epoch": 24.02,
-      "learning_rate": 0.0006663111822080029,
-      "loss": 0.0054,
-      "step": 80080
     },
     {
-      "epoch": 24.32,
-      "learning_rate": 0.000660751183096714,
-      "loss": 0.0044,
-      "step": 81081
-    },
-    {
-      "epoch": 24.62,
-      "learning_rate": 0.000655191183985425,
-      "loss": 0.0048,
-      "step": 82082
     },
     {
-      "epoch": 24.92,
-      "learning_rate": 0.0006496311848741363,
-      "loss": 0.0049,
-      "step": 83083
     },
     {
-      "epoch": 25.0,
-      "eval_loss": 0.0276066605001688,
-      "eval_max_distance": 11,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2475,
-      "eval_samples_per_second": 202.046,
-      "eval_steps_per_second": 8.082,
-      "step": 83350
     },
     {
-      "epoch": 25.22,
-      "learning_rate": 0.0006440711857628475,
-      "loss": 0.0045,
-      "step": 84084
     },
     {
-      "epoch": 25.52,
-      "learning_rate": 0.0006385111866515586,
-      "loss": 0.0045,
-      "step": 85085
     },
     {
-      "epoch": 25.82,
-      "learning_rate": 0.0006329511875402698,
-      "loss": 0.0053,
-      "step": 86086
     },
     {
-      "epoch": 26.0,
-      "eval_loss": 0.030818996950984,
-      "eval_max_distance": 10,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2424,
-      "eval_samples_per_second": 206.301,
-      "eval_steps_per_second": 8.252,
-      "step": 86684
     },
     {
-      "epoch": 26.12,
-      "learning_rate": 0.0006273911884289809,
-      "loss": 0.0045,
-      "step": 87087
     },
     {
-      "epoch": 26.42,
-      "learning_rate": 0.000621831189317692,
-      "loss": 0.0041,
-      "step": 88088
     },
     {
-      "epoch": 26.72,
-      "learning_rate": 0.0006162711902064032,
-      "loss": 0.0041,
-      "step": 89089
     },
     {
-      "epoch": 27.0,
-      "eval_loss": 0.027929000556468964,
-      "eval_max_distance": 10,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2471,
-      "eval_samples_per_second": 202.312,
-      "eval_steps_per_second": 8.092,
-      "step": 90018
-    },
-    {
-      "epoch": 27.02,
-      "learning_rate": 0.0006107111910951143,
-      "loss": 0.0043,
-      "step": 90090
     },
     {
-      "epoch": 27.32,
-      "learning_rate": 0.0006051511919838255,
-      "loss": 0.0038,
-      "step": 91091
-    },
-    {
-      "epoch": 27.62,
-      "learning_rate": 0.0005995911928725366,
-      "loss": 0.0038,
-      "step": 92092
     },
     {
-      "epoch": 27.92,
-      "learning_rate": 0.0005940311937612478,
-      "loss": 0.0041,
-      "step": 93093
     },
     {
-      "epoch": 28.0,
-      "eval_loss": 0.029230400919914246,
-      "eval_max_distance": 11,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2482,
-      "eval_samples_per_second": 201.481,
-      "eval_steps_per_second": 8.059,
-      "step": 93352
     },
     {
-      "epoch": 28.22,
-      "learning_rate": 0.0005884711946499589,
-      "loss": 0.0037,
-      "step": 94094
     },
     {
-      "epoch": 28.52,
-      "learning_rate": 0.00058291119553867,
-      "loss": 0.0033,
-      "step": 95095
     },
     {
-      "epoch": 28.82,
-      "learning_rate": 0.0005773511964273812,
-      "loss": 0.0037,
-      "step": 96096
     },
     {
-      "epoch": 29.0,
-      "eval_loss": 0.030607566237449646,
-      "eval_max_distance": 11,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2429,
-      "eval_samples_per_second": 205.838,
-      "eval_steps_per_second": 8.234,
-      "step": 96686
     },
     {
-      "epoch": 29.12,
-      "learning_rate": 0.0005717911973160923,
-      "loss": 0.0036,
-      "step": 97097
     },
     {
-      "epoch": 29.42,
-      "learning_rate": 0.0005662311982048035,
-      "loss": 0.0033,
-      "step": 98098
     },
     {
-      "epoch": 29.72,
-      "learning_rate": 0.0005606711990935146,
-      "loss": 0.0035,
-      "step": 99099
     },
     {
-      "epoch": 30.0,
-      "eval_loss": 0.027241094037890434,
-      "eval_max_distance": 12,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2466,
-      "eval_samples_per_second": 202.757,
-      "eval_steps_per_second": 8.11,
-      "step": 100020
-    },
-    {
-      "epoch": 30.02,
-      "learning_rate": 0.0005551111999822258,
-      "loss": 0.0033,
-      "step": 100100
     },
     {
-      "epoch": 30.32,
-      "learning_rate": 0.0005495512008709369,
-      "loss": 0.003,
-      "step": 101101
-    },
-    {
-      "epoch": 30.62,
-      "learning_rate": 0.0005439912017596481,
-      "loss": 0.0031,
-      "step": 102102
     },
     {
-      "epoch": 30.92,
-      "learning_rate": 0.0005384312026483592,
-      "loss": 0.0032,
-      "step": 103103
     },
     {
-      "epoch": 31.0,
-      "eval_loss": 0.0254651065915823,
-      "eval_max_distance": 9,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2446,
-      "eval_samples_per_second": 204.388,
-      "eval_steps_per_second": 8.176,
-      "step": 103354
     },
     {
-      "epoch": 31.22,
-      "learning_rate": 0.0005328712035370704,
-      "loss": 0.0028,
-      "step": 104104
     },
     {
-      "epoch": 31.53,
-      "learning_rate": 0.0005273112044257815,
-      "loss": 0.0029,
-      "step": 105105
     },
     {
-      "epoch": 31.83,
-      "learning_rate": 0.0005217512053144927,
-      "loss": 0.0031,
-      "step": 106106
     },
     {
-      "epoch": 32.0,
-      "eval_loss": 0.02928677573800087,
-      "eval_max_distance": 10,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2518,
-      "eval_samples_per_second": 198.594,
-      "eval_steps_per_second": 7.944,
-      "step": 106688
     },
     {
-      "epoch": 32.13,
-      "learning_rate": 0.0005161912062032039,
-      "loss": 0.0028,
-      "step": 107107
     },
     {
-      "epoch": 32.43,
-      "learning_rate": 0.0005106312070919149,
-      "loss": 0.0026,
-      "step": 108108
     },
     {
-      "epoch": 32.73,
-      "learning_rate": 0.0005050712079806262,
-      "loss": 0.0029,
-      "step": 109109
     },
     {
-      "epoch": 33.0,
-      "eval_loss": 0.029988963156938553,
-      "eval_max_distance": 13,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2465,
-      "eval_samples_per_second": 202.802,
-      "eval_steps_per_second": 8.112,
-      "step": 110022
-    },
-    {
-      "epoch": 33.03,
-      "learning_rate": 0.0004995112088693373,
-      "loss": 0.0027,
-      "step": 110110
     },
     {
-      "epoch": 33.33,
-      "learning_rate": 0.0004939512097580485,
-      "loss": 0.0025,
-      "step": 111111
-    },
-    {
-      "epoch": 33.63,
-      "learning_rate": 0.0004883912106467596,
-      "loss": 0.0026,
-      "step": 112112
     },
     {
-      "epoch": 33.93,
-      "learning_rate": 0.0004828312115354707,
-      "loss": 0.0026,
-      "step": 113113
     },
     {
-      "epoch": 34.0,
-      "eval_loss": 0.03050011210143566,
-      "eval_max_distance": 11,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2507,
-      "eval_samples_per_second": 199.458,
-      "eval_steps_per_second": 7.978,
-      "step": 113356
     },
     {
-      "epoch": 34.23,
-      "learning_rate": 0.00047727121242418185,
-      "loss": 0.0025,
-      "step": 114114
     },
     {
-      "epoch": 34.53,
-      "learning_rate": 0.00047171121331289294,
-      "loss": 0.0023,
-      "step": 115115
     },
     {
-      "epoch": 34.83,
-      "learning_rate": 0.0004661512142016041,
-      "loss": 0.0024,
-      "step": 116116
     },
     {
-      "epoch": 35.0,
-      "eval_loss": 0.027280788868665695,
-      "eval_max_distance": 9,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2447,
-      "eval_samples_per_second": 204.372,
-      "eval_steps_per_second": 8.175,
-      "step": 116690
     },
     {
-      "epoch": 35.13,
-      "learning_rate": 0.00046059121509031524,
-      "loss": 0.0024,
-      "step": 117117
     },
     {
-      "epoch": 35.43,
-      "learning_rate": 0.00045503121597902644,
-      "loss": 0.0022,
-      "step": 118118
     },
     {
-      "epoch": 35.73,
-      "learning_rate": 0.0004494712168677376,
-      "loss": 0.0023,
-      "step": 119119
     },
     {
-      "epoch": 36.0,
-      "eval_loss": 0.028403306379914284,
-      "eval_max_distance": 10,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2435,
-      "eval_samples_per_second": 205.364,
-      "eval_steps_per_second": 8.215,
-      "step": 120024
-    },
-    {
-      "epoch": 36.03,
-      "learning_rate": 0.00044391121775644874,
-      "loss": 0.0022,
-      "step": 120120
     },
     {
-      "epoch": 36.33,
-      "learning_rate": 0.0004383512186451599,
-      "loss": 0.002,
-      "step": 121121
-    },
-    {
-      "epoch": 36.63,
-      "learning_rate": 0.00043279121953387103,
-      "loss": 0.0022,
-      "step": 122122
     },
     {
-      "epoch": 36.93,
-      "learning_rate": 0.0004272312204225822,
-      "loss": 0.0022,
-      "step": 123123
     },
     {
-      "epoch": 37.0,
-      "eval_loss": 0.03133893013000488,
-      "eval_max_distance": 13,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2436,
-      "eval_samples_per_second": 205.289,
-      "eval_steps_per_second": 8.212,
-      "step": 123358
     },
     {
-      "epoch": 37.23,
-      "learning_rate": 0.00042167122131129333,
-      "loss": 0.0019,
-      "step": 124124
     },
     {
-      "epoch": 37.53,
-      "learning_rate": 0.0004161112222000045,
-      "loss": 0.0019,
-      "step": 125125
     },
     {
-      "epoch": 37.83,
-      "learning_rate": 0.0004105512230887156,
-      "loss": 0.002,
-      "step": 126126
     },
     {
-      "epoch": 38.0,
-      "eval_loss": 0.034086938947439194,
-      "eval_max_distance": 13,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.242,
-      "eval_samples_per_second": 206.579,
-      "eval_steps_per_second": 8.263,
-      "step": 126692
     },
     {
-      "epoch": 38.13,
-      "learning_rate": 0.0004049912239774268,
-      "loss": 0.002,
-      "step": 127127
     },
     {
-      "epoch": 38.43,
-      "learning_rate": 0.00039943122486613787,
-      "loss": 0.0018,
-      "step": 128128
     },
     {
-      "epoch": 38.73,
-      "learning_rate": 0.000393871225754849,
-      "loss": 0.0017,
-      "step": 129129
     },
     {
-      "epoch": 39.0,
-      "eval_loss": 0.03005034476518631,
-      "eval_max_distance": 13,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2407,
-      "eval_samples_per_second": 207.711,
-      "eval_steps_per_second": 8.308,
-      "step": 130026
-    },
-    {
-      "epoch": 39.03,
-      "learning_rate": 0.00038831122664356016,
-      "loss": 0.0018,
-      "step": 130130
-    },
-    {
-      "epoch": 39.33,
-      "learning_rate": 0.0003827512275322713,
-      "loss": 0.0016,
-      "step": 131131
     },
     {
-      "epoch": 39.63,
-      "learning_rate": 0.00037719122842098246,
-      "loss": 0.0017,
-      "step": 132132
     },
     {
-      "epoch": 39.93,
-      "learning_rate": 0.0003716312293096936,
-      "loss": 0.0017,
-      "step": 133133
     },
     {
-      "epoch": 40.0,
-      "eval_loss": 0.03297489508986473,
-      "eval_max_distance": 11,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2478,
-      "eval_samples_per_second": 201.796,
-      "eval_steps_per_second": 8.072,
-      "step": 133360
     },
     {
-      "epoch": 40.23,
-      "learning_rate": 0.00036607123019840476,
-      "loss": 0.0015,
-      "step": 134134
     },
     {
-      "epoch": 40.53,
-      "learning_rate": 0.0003605112310871159,
-      "loss": 0.0015,
-      "step": 135135
     },
     {
-      "epoch": 40.83,
-      "learning_rate": 0.00035495123197582705,
-      "loss": 0.0016,
-      "step": 136136
     },
     {
-      "epoch": 41.0,
-      "eval_loss": 0.03444751352071762,
-      "eval_max_distance": 11,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2543,
-      "eval_samples_per_second": 196.583,
-      "eval_steps_per_second": 7.863,
-      "step": 136694
     },
     {
-      "epoch": 41.13,
-      "learning_rate": 0.0003493912328645382,
-      "loss": 0.0015,
-      "step": 137137
     },
     {
-      "epoch": 41.43,
-      "learning_rate": 0.00034383123375324935,
-      "loss": 0.0014,
-      "step": 138138
     },
     {
-      "epoch": 41.73,
-      "learning_rate": 0.0003382712346419605,
-      "loss": 0.0014,
-      "step": 139139
     },
     {
-      "epoch": 42.0,
-      "eval_loss": 0.033661480993032455,
-      "eval_max_distance": 10,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.251,
-      "eval_samples_per_second": 199.199,
-      "eval_steps_per_second": 7.968,
-      "step": 140028
-    },
-    {
-      "epoch": 42.03,
-      "learning_rate": 0.0003327112355306717,
-      "loss": 0.0015,
-      "step": 140140
-    },
-    {
-      "epoch": 42.33,
-      "learning_rate": 0.0003271512364193828,
-      "loss": 0.0014,
-      "step": 141141
     },
     {
-      "epoch": 42.63,
-      "learning_rate": 0.00032159123730809394,
-      "loss": 0.0014,
-      "step": 142142
     },
     {
-      "epoch": 42.93,
-      "learning_rate": 0.0003160312381968051,
-      "loss": 0.0013,
-      "step": 143143
     },
     {
-      "epoch": 43.0,
-      "eval_loss": 0.029230637475848198,
-      "eval_max_distance": 12,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2458,
-      "eval_samples_per_second": 203.394,
-      "eval_steps_per_second": 8.136,
-      "step": 143362
     },
     {
-      "epoch": 43.23,
-      "learning_rate": 0.00031047123908551624,
-      "loss": 0.0012,
-      "step": 144144
     },
     {
-      "epoch": 43.53,
-      "learning_rate": 0.0003049112399742274,
-      "loss": 0.0012,
-      "step": 145145
     },
     {
-      "epoch": 43.84,
-      "learning_rate": 0.00029935124086293854,
-      "loss": 0.0012,
-      "step": 146146
     },
     {
-      "epoch": 44.0,
-      "eval_loss": 0.03386835753917694,
-      "eval_max_distance": 11,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.248,
-      "eval_samples_per_second": 201.602,
-      "eval_steps_per_second": 8.064,
-      "step": 146696
     },
     {
-      "epoch": 44.14,
-      "learning_rate": 0.0002937912417516497,
-      "loss": 0.0012,
-      "step": 147147
     },
     {
-      "epoch": 44.44,
-      "learning_rate": 0.00028823124264036083,
-      "loss": 0.0011,
-      "step": 148148
     },
     {
-      "epoch": 44.74,
-      "learning_rate": 0.000282671243529072,
-      "loss": 0.0012,
-      "step": 149149
     },
     {
-      "epoch": 45.0,
-      "eval_loss": 0.03299795091152191,
-      "eval_max_distance": 11,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2516,
-      "eval_samples_per_second": 198.692,
-      "eval_steps_per_second": 7.948,
-      "step": 150030
-    },
-    {
-      "epoch": 45.04,
-      "learning_rate": 0.00027711124441778313,
-      "loss": 0.0012,
-      "step": 150150
-    },
-    {
-      "epoch": 45.34,
-      "learning_rate": 0.0002715512453064943,
-      "loss": 0.001,
-      "step": 151151
     },
     {
-      "epoch": 45.64,
-      "learning_rate": 0.0002659912461952054,
-      "loss": 0.0011,
-      "step": 152152
     },
     {
-      "epoch": 45.94,
-      "learning_rate": 0.0002604312470839166,
-      "loss": 0.001,
-      "step": 153153
     },
     {
-      "epoch": 46.0,
-      "eval_loss": 0.030699940398335457,
-      "eval_max_distance": 11,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2486,
-      "eval_samples_per_second": 201.091,
-      "eval_steps_per_second": 8.044,
-      "step": 153364
     },
     {
-      "epoch": 46.24,
-      "learning_rate": 0.0002548712479726277,
-      "loss": 0.001,
-      "step": 154154
     },
     {
-      "epoch": 46.54,
-      "learning_rate": 0.00024931124886133887,
-      "loss": 0.0009,
-      "step": 155155
     },
     {
-      "epoch": 46.84,
-      "learning_rate": 0.00024375124975005,
-      "loss": 0.001,
-      "step": 156156
     },
     {
-      "epoch": 47.0,
-      "eval_loss": 0.032952647656202316,
-      "eval_max_distance": 10,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2471,
-      "eval_samples_per_second": 202.373,
-      "eval_steps_per_second": 8.095,
-      "step": 156698
     },
     {
-      "epoch": 47.14,
-      "learning_rate": 0.00023819125063876117,
-      "loss": 0.0013,
-      "step": 157157
     },
     {
-      "epoch": 47.44,
-      "learning_rate": 0.0002326312515274723,
-      "loss": 0.0009,
-      "step": 158158
     },
     {
-      "epoch": 47.74,
-      "learning_rate": 0.00022707125241618344,
-      "loss": 0.0009,
-      "step": 159159
     },
     {
-      "epoch": 48.0,
-      "eval_loss": 0.03382818400859833,
-      "eval_max_distance": 11,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2551,
-      "eval_samples_per_second": 195.998,
-      "eval_steps_per_second": 7.84,
-      "step": 160032
     },
     {
-      "epoch": 48.04,
-      "learning_rate": 0.00022151125330489458,
-      "loss": 0.0009,
-      "step": 160160
-    },
-    {
-      "epoch": 48.34,
-      "learning_rate": 0.00021595125419360573,
-      "loss": 0.0008,
-      "step": 161161
-    },
-    {
-      "epoch": 48.64,
-      "learning_rate": 0.00021039125508231688,
-      "loss": 0.0009,
-      "step": 162162
     },
     {
-      "epoch": 48.94,
-      "learning_rate": 0.00020483125597102803,
-      "loss": 0.0009,
-      "step": 163163
     },
     {
-      "epoch": 49.0,
-      "eval_loss": 0.02877364680171013,
-      "eval_max_distance": 10,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2518,
-      "eval_samples_per_second": 198.574,
-      "eval_steps_per_second": 7.943,
-      "step": 163366
     },
     {
-      "epoch": 49.24,
-      "learning_rate": 0.00019927125685973918,
-      "loss": 0.0008,
-      "step": 164164
     },
     {
-      "epoch": 49.54,
-      "learning_rate": 0.0001937112577484503,
-      "loss": 0.0008,
-      "step": 165165
     },
     {
-      "epoch": 49.84,
-      "learning_rate": 0.00018815125863716145,
-      "loss": 0.0008,
-      "step": 166166
     },
     {
-      "epoch": 50.0,
-      "eval_loss": 0.02558927983045578,
-      "eval_max_distance": 10,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2461,
-      "eval_samples_per_second": 203.155,
-      "eval_steps_per_second": 8.126,
-      "step": 166700
     },
     {
-      "epoch": 50.14,
-      "learning_rate": 0.0001825912595258726,
-      "loss": 0.0007,
-      "step": 167167
     },
     {
-      "epoch": 50.44,
-      "learning_rate": 0.00017703126041458374,
-      "loss": 0.0007,
-      "step": 168168
     },
     {
-      "epoch": 50.74,
-      "learning_rate": 0.00017147126130329492,
-      "loss": 0.0007,
-      "step": 169169
     },
     {
-      "epoch": 51.0,
-      "eval_loss": 0.02841602824628353,
-      "eval_max_distance": 11,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2394,
-      "eval_samples_per_second": 208.815,
-      "eval_steps_per_second": 8.353,
-      "step": 170034
-    },
-    {
-      "epoch": 51.04,
-      "learning_rate": 0.00016591126219200607,
-      "loss": 0.0007,
-      "step": 170170
     },
     {
-      "epoch": 51.34,
-      "learning_rate": 0.0001603512630807172,
-      "loss": 0.0007,
-      "step": 171171
-    },
-    {
-      "epoch": 51.64,
-      "learning_rate": 0.00015479126396942834,
-      "loss": 0.0006,
-      "step": 172172
     },
     {
-      "epoch": 51.94,
-      "learning_rate": 0.00014923126485813948,
-      "loss": 0.0006,
-      "step": 173173
     },
     {
-      "epoch": 52.0,
-      "eval_loss": 0.03416401892900467,
-      "eval_max_distance": 10,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2536,
-      "eval_samples_per_second": 197.147,
-      "eval_steps_per_second": 7.886,
-      "step": 173368
     },
     {
-      "epoch": 52.24,
-      "learning_rate": 0.00014367126574685063,
-      "loss": 0.0006,
-      "step": 174174
     },
     {
-      "epoch": 52.54,
-      "learning_rate": 0.00013811126663556178,
-      "loss": 0.0006,
-      "step": 175175
     },
     {
-      "epoch": 52.84,
-      "learning_rate": 0.00013255126752427293,
-      "loss": 0.0006,
-      "step": 176176
     },
     {
-      "epoch": 53.0,
-      "eval_loss": 0.031156664714217186,
-      "eval_max_distance": 10,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2541,
-      "eval_samples_per_second": 196.804,
-      "eval_steps_per_second": 7.872,
-      "step": 176702
     },
     {
-      "epoch": 53.14,
-      "learning_rate": 0.00012699126841298408,
-      "loss": 0.0006,
-      "step": 177177
     },
     {
-      "epoch": 53.44,
-      "learning_rate": 0.00012143126930169523,
-      "loss": 0.0005,
-      "step": 178178
     },
     {
-      "epoch": 53.74,
-      "learning_rate": 0.00011587127019040637,
-      "loss": 0.0005,
-      "step": 179179
     },
     {
-      "epoch": 54.0,
-      "eval_loss": 0.03255148231983185,
-      "eval_max_distance": 10,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2469,
-      "eval_samples_per_second": 202.55,
-      "eval_steps_per_second": 8.102,
-      "step": 180036
     },
     {
-      "epoch": 54.04,
-      "learning_rate": 0.00011031127107911751,
-      "loss": 0.0005,
-      "step": 180180
     },
     {
-      "epoch": 54.34,
-      "learning_rate": 0.00010475127196782866,
-      "loss": 0.0006,
-      "step": 181181
     },
     {
-      "epoch": 54.64,
-      "learning_rate": 9.91912728565398e-05,
-      "loss": 0.0005,
-      "step": 182182
     },
     {
-      "epoch": 54.94,
-      "learning_rate": 9.363127374525095e-05,
-      "loss": 0.0005,
-      "step": 183183
     },
     {
-      "epoch": 55.0,
-      "eval_loss": 0.030407395213842392,
-      "eval_max_distance": 11,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2417,
-      "eval_samples_per_second": 206.906,
-      "eval_steps_per_second": 8.276,
-      "step": 183370
     },
     {
-      "epoch": 55.24,
-      "learning_rate": 8.80712746339621e-05,
-      "loss": 0.0005,
-      "step": 184184
     },
     {
-      "epoch": 55.54,
-      "learning_rate": 8.251127552267325e-05,
       "loss": 0.0004,
-      "step": 185185
     },
     {
-      "epoch": 55.84,
-      "learning_rate": 7.695127641138438e-05,
       "loss": 0.0005,
-      "step": 186186
-    },
-    {
-      "epoch": 56.0,
-      "eval_loss": 0.02997196838259697,
-      "eval_max_distance": 11,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2484,
-      "eval_samples_per_second": 201.291,
-      "eval_steps_per_second": 8.052,
-      "step": 186704
-    },
-    {
-      "epoch": 56.14,
-      "learning_rate": 7.139127730009553e-05,
-      "loss": 0.0004,
-      "step": 187187
     },
     {
-      "epoch": 56.45,
-      "learning_rate": 6.583127818880668e-05,
       "loss": 0.0004,
-      "step": 188188
     },
     {
-      "epoch": 56.75,
-      "learning_rate": 6.027127907751783e-05,
       "loss": 0.0004,
-      "step": 189189
     },
     {
-      "epoch": 57.0,
-      "eval_loss": 0.03127776086330414,
-      "eval_max_distance": 11,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.2542,
-      "eval_samples_per_second": 196.708,
-      "eval_steps_per_second": 7.868,
-      "step": 190038
     },
     {
-      "epoch": 57.05,
-      "learning_rate": 5.471127996622898e-05,
       "loss": 0.0004,
-      "step": 190190
     },
     {
-      "epoch": 57.35,
-      "learning_rate": 4.9151280854940125e-05,
       "loss": 0.0004,
-      "step": 191191
     },
     {
-      "epoch": 57.65,
-      "learning_rate": 4.359128174365127e-05,
       "loss": 0.0004,
-      "step": 192192
     },
     {
-      "epoch": 57.95,
-      "learning_rate": 3.803128263236242e-05,
       "loss": 0.0003,
-      "step": 193193
     },
     {
-      "epoch": 58.0,
-      "eval_loss": 0.03212800994515419,
-      "eval_max_distance": 11,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.236,
-      "eval_samples_per_second": 211.858,
-      "eval_steps_per_second": 8.474,
-      "step": 193372
-    },
-    {
-      "epoch": 58.25,
-      "learning_rate": 3.247128352107356e-05,
-      "loss": 0.0003,
-      "step": 194194
     },
     {
-      "epoch": 58.55,
-      "learning_rate": 2.691128440978471e-05,
       "loss": 0.0004,
-      "step": 195195
     },
     {
-      "epoch": 58.85,
-      "learning_rate": 2.135128529849586e-05,
-      "loss": 0.0003,
-      "step": 196196
     },
     {
-      "epoch": 59.0,
-      "eval_loss": 0.031559597700834274,
-      "eval_max_distance": 10,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2475,
-      "eval_samples_per_second": 201.99,
-      "eval_steps_per_second": 8.08,
-      "step": 196706
     },
     {
-      "epoch": 59.15,
-      "learning_rate": 1.5791286187207e-05,
-      "loss": 0.0003,
-      "step": 197197
     },
     {
-      "epoch": 59.45,
-      "learning_rate": 1.023128707591815e-05,
-      "loss": 0.0003,
-      "step": 198198
     },
     {
-      "epoch": 59.75,
-      "learning_rate": 4.671287964629296e-06,
-      "loss": 0.0004,
-      "step": 199199
     },
     {
-      "epoch": 60.0,
-      "eval_loss": 0.03177854046225548,
-      "eval_max_distance": 11,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.2438,
-      "eval_samples_per_second": 205.126,
-      "eval_steps_per_second": 8.205,
-      "step": 200040
-    },
-    {
-      "epoch": 60.0,
-      "step": 200040,
-      "total_flos": 1.1617191885791232e+17,
-      "train_loss": 0.03170474885008116,
-      "train_runtime": 15592.8332,
-      "train_samples_per_second": 384.846,
-      "train_steps_per_second": 12.829
     }
   ],
-  "logging_steps": 1001,
-  "max_steps": 200040,
-  "num_train_epochs": 60,
-  "save_steps": 2001,
-  "total_flos": 1.1617191885791232e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 20.0,
   "eval_steps": 500,
+  "global_step": 68860,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 1.4522218995062446e-08,
+      "loss": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 5.010165553296544e-06,
+      "loss": 0.0114,
+      "step": 345
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 1.0020331106593089e-05,
+      "loss": 0.0115,
+      "step": 690
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 1.5030496659889632e-05,
+      "loss": 0.0099,
+      "step": 1035
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 2.0040662213186177e-05,
+      "loss": 0.0076,
+      "step": 1380
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 2.505082776648272e-05,
+      "loss": 0.0047,
+      "step": 1725
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 3.0060993319779264e-05,
+      "loss": 0.0039,
+      "step": 2070
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 3.507115887307581e-05,
+      "loss": 0.0036,
+      "step": 2415
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 4.0081324426372355e-05,
+      "loss": 0.0031,
+      "step": 2760
     },
     {
+      "epoch": 0.9,
+      "learning_rate": 4.509148997966889e-05,
+      "loss": 0.0028,
+      "step": 3105
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 0.001530332607217133,
+      "eval_max_distance": 3,
+      "eval_mean_distance": 0,
+      "eval_runtime": 2.4239,
+      "eval_samples_per_second": 20.628,
+      "eval_steps_per_second": 0.825,
+      "step": 3443
     },
     {
+      "epoch": 1.0,
+      "learning_rate": 5.010165553296544e-05,
+      "loss": 0.0025,
+      "step": 3450
     },
     {
+      "epoch": 1.1,
+      "learning_rate": 5.5111821086261985e-05,
+      "loss": 0.0022,
+      "step": 3795
     },
     {
+      "epoch": 1.2,
+      "learning_rate": 6.012198663955853e-05,
+      "loss": 0.002,
+      "step": 4140
     },
     {
+      "epoch": 1.3,
+      "learning_rate": 6.513215219285507e-05,
+      "loss": 0.0022,
+      "step": 4485
     },
     {
+      "epoch": 1.4,
+      "learning_rate": 7.014231774615162e-05,
+      "loss": 0.0022,
+      "step": 4830
     },
     {
+      "epoch": 1.5,
+      "learning_rate": 7.515248329944817e-05,
+      "loss": 0.002,
+      "step": 5175
     },
     {
+      "epoch": 1.6,
+      "learning_rate": 8.016264885274471e-05,
+      "loss": 0.0021,
+      "step": 5520
     },
     {
+      "epoch": 1.7,
+      "learning_rate": 8.517281440604125e-05,
+      "loss": 0.0021,
+      "step": 5865
     },
     {
+      "epoch": 1.8,
+      "learning_rate": 9.018297995933778e-05,
+      "loss": 0.0019,
+      "step": 6210
     },
     {
+      "epoch": 1.9,
+      "learning_rate": 9.519314551263433e-05,
+      "loss": 0.0019,
+      "step": 6555
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 0.0008699939935468137,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.4743,
+      "eval_samples_per_second": 20.208,
+      "eval_steps_per_second": 0.808,
+      "step": 6886
     },
     {
+      "epoch": 2.0,
+      "learning_rate": 9.997740988156324e-05,
+      "loss": 0.0021,
+      "step": 6900
     },
     {
+      "epoch": 2.1,
+      "learning_rate": 9.942072482008585e-05,
+      "loss": 0.0014,
+      "step": 7245
     },
     {
+      "epoch": 2.2,
+      "learning_rate": 9.886403975860845e-05,
+      "loss": 0.002,
+      "step": 7590
     },
     {
+      "epoch": 2.3,
+      "learning_rate": 9.830735469713106e-05,
+      "loss": 0.0015,
+      "step": 7935
     },
     {
+      "epoch": 2.4,
+      "learning_rate": 9.775066963565367e-05,
+      "loss": 0.0012,
+      "step": 8280
     },
     {
+      "epoch": 2.51,
+      "learning_rate": 9.719398457417627e-05,
+      "loss": 0.0017,
+      "step": 8625
     },
     {
+      "epoch": 2.61,
+      "learning_rate": 9.663729951269888e-05,
+      "loss": 0.0013,
+      "step": 8970
     },
     {
+      "epoch": 2.71,
+      "learning_rate": 9.608061445122149e-05,
+      "loss": 0.0015,
+      "step": 9315
     },
     {
+      "epoch": 2.81,
+      "learning_rate": 9.552392938974409e-05,
+      "loss": 0.0018,
+      "step": 9660
     },
     {
+      "epoch": 2.91,
+      "learning_rate": 9.49672443282667e-05,
+      "loss": 0.0016,
+      "step": 10005
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 0.0013113931054249406,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.4418,
+      "eval_samples_per_second": 20.477,
+      "eval_steps_per_second": 0.819,
+      "step": 10329
     },
     {
+      "epoch": 3.01,
+      "learning_rate": 9.44105592667893e-05,
+      "loss": 0.0013,
+      "step": 10350
     },
     {
+      "epoch": 3.11,
+      "learning_rate": 9.385387420531191e-05,
+      "loss": 0.0011,
+      "step": 10695
     },
     {
+      "epoch": 3.21,
+      "learning_rate": 9.329718914383452e-05,
+      "loss": 0.0011,
+      "step": 11040
     },
     {
+      "epoch": 3.31,
+      "learning_rate": 9.274050408235712e-05,
+      "loss": 0.0012,
+      "step": 11385
     },
     {
+      "epoch": 3.41,
+      "learning_rate": 9.218381902087973e-05,
+      "loss": 0.0013,
+      "step": 11730
     },
     {
+      "epoch": 3.51,
+      "learning_rate": 9.162713395940234e-05,
+      "loss": 0.0012,
+      "step": 12075
     },
     {
+      "epoch": 3.61,
+      "learning_rate": 9.107044889792494e-05,
+      "loss": 0.0012,
+      "step": 12420
     },
     {
+      "epoch": 3.71,
+      "learning_rate": 9.051376383644755e-05,
+      "loss": 0.0015,
+      "step": 12765
     },
     {
+      "epoch": 3.81,
+      "learning_rate": 8.995707877497016e-05,
+      "loss": 0.0011,
+      "step": 13110
     },
     {
+      "epoch": 3.91,
+      "learning_rate": 8.940039371349276e-05,
+      "loss": 0.0013,
+      "step": 13455
     },
     {
+      "epoch": 4.0,
+      "eval_loss": 0.0007705892785452306,
+      "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.3823,
+      "eval_samples_per_second": 20.989,
+      "eval_steps_per_second": 0.84,
+      "step": 13772
     },
     {
+      "epoch": 4.01,
+      "learning_rate": 8.884370865201537e-05,
+      "loss": 0.0012,
+      "step": 13800
     },
     {
+      "epoch": 4.11,
+      "learning_rate": 8.828702359053797e-05,
+      "loss": 0.0011,
+      "step": 14145
     },
     {
+      "epoch": 4.21,
+      "learning_rate": 8.773033852906058e-05,
+      "loss": 0.001,
+      "step": 14490
     },
     {
+      "epoch": 4.31,
+      "learning_rate": 8.717365346758319e-05,
+      "loss": 0.0009,
+      "step": 14835
     },
     {
+      "epoch": 4.41,
+      "learning_rate": 8.661696840610579e-05,
+      "loss": 0.001,
+      "step": 15180
     },
     {
+      "epoch": 4.51,
+      "learning_rate": 8.60602833446284e-05,
+      "loss": 0.001,
+      "step": 15525
     },
     {
+      "epoch": 4.61,
+      "learning_rate": 8.550359828315099e-05,
+      "loss": 0.001,
+      "step": 15870
     },
     {
+      "epoch": 4.71,
+      "learning_rate": 8.494691322167361e-05,
+      "loss": 0.0011,
+      "step": 16215
     },
     {
+      "epoch": 4.81,
+      "learning_rate": 8.439022816019622e-05,
+      "loss": 0.001,
+      "step": 16560
     },
     {
+      "epoch": 4.91,
+      "learning_rate": 8.383354309871882e-05,
+      "loss": 0.0012,
+      "step": 16905
     },
     {
+      "epoch": 5.0,
+      "eval_loss": 0.0010777737479656935,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.413,
+      "eval_samples_per_second": 20.721,
+      "eval_steps_per_second": 0.829,
+      "step": 17215
     },
     {
+      "epoch": 5.01,
+      "learning_rate": 8.327685803724142e-05,
+      "loss": 0.001,
+      "step": 17250
     },
     {
+      "epoch": 5.11,
+      "learning_rate": 8.272017297576404e-05,
+      "loss": 0.0008,
+      "step": 17595
     },
     {
+      "epoch": 5.21,
+      "learning_rate": 8.216348791428664e-05,
+      "loss": 0.0009,
+      "step": 17940
     },
     {
+      "epoch": 5.31,
+      "learning_rate": 8.160680285280925e-05,
+      "loss": 0.0009,
+      "step": 18285
     },
     {
+      "epoch": 5.41,
+      "learning_rate": 8.105011779133184e-05,
+      "loss": 0.0009,
+      "step": 18630
     },
     {
+      "epoch": 5.51,
+      "learning_rate": 8.049343272985446e-05,
+      "loss": 0.0009,
+      "step": 18975
     },
     {
+      "epoch": 5.61,
+      "learning_rate": 7.993674766837707e-05,
+      "loss": 0.0008,
+      "step": 19320
     },
     {
+      "epoch": 5.71,
+      "learning_rate": 7.938006260689967e-05,
+      "loss": 0.0009,
+      "step": 19665
     },
     {
+      "epoch": 5.81,
+      "learning_rate": 7.882337754542227e-05,
+      "loss": 0.0011,
+      "step": 20010
     },
     {
+      "epoch": 5.91,
+      "learning_rate": 7.826669248394489e-05,
+      "loss": 0.0009,
+      "step": 20355
     },
     {
+      "epoch": 6.0,
+      "eval_loss": 0.0008971834322437644,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.4223,
+      "eval_samples_per_second": 20.641,
+      "eval_steps_per_second": 0.826,
+      "step": 20658
     },
     {
+      "epoch": 6.01,
+      "learning_rate": 7.77100074224675e-05,
+      "loss": 0.001,
+      "step": 20700
     },
     {
+      "epoch": 6.11,
+      "learning_rate": 7.71533223609901e-05,
+      "loss": 0.0007,
+      "step": 21045
     },
     {
+      "epoch": 6.21,
+      "learning_rate": 7.65966372995127e-05,
+      "loss": 0.0008,
+      "step": 21390
     },
     {
+      "epoch": 6.31,
+      "learning_rate": 7.603995223803531e-05,
+      "loss": 0.0008,
+      "step": 21735
     },
     {
+      "epoch": 6.41,
+      "learning_rate": 7.548326717655792e-05,
+      "loss": 0.0008,
+      "step": 22080
     },
     {
+      "epoch": 6.51,
+      "learning_rate": 7.492658211508052e-05,
+      "loss": 0.0008,
+      "step": 22425
     },
     {
+      "epoch": 6.61,
+      "learning_rate": 7.436989705360313e-05,
+      "loss": 0.0008,
+      "step": 22770
     },
     {
+      "epoch": 6.71,
+      "learning_rate": 7.381321199212572e-05,
+      "loss": 0.0008,
+      "step": 23115
     },
     {
+      "epoch": 6.81,
+      "learning_rate": 7.325652693064834e-05,
+      "loss": 0.0008,
+      "step": 23460
     },
     {
+      "epoch": 6.91,
+      "learning_rate": 7.269984186917095e-05,
+      "loss": 0.0008,
+      "step": 23805
     },
     {
+      "epoch": 7.0,
+      "eval_loss": 0.0011104686418548226,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.4364,
+      "eval_samples_per_second": 20.522,
+      "eval_steps_per_second": 0.821,
+      "step": 24101
     },
     {
+      "epoch": 7.01,
+      "learning_rate": 7.214315680769356e-05,
+      "loss": 0.0007,
+      "step": 24150
     },
     {
+      "epoch": 7.11,
+      "learning_rate": 7.158647174621615e-05,
+      "loss": 0.0007,
+      "step": 24495
     },
     {
+      "epoch": 7.21,
+      "learning_rate": 7.102978668473877e-05,
+      "loss": 0.0007,
+      "step": 24840
     },
     {
+      "epoch": 7.31,
+      "learning_rate": 7.047310162326137e-05,
+      "loss": 0.0007,
+      "step": 25185
     },
     {
+      "epoch": 7.42,
+      "learning_rate": 6.991641656178398e-05,
+      "loss": 0.0007,
+      "step": 25530
     },
     {
+      "epoch": 7.52,
+      "learning_rate": 6.935973150030657e-05,
+      "loss": 0.0008,
+      "step": 25875
     },
     {
+      "epoch": 7.62,
+      "learning_rate": 6.88030464388292e-05,
+      "loss": 0.0006,
+      "step": 26220
     },
     {
+      "epoch": 7.72,
+      "learning_rate": 6.82463613773518e-05,
+      "loss": 0.0008,
+      "step": 26565
     },
     {
+      "epoch": 7.82,
+      "learning_rate": 6.76896763158744e-05,
+      "loss": 0.0008,
+      "step": 26910
     },
     {
+      "epoch": 7.92,
+      "learning_rate": 6.7132991254397e-05,
+      "loss": 0.0007,
+      "step": 27255
     },
     {
+      "epoch": 8.0,
+      "eval_loss": 0.0009568997193127871,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.353,
+      "eval_samples_per_second": 21.249,
+      "eval_steps_per_second": 0.85,
+      "step": 27544
     },
     {
+      "epoch": 8.02,
+      "learning_rate": 6.657630619291962e-05,
+      "loss": 0.0008,
+      "step": 27600
     },
     {
+      "epoch": 8.12,
+      "learning_rate": 6.601962113144223e-05,
+      "loss": 0.0006,
+      "step": 27945
     },
     {
+      "epoch": 8.22,
+      "learning_rate": 6.546293606996483e-05,
+      "loss": 0.0006,
+      "step": 28290
     },
     {
+      "epoch": 8.32,
+      "learning_rate": 6.490625100848742e-05,
+      "loss": 0.0007,
+      "step": 28635
     },
     {
+      "epoch": 8.42,
+      "learning_rate": 6.434956594701004e-05,
+      "loss": 0.0007,
+      "step": 28980
     },
     {
+      "epoch": 8.52,
+      "learning_rate": 6.379288088553265e-05,
+      "loss": 0.0008,
+      "step": 29325
     },
     {
+      "epoch": 8.62,
+      "learning_rate": 6.323619582405526e-05,
+      "loss": 0.0006,
+      "step": 29670
     },
     {
+      "epoch": 8.72,
+      "learning_rate": 6.267951076257785e-05,
+      "loss": 0.0006,
+      "step": 30015
     },
     {
+      "epoch": 8.82,
+      "learning_rate": 6.212282570110046e-05,
+      "loss": 0.0007,
+      "step": 30360
     },
     {
+      "epoch": 8.92,
+      "learning_rate": 6.156614063962308e-05,
+      "loss": 0.0006,
+      "step": 30705
     },
     {
+      "epoch": 9.0,
+      "eval_loss": 0.001235798466950655,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.3847,
+      "eval_samples_per_second": 20.967,
+      "eval_steps_per_second": 0.839,
+      "step": 30987
     },
     {
+      "epoch": 9.02,
+      "learning_rate": 6.100945557814568e-05,
+      "loss": 0.0007,
+      "step": 31050
     },
     {
+      "epoch": 9.12,
+      "learning_rate": 6.045277051666828e-05,
+      "loss": 0.0006,
+      "step": 31395
     },
     {
+      "epoch": 9.22,
+      "learning_rate": 5.989608545519089e-05,
+      "loss": 0.0005,
+      "step": 31740
     },
     {
+      "epoch": 9.32,
+      "learning_rate": 5.9339400393713494e-05,
+      "loss": 0.0006,
+      "step": 32085
     },
     {
+      "epoch": 9.42,
+      "learning_rate": 5.878271533223611e-05,
+      "loss": 0.0007,
+      "step": 32430
     },
     {
+      "epoch": 9.52,
+      "learning_rate": 5.822603027075871e-05,
+      "loss": 0.0006,
+      "step": 32775
     },
     {
+      "epoch": 9.62,
+      "learning_rate": 5.766934520928131e-05,
+      "loss": 0.0006,
+      "step": 33120
     },
     {
+      "epoch": 9.72,
+      "learning_rate": 5.711266014780392e-05,
+      "loss": 0.0006,
+      "step": 33465
     },
     {
+      "epoch": 9.82,
+      "learning_rate": 5.655597508632653e-05,
+      "loss": 0.0006,
+      "step": 33810
     },
     {
+      "epoch": 9.92,
+      "learning_rate": 5.599929002484914e-05,
+      "loss": 0.0006,
+      "step": 34155
     },
     {
+      "epoch": 10.0,
+      "eval_loss": 0.0008162627927958965,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.4197,
+      "eval_samples_per_second": 20.663,
+      "eval_steps_per_second": 0.827,
+      "step": 34430
     },
     {
+      "epoch": 10.02,
+      "learning_rate": 5.544260496337174e-05,
+      "loss": 0.0006,
+      "step": 34500
     },
     {
+      "epoch": 10.12,
+      "learning_rate": 5.4885919901894344e-05,
+      "loss": 0.0005,
+      "step": 34845
     },
     {
+      "epoch": 10.22,
+      "learning_rate": 5.432923484041696e-05,
+      "loss": 0.0006,
+      "step": 35190
     },
     {
+      "epoch": 10.32,
+      "learning_rate": 5.377254977893956e-05,
+      "loss": 0.0005,
+      "step": 35535
     },
     {
+      "epoch": 10.42,
+      "learning_rate": 5.321586471746216e-05,
+      "loss": 0.0005,
+      "step": 35880
     },
     {
+      "epoch": 10.52,
+      "learning_rate": 5.265917965598477e-05,
+      "loss": 0.0006,
+      "step": 36225
     },
     {
+      "epoch": 10.62,
+      "learning_rate": 5.2102494594507375e-05,
+      "loss": 0.0006,
+      "step": 36570
     },
     {
+      "epoch": 10.72,
+      "learning_rate": 5.154580953302999e-05,
+      "loss": 0.0006,
+      "step": 36915
     },
     {
+      "epoch": 10.82,
+      "learning_rate": 5.098912447155259e-05,
+      "loss": 0.0005,
+      "step": 37260
     },
     {
+      "epoch": 10.92,
+      "learning_rate": 5.0432439410075194e-05,
+      "loss": 0.0006,
+      "step": 37605
     },
     {
+      "epoch": 11.0,
+      "eval_loss": 0.000511307327542454,
+      "eval_max_distance": 0,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.378,
+      "eval_samples_per_second": 21.026,
+      "eval_steps_per_second": 0.841,
+      "step": 37873
     },
     {
+      "epoch": 11.02,
+      "learning_rate": 4.98757543485978e-05,
+      "loss": 0.0005,
+      "step": 37950
     },
     {
+      "epoch": 11.12,
+      "learning_rate": 4.931906928712041e-05,
+      "loss": 0.0006,
+      "step": 38295
     },
     {
+      "epoch": 11.22,
+      "learning_rate": 4.876238422564301e-05,
+      "loss": 0.0005,
+      "step": 38640
     },
     {
+      "epoch": 11.32,
+      "learning_rate": 4.820569916416562e-05,
+      "loss": 0.0005,
+      "step": 38985
     },
     {
+      "epoch": 11.42,
+      "learning_rate": 4.7649014102688226e-05,
+      "loss": 0.0005,
+      "step": 39330
     },
     {
+      "epoch": 11.52,
+      "learning_rate": 4.709232904121083e-05,
+      "loss": 0.0005,
+      "step": 39675
     },
     {
+      "epoch": 11.62,
+      "learning_rate": 4.653564397973344e-05,
+      "loss": 0.0005,
+      "step": 40020
     },
     {
+      "epoch": 11.72,
+      "learning_rate": 4.5978958918256045e-05,
+      "loss": 0.0006,
+      "step": 40365
     },
     {
+      "epoch": 11.82,
+      "learning_rate": 4.542227385677865e-05,
+      "loss": 0.0007,
+      "step": 40710
     },
     {
+      "epoch": 11.92,
+      "learning_rate": 4.486558879530126e-05,
+      "loss": 0.0005,
+      "step": 41055
     },
     {
+      "epoch": 12.0,
+      "eval_loss": 0.0007161315297707915,
+      "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.3647,
+      "eval_samples_per_second": 21.145,
+      "eval_steps_per_second": 0.846,
+      "step": 41316
     },
     {
+      "epoch": 12.02,
+      "learning_rate": 4.430890373382386e-05,
+      "loss": 0.0005,
+      "step": 41400
     },
     {
+      "epoch": 12.12,
+      "learning_rate": 4.375221867234647e-05,
+      "loss": 0.0005,
+      "step": 41745
     },
     {
+      "epoch": 12.22,
+      "learning_rate": 4.3195533610869076e-05,
+      "loss": 0.0005,
+      "step": 42090
     },
     {
+      "epoch": 12.33,
+      "learning_rate": 4.263884854939168e-05,
+      "loss": 0.0006,
+      "step": 42435
     },
     {
+      "epoch": 12.43,
+      "learning_rate": 4.208216348791429e-05,
+      "loss": 0.0006,
+      "step": 42780
     },
     {
+      "epoch": 12.53,
+      "learning_rate": 4.1525478426436895e-05,
+      "loss": 0.0005,
+      "step": 43125
     },
     {
+      "epoch": 12.63,
+      "learning_rate": 4.09687933649595e-05,
+      "loss": 0.0005,
+      "step": 43470
     },
     {
+      "epoch": 12.73,
+      "learning_rate": 4.041210830348211e-05,
+      "loss": 0.0005,
+      "step": 43815
     },
     {
+      "epoch": 12.83,
+      "learning_rate": 3.9855423242004714e-05,
+      "loss": 0.0007,
+      "step": 44160
     },
     {
+      "epoch": 12.93,
+      "learning_rate": 3.929873818052732e-05,
+      "loss": 0.0004,
+      "step": 44505
     },
     {
+      "epoch": 13.0,
+      "eval_loss": 0.0006984297069720924,
+      "eval_max_distance": 0,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.3638,
+      "eval_samples_per_second": 21.153,
+      "eval_steps_per_second": 0.846,
+      "step": 44759
     },
     {
+      "epoch": 13.03,
+      "learning_rate": 3.8742053119049926e-05,
+      "loss": 0.0005,
+      "step": 44850
     },
     {
+      "epoch": 13.13,
+      "learning_rate": 3.818536805757253e-05,
+      "loss": 0.0006,
+      "step": 45195
     },
     {
+      "epoch": 13.23,
+      "learning_rate": 3.762868299609514e-05,
+      "loss": 0.0005,
+      "step": 45540
     },
     {
+      "epoch": 13.33,
+      "learning_rate": 3.7071997934617745e-05,
+      "loss": 0.0005,
+      "step": 45885
     },
     {
+      "epoch": 13.43,
+      "learning_rate": 3.651531287314035e-05,
+      "loss": 0.0005,
+      "step": 46230
     },
     {
+      "epoch": 13.53,
+      "learning_rate": 3.595862781166296e-05,
+      "loss": 0.0006,
+      "step": 46575
     },
     {
+      "epoch": 13.63,
+      "learning_rate": 3.5401942750185564e-05,
+      "loss": 0.0005,
+      "step": 46920
     },
     {
+      "epoch": 13.73,
+      "learning_rate": 3.484525768870817e-05,
+      "loss": 0.0005,
+      "step": 47265
     },
     {
+      "epoch": 13.83,
+      "learning_rate": 3.4288572627230776e-05,
+      "loss": 0.0004,
+      "step": 47610
     },
     {
+      "epoch": 13.93,
+      "learning_rate": 3.373188756575338e-05,
+      "loss": 0.0006,
+      "step": 47955
     },
     {
+      "epoch": 14.0,
+      "eval_loss": 0.001082880888134241,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.3639,
+      "eval_samples_per_second": 21.152,
+      "eval_steps_per_second": 0.846,
+      "step": 48202
     },
     {
+      "epoch": 14.03,
+      "learning_rate": 3.317520250427599e-05,
+      "loss": 0.0005,
+      "step": 48300
     },
     {
+      "epoch": 14.13,
+      "learning_rate": 3.2618517442798595e-05,
+      "loss": 0.0005,
+      "step": 48645
     },
     {
+      "epoch": 14.23,
+      "learning_rate": 3.20618323813212e-05,
+      "loss": 0.0005,
+      "step": 48990
     },
     {
+      "epoch": 14.33,
+      "learning_rate": 3.150514731984381e-05,
+      "loss": 0.0004,
+      "step": 49335
     },
     {
+      "epoch": 14.43,
+      "learning_rate": 3.0948462258366414e-05,
+      "loss": 0.0005,
+      "step": 49680
     },
     {
+      "epoch": 14.53,
+      "learning_rate": 3.039177719688902e-05,
+      "loss": 0.0004,
+      "step": 50025
     },
     {
+      "epoch": 14.63,
+      "learning_rate": 2.9835092135411623e-05,
+      "loss": 0.0005,
+      "step": 50370
     },
     {
+      "epoch": 14.73,
+      "learning_rate": 2.9278407073934233e-05,
+      "loss": 0.0005,
+      "step": 50715
     },
     {
+      "epoch": 14.83,
+      "learning_rate": 2.8721722012456836e-05,
+      "loss": 0.0005,
+      "step": 51060
     },
     {
+      "epoch": 14.93,
+      "learning_rate": 2.8165036950979445e-05,
+      "loss": 0.0005,
+      "step": 51405
     },
     {
+      "epoch": 15.0,
+      "eval_loss": 0.0008490388281643391,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.3846,
+      "eval_samples_per_second": 20.967,
+      "eval_steps_per_second": 0.839,
+      "step": 51645
     },
     {
+      "epoch": 15.03,
+      "learning_rate": 2.760835188950205e-05,
+      "loss": 0.0005,
+      "step": 51750
     },
     {
+      "epoch": 15.13,
+      "learning_rate": 2.7051666828024658e-05,
+      "loss": 0.0005,
+      "step": 52095
     },
     {
+      "epoch": 15.23,
+      "learning_rate": 2.649498176654726e-05,
+      "loss": 0.0004,
+      "step": 52440
     },
     {
+      "epoch": 15.33,
+      "learning_rate": 2.593829670506987e-05,
+      "loss": 0.0005,
+      "step": 52785
     },
     {
+      "epoch": 15.43,
+      "learning_rate": 2.5381611643592473e-05,
+      "loss": 0.0004,
+      "step": 53130
     },
     {
+      "epoch": 15.53,
+      "learning_rate": 2.4824926582115083e-05,
+      "loss": 0.0004,
+      "step": 53475
     },
     {
+      "epoch": 15.63,
+      "learning_rate": 2.426824152063769e-05,
+      "loss": 0.0005,
+      "step": 53820
     },
     {
+      "epoch": 15.73,
+      "learning_rate": 2.3711556459160296e-05,
+      "loss": 0.0005,
+      "step": 54165
     },
     {
+      "epoch": 15.83,
+      "learning_rate": 2.3154871397682902e-05,
+      "loss": 0.0004,
+      "step": 54510
     },
     {
+      "epoch": 15.93,
+      "learning_rate": 2.2598186336205508e-05,
+      "loss": 0.0005,
+      "step": 54855
     },
     {
+      "epoch": 16.0,
+      "eval_loss": 0.0008035104838199914,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.3835,
+      "eval_samples_per_second": 20.978,
+      "eval_steps_per_second": 0.839,
+      "step": 55088
     },
     {
+      "epoch": 16.03,
+      "learning_rate": 2.2041501274728115e-05,
+      "loss": 0.0005,
+      "step": 55200
     },
     {
+      "epoch": 16.13,
+      "learning_rate": 2.1484816213250717e-05,
+      "loss": 0.0004,
+      "step": 55545
     },
     {
+      "epoch": 16.23,
+      "learning_rate": 2.0928131151773324e-05,
+      "loss": 0.0004,
+      "step": 55890
     },
     {
+      "epoch": 16.33,
+      "learning_rate": 2.037144609029593e-05,
+      "loss": 0.0005,
+      "step": 56235
     },
     {
+      "epoch": 16.43,
+      "learning_rate": 1.9814761028818536e-05,
+      "loss": 0.0005,
+      "step": 56580
     },
     {
+      "epoch": 16.53,
+      "learning_rate": 1.9258075967341143e-05,
+      "loss": 0.0004,
+      "step": 56925
     },
     {
+      "epoch": 16.63,
+      "learning_rate": 1.870139090586375e-05,
+      "loss": 0.0005,
+      "step": 57270
     },
     {
+      "epoch": 16.73,
+      "learning_rate": 1.8144705844386355e-05,
+      "loss": 0.0004,
+      "step": 57615
     },
     {
+      "epoch": 16.83,
+      "learning_rate": 1.758802078290896e-05,
+      "loss": 0.0004,
+      "step": 57960
     },
     {
+      "epoch": 16.93,
+      "learning_rate": 1.7031335721431568e-05,
+      "loss": 0.0005,
+      "step": 58305
     },
     {
+      "epoch": 17.0,
+      "eval_loss": 0.000769978913012892,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.3886,
+      "eval_samples_per_second": 20.933,
+      "eval_steps_per_second": 0.837,
+      "step": 58531
     },
     {
+      "epoch": 17.03,
+      "learning_rate": 1.6474650659954174e-05,
+      "loss": 0.0005,
+      "step": 58650
     },
     {
+      "epoch": 17.13,
+      "learning_rate": 1.591796559847678e-05,
+      "loss": 0.0004,
+      "step": 58995
     },
     {
+      "epoch": 17.23,
+      "learning_rate": 1.5361280536999387e-05,
+      "loss": 0.0005,
+      "step": 59340
     },
     {
+      "epoch": 17.34,
+      "learning_rate": 1.4804595475521993e-05,
+      "loss": 0.0005,
+      "step": 59685
     },
     {
+      "epoch": 17.44,
+      "learning_rate": 1.4247910414044599e-05,
+      "loss": 0.0004,
+      "step": 60030
     },
     {
+      "epoch": 17.54,
+      "learning_rate": 1.3691225352567205e-05,
+      "loss": 0.0004,
+      "step": 60375
     },
     {
+      "epoch": 17.64,
+      "learning_rate": 1.3134540291089812e-05,
+      "loss": 0.0004,
+      "step": 60720
     },
     {
+      "epoch": 17.74,
+      "learning_rate": 1.2577855229612418e-05,
+      "loss": 0.0004,
+      "step": 61065
     },
     {
+      "epoch": 17.84,
+      "learning_rate": 1.2021170168135024e-05,
+      "loss": 0.0004,
+      "step": 61410
     },
     {
+      "epoch": 17.94,
+      "learning_rate": 1.146448510665763e-05,
+      "loss": 0.0004,
+      "step": 61755
     },
     {
+      "epoch": 18.0,
+      "eval_loss": 0.0007153275073505938,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.3591,
+      "eval_samples_per_second": 21.194,
+      "eval_steps_per_second": 0.848,
+      "step": 61974
     },
     {
+      "epoch": 18.04,
+      "learning_rate": 1.0907800045180237e-05,
+      "loss": 0.0003,
+      "step": 62100
     },
     {
+      "epoch": 18.14,
+      "learning_rate": 1.0351114983702843e-05,
+      "loss": 0.0004,
+      "step": 62445
     },
     {
+      "epoch": 18.24,
+      "learning_rate": 9.79442992222545e-06,
+      "loss": 0.0004,
+      "step": 62790
     },
     {
+      "epoch": 18.34,
+      "learning_rate": 9.237744860748056e-06,
+      "loss": 0.0004,
+      "step": 63135
     },
     {
+      "epoch": 18.44,
+      "learning_rate": 8.681059799270662e-06,
+      "loss": 0.0004,
+      "step": 63480
     },
     {
+      "epoch": 18.54,
+      "learning_rate": 8.124374737793268e-06,
+      "loss": 0.0004,
+      "step": 63825
     },
     {
+      "epoch": 18.64,
+      "learning_rate": 7.5676896763158745e-06,
       "loss": 0.0004,
+      "step": 64170
     },
     {
+      "epoch": 18.74,
+      "learning_rate": 7.01100461483848e-06,
       "loss": 0.0005,
+      "step": 64515
     },
     {
+      "epoch": 18.84,
+      "learning_rate": 6.454319553361088e-06,
       "loss": 0.0004,
+      "step": 64860
     },
     {
+      "epoch": 18.94,
+      "learning_rate": 5.897634491883693e-06,
       "loss": 0.0004,
+      "step": 65205
     },
     {
+      "epoch": 19.0,
+      "eval_loss": 0.0007207673625089228,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.3645,
+      "eval_samples_per_second": 21.147,
+      "eval_steps_per_second": 0.846,
+      "step": 65417
     },
     {
+      "epoch": 19.04,
+      "learning_rate": 5.3409494304063e-06,
       "loss": 0.0004,
+      "step": 65550
     },
     {
+      "epoch": 19.14,
+      "learning_rate": 4.784264368928906e-06,
       "loss": 0.0004,
+      "step": 65895
     },
     {
+      "epoch": 19.24,
+      "learning_rate": 4.227579307451512e-06,
       "loss": 0.0004,
+      "step": 66240
     },
     {
+      "epoch": 19.34,
+      "learning_rate": 3.6708942459741184e-06,
       "loss": 0.0003,
+      "step": 66585
     },
     {
+      "epoch": 19.44,
+      "learning_rate": 3.1142091844967247e-06,
+      "loss": 0.0004,
+      "step": 66930
     },
     {
+      "epoch": 19.54,
+      "learning_rate": 2.557524123019331e-06,
       "loss": 0.0004,
+      "step": 67275
     },
     {
+      "epoch": 19.64,
+      "learning_rate": 2.000839061541937e-06,
+      "loss": 0.0005,
+      "step": 67620
     },
     {
+      "epoch": 19.74,
+      "learning_rate": 1.4441540000645434e-06,
+      "loss": 0.0005,
+      "step": 67965
     },
     {
+      "epoch": 19.84,
+      "learning_rate": 8.874689385871494e-07,
+      "loss": 0.0004,
+      "step": 68310
     },
     {
+      "epoch": 19.94,
+      "learning_rate": 3.307838771097557e-07,
+      "loss": 0.0005,
+      "step": 68655
     },
     {
+      "epoch": 20.0,
+      "eval_loss": 0.0007007673266343772,
+      "eval_max_distance": 3,
+      "eval_mean_distance": 0,
+      "eval_runtime": 2.376,
+      "eval_samples_per_second": 21.044,
+      "eval_steps_per_second": 0.842,
+      "step": 68860
     },
     {
+      "epoch": 20.0,
+      "step": 68860,
+      "total_flos": 4.025961075861504e+16,
+      "train_loss": 0.0010230464439000071,
+      "train_runtime": 6513.3096,
+      "train_samples_per_second": 317.166,
+      "train_steps_per_second": 10.572
     }
   ],
+  "logging_steps": 345,
+  "max_steps": 68860,
+  "num_train_epochs": 20,
+  "save_steps": 689,
+  "total_flos": 4.025961075861504e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:100e47428886cfceeb4983e829afe7caff9578529dd77c77ba43967c2229d9ca
 size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:586ed9c845a3561a92f038b449b118f6c3411340e86cc6c2b3ab167a6c2d8141
 size 4091