alexue4
/

text-normalization-ru-new

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [alexue4/text-normalization-ru-new](https://huggingface.co/alexue4/text-normalization-ru-new) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0170
 - Mean Distance: 0
 - Max Distance: 3
@@ -37,38 +37,43 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
-- train_batch_size: 15
-- eval_batch_size: 15
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 20
 ### Training results
-| Training Loss | Epoch | Step   | Validation Loss | Mean Distance | Max Distance |
-|:-------------:|:-----:|:------:|:---------------:|:-------------:|:------------:|
-| 0.0004        | 1.0   | 13982  | 0.0145          | 0             | 4            |
-| 0.0005        | 2.0   | 27964  | 0.0164          | 0             | 4            |
-| 0.0005        | 3.0   | 41946  | 0.0167          | 0             | 3            |
-| 0.0005        | 4.0   | 55928  | 0.0125          | 0             | 3            |
-| 0.0005        | 5.0   | 69910  | 0.0185          | 0             | 3            |
-| 0.0005        | 6.0   | 83892  | 0.0173          | 0             | 3            |
-| 0.0005        | 7.0   | 97874  | 0.0168          | 0             | 5            |
-| 0.0004        | 8.0   | 111856 | 0.0201          | 0             | 5            |
-| 0.0004        | 9.0   | 125838 | 0.0215          | 0             | 2            |
-| 0.0004        | 10.0  | 139820 | 0.0226          | 0             | 3            |
-| 0.0004        | 11.0  | 153802 | 0.0199          | 0             | 3            |
-| 0.0003        | 12.0  | 167784 | 0.0184          | 0             | 3            |
-| 0.0004        | 13.0  | 181766 | 0.0196          | 0             | 3            |
-| 0.0003        | 14.0  | 195748 | 0.0167          | 0             | 1            |
-| 0.0003        | 15.0  | 209730 | 0.0177          | 0             | 3            |
-| 0.0003        | 16.0  | 223712 | 0.0173          | 0             | 3            |
-| 0.0003        | 17.0  | 237694 | 0.0173          | 0             | 3            |
-| 0.0003        | 18.0  | 251676 | 0.0169          | 0             | 3            |
-| 0.0003        | 19.0  | 265658 | 0.0167          | 0             | 3            |
-| 0.0003        | 20.0  | 279640 | 0.0170          | 0             | 3            |
 ### Framework versions

 This model is a fine-tuned version of [alexue4/text-normalization-ru-new](https://huggingface.co/alexue4/text-normalization-ru-new) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0014
 - Mean Distance: 0
 - Max Distance: 3
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
+- train_batch_size: 30
+- eval_batch_size: 30
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 25
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Mean Distance | Max Distance |
+|:-------------:|:-----:|:----:|:---------------:|:-------------:|:------------:|
+| 0.0368        | 1.0   | 68   | 0.0619          | 0             | 3            |
+| 0.0057        | 2.0   | 136  | 0.0346          | 0             | 3            |
+| 0.0113        | 3.0   | 204  | 0.0252          | 0             | 4            |
+| 0.0244        | 4.0   | 272  | 0.0111          | 0             | 3            |
+| 0.001         | 5.0   | 340  | 0.0065          | 0             | 3            |
+| 0.0021        | 6.0   | 408  | 0.0051          | 0             | 5            |
+| 0.0008        | 7.0   | 476  | 0.0077          | 0             | 3            |
+| 0.0008        | 8.0   | 544  | 0.0040          | 0             | 3            |
+| 0.0025        | 9.0   | 612  | 0.0029          | 0             | 2            |
+| 0.0012        | 10.0  | 680  | 0.0020          | 0             | 3            |
+| 0.0012        | 11.0  | 748  | 0.0010          | 0             | 3            |
+| 0.0006        | 12.0  | 816  | 0.0008          | 0             | 0            |
+| 0.0012        | 13.0  | 884  | 0.0005          | 0             | 0            |
+| 0.001         | 14.0  | 952  | 0.0007          | 0             | 3            |
+| 0.0009        | 15.0  | 1020 | 0.0014          | 0             | 3            |
+| 0.0005        | 16.0  | 1088 | 0.0015          | 0             | 3            |
+| 0.0009        | 17.0  | 1156 | 0.0014          | 0             | 3            |
+| 0.0006        | 18.0  | 1224 | 0.0013          | 0             | 3            |
+| 0.0012        | 19.0  | 1292 | 0.0014          | 0             | 3            |
+| 0.0007        | 20.0  | 1360 | 0.0014          | 0             | 3            |
+| 0.0012        | 21.0  | 1428 | 0.0013          | 0             | 3            |
+| 0.0013        | 22.0  | 1496 | 0.0014          | 0             | 3            |
+| 0.0008        | 23.0  | 1564 | 0.0014          | 0             | 3            |
+| 0.0005        | 24.0  | 1632 | 0.0014          | 0             | 3            |
+| 0.001         | 25.0  | 1700 | 0.0014          | 0             | 3            |
 ### Framework versions

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0faab56c1613c68c3c5f4b631273360760561866b59ee610afd96d410f0b2012
 size 258643461

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c78ae41e27176e6da318232c2b38c680ba5bed653558b5af6c48e9134e6fe90
 size 258643461

trainer_state.json CHANGED Viewed

@@ -1,1428 +1,1412 @@
 {
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 20.0,
   "eval_steps": 500,
-  "global_step": 279640,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0,
-      "learning_rate": 3.576026319553712e-09,
-      "loss": 0.0,
       "step": 1
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 5.002860821055643e-06,
-      "loss": 0.0011,
-      "step": 1399
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 1.0005721642111287e-05,
-      "loss": 0.0008,
-      "step": 2798
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 1.500858246316693e-05,
-      "loss": 0.0008,
-      "step": 4197
     },
     {
       "epoch": 0.4,
-      "learning_rate": 2.0011443284222573e-05,
-      "loss": 0.0004,
-      "step": 5596
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 2.5014304105278213e-05,
-      "loss": 0.0004,
-      "step": 6995
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 3.001716492633386e-05,
-      "loss": 0.0004,
-      "step": 8394
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 3.5020025747389504e-05,
-      "loss": 0.0005,
-      "step": 9793
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 4.002288656844515e-05,
-      "loss": 0.0003,
-      "step": 11192
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 4.502574738950079e-05,
-      "loss": 0.0004,
-      "step": 12591
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.01447892002761364,
-      "eval_max_distance": 4,
       "eval_mean_distance": 0,
-      "eval_runtime": 16.1519,
-      "eval_samples_per_second": 16.593,
-      "eval_steps_per_second": 1.114,
-      "step": 13982
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 5.0028608210556425e-05,
-      "loss": 0.0004,
-      "step": 13990
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 5.503146903161207e-05,
-      "loss": 0.0004,
-      "step": 15389
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 6.003432985266772e-05,
-      "loss": 0.0004,
-      "step": 16788
     },
     {
-      "epoch": 1.3,
-      "learning_rate": 6.503719067372336e-05,
-      "loss": 0.0004,
-      "step": 18187
     },
     {
-      "epoch": 1.4,
-      "learning_rate": 7.004005149477901e-05,
-      "loss": 0.0004,
-      "step": 19586
     },
     {
-      "epoch": 1.5,
-      "learning_rate": 7.504291231583464e-05,
-      "loss": 0.0004,
-      "step": 20985
     },
     {
-      "epoch": 1.6,
-      "learning_rate": 8.00457731368903e-05,
-      "loss": 0.0005,
-      "step": 22384
     },
     {
-      "epoch": 1.7,
-      "learning_rate": 8.504863395794593e-05,
-      "loss": 0.0004,
-      "step": 23783
     },
     {
-      "epoch": 1.8,
-      "learning_rate": 9.005149477900158e-05,
-      "loss": 0.0004,
-      "step": 25182
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 9.505435560005721e-05,
-      "loss": 0.0005,
-      "step": 26581
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.01644507423043251,
-      "eval_max_distance": 4,
       "eval_mean_distance": 0,
-      "eval_runtime": 14.8804,
-      "eval_samples_per_second": 18.01,
-      "eval_steps_per_second": 1.21,
-      "step": 27964
     },
     {
-      "epoch": 2.0,
-      "learning_rate": 9.999364261987636e-05,
-      "loss": 0.0004,
-      "step": 27980
     },
     {
-      "epoch": 2.1,
-      "learning_rate": 9.943776919531461e-05,
-      "loss": 0.0005,
-      "step": 29379
     },
     {
-      "epoch": 2.2,
-      "learning_rate": 9.888189577075288e-05,
-      "loss": 0.0005,
-      "step": 30778
     },
     {
-      "epoch": 2.3,
-      "learning_rate": 9.832602234619113e-05,
-      "loss": 0.0005,
-      "step": 32177
     },
     {
-      "epoch": 2.4,
-      "learning_rate": 9.77701489216294e-05,
-      "loss": 0.0005,
-      "step": 33576
-    },
-    {
-      "epoch": 2.5,
-      "learning_rate": 9.721427549706766e-05,
-      "loss": 0.0005,
-      "step": 34975
-    },
-    {
-      "epoch": 2.6,
-      "learning_rate": 9.665840207250593e-05,
-      "loss": 0.0006,
-      "step": 36374
-    },
-    {
-      "epoch": 2.7,
-      "learning_rate": 9.61025286479442e-05,
       "loss": 0.0006,
-      "step": 37773
     },
     {
-      "epoch": 2.8,
-      "learning_rate": 9.554665522338245e-05,
-      "loss": 0.0005,
-      "step": 39172
     },
     {
-      "epoch": 2.9,
-      "learning_rate": 9.499078179882072e-05,
-      "loss": 0.0005,
-      "step": 40571
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.016705745831131935,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 14.6064,
-      "eval_samples_per_second": 18.348,
-      "eval_steps_per_second": 1.232,
-      "step": 41946
     },
     {
-      "epoch": 3.0,
-      "learning_rate": 9.443490837425897e-05,
-      "loss": 0.0006,
-      "step": 41970
     },
     {
-      "epoch": 3.1,
-      "learning_rate": 9.387903494969723e-05,
-      "loss": 0.0005,
-      "step": 43369
     },
     {
-      "epoch": 3.2,
-      "learning_rate": 9.33231615251355e-05,
-      "loss": 0.0005,
-      "step": 44768
     },
     {
-      "epoch": 3.3,
-      "learning_rate": 9.276728810057375e-05,
-      "loss": 0.0006,
-      "step": 46167
     },
     {
-      "epoch": 3.4,
-      "learning_rate": 9.221141467601202e-05,
-      "loss": 0.0005,
-      "step": 47566
     },
     {
-      "epoch": 3.5,
-      "learning_rate": 9.165554125145028e-05,
-      "loss": 0.0006,
-      "step": 48965
     },
     {
-      "epoch": 3.6,
-      "learning_rate": 9.109966782688855e-05,
-      "loss": 0.0005,
-      "step": 50364
-    },
-    {
-      "epoch": 3.7,
-      "learning_rate": 9.054379440232682e-05,
-      "loss": 0.0005,
-      "step": 51763
     },
     {
-      "epoch": 3.8,
-      "learning_rate": 8.998792097776507e-05,
-      "loss": 0.0005,
-      "step": 53162
-    },
-    {
-      "epoch": 3.9,
-      "learning_rate": 8.943204755320333e-05,
-      "loss": 0.0005,
-      "step": 54561
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.012466676533222198,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 14.6723,
-      "eval_samples_per_second": 18.266,
-      "eval_steps_per_second": 1.227,
-      "step": 55928
-    },
-    {
-      "epoch": 4.0,
-      "learning_rate": 8.887617412864158e-05,
-      "loss": 0.0006,
-      "step": 55960
     },
     {
       "epoch": 4.1,
-      "learning_rate": 8.832030070407985e-05,
-      "loss": 0.0005,
-      "step": 57359
-    },
-    {
-      "epoch": 4.2,
-      "learning_rate": 8.776442727951812e-05,
-      "loss": 0.0005,
-      "step": 58758
     },
     {
-      "epoch": 4.3,
-      "learning_rate": 8.720855385495637e-05,
-      "loss": 0.0005,
-      "step": 60157
     },
     {
-      "epoch": 4.4,
-      "learning_rate": 8.665268043039464e-05,
-      "loss": 0.0005,
-      "step": 61556
     },
     {
       "epoch": 4.5,
-      "learning_rate": 8.60968070058329e-05,
-      "loss": 0.0005,
-      "step": 62955
     },
     {
-      "epoch": 4.6,
-      "learning_rate": 8.554093358127117e-05,
-      "loss": 0.0005,
-      "step": 64354
     },
     {
-      "epoch": 4.7,
-      "learning_rate": 8.498506015670943e-05,
-      "loss": 0.0006,
-      "step": 65753
-    },
-    {
-      "epoch": 4.8,
-      "learning_rate": 8.442918673214769e-05,
-      "loss": 0.0005,
-      "step": 67152
     },
     {
       "epoch": 4.9,
-      "learning_rate": 8.387331330758594e-05,
-      "loss": 0.0005,
-      "step": 68551
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.018481934443116188,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 14.7593,
-      "eval_samples_per_second": 18.158,
-      "eval_steps_per_second": 1.22,
-      "step": 69910
     },
     {
-      "epoch": 5.0,
-      "learning_rate": 8.33174398830242e-05,
-      "loss": 0.0005,
-      "step": 69950
     },
     {
-      "epoch": 5.1,
-      "learning_rate": 8.276156645846247e-05,
-      "loss": 0.0005,
-      "step": 71349
     },
     {
-      "epoch": 5.2,
-      "learning_rate": 8.220569303390074e-05,
-      "loss": 0.0005,
-      "step": 72748
     },
     {
-      "epoch": 5.3,
-      "learning_rate": 8.164981960933899e-05,
-      "loss": 0.0005,
-      "step": 74147
     },
     {
-      "epoch": 5.4,
-      "learning_rate": 8.109394618477726e-05,
-      "loss": 0.0005,
-      "step": 75546
-    },
-    {
-      "epoch": 5.5,
-      "learning_rate": 8.053807276021552e-05,
-      "loss": 0.0005,
-      "step": 76945
-    },
-    {
-      "epoch": 5.6,
-      "learning_rate": 7.998219933565379e-05,
-      "loss": 0.0005,
-      "step": 78344
     },
     {
-      "epoch": 5.7,
-      "learning_rate": 7.942632591109205e-05,
-      "loss": 0.0004,
-      "step": 79743
     },
     {
-      "epoch": 5.8,
-      "learning_rate": 7.88704524865303e-05,
-      "loss": 0.0005,
-      "step": 81142
     },
     {
-      "epoch": 5.9,
-      "learning_rate": 7.831457906196856e-05,
-      "loss": 0.0005,
-      "step": 82541
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.017317254096269608,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 14.4763,
-      "eval_samples_per_second": 18.513,
-      "eval_steps_per_second": 1.243,
-      "step": 83892
     },
     {
-      "epoch": 6.0,
-      "learning_rate": 7.775870563740682e-05,
-      "loss": 0.0005,
-      "step": 83940
     },
     {
-      "epoch": 6.1,
-      "learning_rate": 7.720283221284509e-05,
-      "loss": 0.0004,
-      "step": 85339
     },
     {
-      "epoch": 6.2,
-      "learning_rate": 7.664695878828336e-05,
-      "loss": 0.0006,
-      "step": 86738
     },
     {
-      "epoch": 6.3,
-      "learning_rate": 7.609108536372161e-05,
       "loss": 0.0004,
-      "step": 88137
     },
     {
-      "epoch": 6.4,
-      "learning_rate": 7.553521193915988e-05,
-      "loss": 0.0005,
-      "step": 89536
     },
     {
-      "epoch": 6.5,
-      "learning_rate": 7.497933851459814e-05,
-      "loss": 0.0004,
-      "step": 90935
     },
     {
-      "epoch": 6.6,
-      "learning_rate": 7.44234650900364e-05,
-      "loss": 0.0004,
-      "step": 92334
     },
     {
-      "epoch": 6.7,
-      "learning_rate": 7.386759166547467e-05,
-      "loss": 0.0005,
-      "step": 93733
     },
     {
-      "epoch": 6.8,
-      "learning_rate": 7.331171824091292e-05,
-      "loss": 0.0004,
-      "step": 95132
     },
     {
-      "epoch": 6.9,
-      "learning_rate": 7.275584481635118e-05,
-      "loss": 0.0005,
-      "step": 96531
     },
     {
-      "epoch": 7.0,
-      "eval_loss": 0.016764231026172638,
-      "eval_max_distance": 5,
-      "eval_mean_distance": 0,
-      "eval_runtime": 14.4483,
-      "eval_samples_per_second": 18.549,
-      "eval_steps_per_second": 1.246,
-      "step": 97874
     },
     {
-      "epoch": 7.0,
-      "learning_rate": 7.219997139178944e-05,
-      "loss": 0.0005,
-      "step": 97930
     },
     {
-      "epoch": 7.1,
-      "learning_rate": 7.164409796722771e-05,
-      "loss": 0.0005,
-      "step": 99329
     },
     {
-      "epoch": 7.2,
-      "learning_rate": 7.108822454266598e-05,
-      "loss": 0.0005,
-      "step": 100728
     },
     {
-      "epoch": 7.3,
-      "learning_rate": 7.053235111810423e-05,
-      "loss": 0.0005,
-      "step": 102127
     },
     {
-      "epoch": 7.4,
-      "learning_rate": 6.99764776935425e-05,
-      "loss": 0.0005,
-      "step": 103526
     },
     {
-      "epoch": 7.5,
-      "learning_rate": 6.942060426898076e-05,
-      "loss": 0.0005,
-      "step": 104925
     },
     {
-      "epoch": 7.6,
-      "learning_rate": 6.886473084441902e-05,
-      "loss": 0.0004,
-      "step": 106324
     },
     {
-      "epoch": 7.7,
-      "learning_rate": 6.830885741985728e-05,
-      "loss": 0.0005,
-      "step": 107723
     },
     {
-      "epoch": 7.8,
-      "learning_rate": 6.775298399529553e-05,
-      "loss": 0.0004,
-      "step": 109122
     },
     {
-      "epoch": 7.9,
-      "learning_rate": 6.71971105707338e-05,
-      "loss": 0.0004,
-      "step": 110521
     },
     {
-      "epoch": 8.0,
-      "eval_loss": 0.020108750090003014,
-      "eval_max_distance": 5,
-      "eval_mean_distance": 0,
-      "eval_runtime": 14.4845,
-      "eval_samples_per_second": 18.503,
-      "eval_steps_per_second": 1.243,
-      "step": 111856
     },
     {
-      "epoch": 8.0,
-      "learning_rate": 6.664123714617206e-05,
-      "loss": 0.0004,
-      "step": 111920
     },
     {
-      "epoch": 8.1,
-      "learning_rate": 6.608536372161033e-05,
-      "loss": 0.0005,
-      "step": 113319
     },
     {
-      "epoch": 8.2,
-      "learning_rate": 6.55294902970486e-05,
-      "loss": 0.0004,
-      "step": 114718
     },
     {
-      "epoch": 8.3,
-      "learning_rate": 6.497361687248685e-05,
-      "loss": 0.0005,
-      "step": 116117
     },
     {
-      "epoch": 8.4,
-      "learning_rate": 6.441774344792512e-05,
-      "loss": 0.0005,
-      "step": 117516
     },
     {
-      "epoch": 8.5,
-      "learning_rate": 6.386187002336337e-05,
-      "loss": 0.0005,
-      "step": 118915
     },
     {
-      "epoch": 8.6,
-      "learning_rate": 6.330599659880164e-05,
-      "loss": 0.0004,
-      "step": 120314
     },
     {
-      "epoch": 8.7,
-      "learning_rate": 6.27501231742399e-05,
-      "loss": 0.0004,
-      "step": 121713
     },
     {
-      "epoch": 8.81,
-      "learning_rate": 6.219424974967815e-05,
-      "loss": 0.0004,
-      "step": 123112
     },
     {
-      "epoch": 8.91,
-      "learning_rate": 6.163837632511642e-05,
-      "loss": 0.0004,
-      "step": 124511
     },
     {
-      "epoch": 9.0,
-      "eval_loss": 0.021496200934052467,
-      "eval_max_distance": 2,
       "eval_mean_distance": 0,
-      "eval_runtime": 14.5428,
-      "eval_samples_per_second": 18.428,
-      "eval_steps_per_second": 1.238,
-      "step": 125838
     },
     {
-      "epoch": 9.01,
-      "learning_rate": 6.108250290055468e-05,
-      "loss": 0.0004,
-      "step": 125910
     },
     {
-      "epoch": 9.11,
-      "learning_rate": 6.0526629475992947e-05,
-      "loss": 0.0004,
-      "step": 127309
     },
     {
-      "epoch": 9.21,
-      "learning_rate": 5.997075605143121e-05,
-      "loss": 0.0004,
-      "step": 128708
     },
     {
-      "epoch": 9.31,
-      "learning_rate": 5.941488262686947e-05,
-      "loss": 0.0004,
-      "step": 130107
     },
     {
-      "epoch": 9.41,
-      "learning_rate": 5.885900920230773e-05,
-      "loss": 0.0004,
-      "step": 131506
     },
     {
-      "epoch": 9.51,
-      "learning_rate": 5.8303135777746e-05,
-      "loss": 0.0004,
-      "step": 132905
     },
     {
-      "epoch": 9.61,
-      "learning_rate": 5.774726235318425e-05,
-      "loss": 0.0004,
-      "step": 134304
     },
     {
-      "epoch": 9.71,
-      "learning_rate": 5.719138892862251e-05,
-      "loss": 0.0005,
-      "step": 135703
     },
     {
-      "epoch": 9.81,
-      "learning_rate": 5.663551550406077e-05,
-      "loss": 0.0004,
-      "step": 137102
     },
     {
-      "epoch": 9.91,
-      "learning_rate": 5.607964207949904e-05,
-      "loss": 0.0004,
-      "step": 138501
     },
     {
-      "epoch": 10.0,
-      "eval_loss": 0.0225870031863451,
-      "eval_max_distance": 3,
-      "eval_mean_distance": 0,
-      "eval_runtime": 15.0837,
-      "eval_samples_per_second": 17.768,
-      "eval_steps_per_second": 1.193,
-      "step": 139820
     },
     {
-      "epoch": 10.01,
-      "learning_rate": 5.5523768654937304e-05,
-      "loss": 0.0004,
-      "step": 139900
     },
     {
-      "epoch": 10.11,
-      "learning_rate": 5.4967895230375566e-05,
-      "loss": 0.0004,
-      "step": 141299
     },
     {
-      "epoch": 10.21,
-      "learning_rate": 5.441202180581383e-05,
-      "loss": 0.0004,
-      "step": 142698
     },
     {
-      "epoch": 10.31,
-      "learning_rate": 5.385614838125209e-05,
-      "loss": 0.0004,
-      "step": 144097
     },
     {
-      "epoch": 10.41,
-      "learning_rate": 5.330027495669035e-05,
-      "loss": 0.0004,
-      "step": 145496
     },
     {
-      "epoch": 10.51,
-      "learning_rate": 5.274440153212862e-05,
-      "loss": 0.0004,
-      "step": 146895
     },
     {
-      "epoch": 10.61,
-      "learning_rate": 5.218852810756687e-05,
-      "loss": 0.0004,
-      "step": 148294
     },
     {
-      "epoch": 10.71,
-      "learning_rate": 5.163265468300513e-05,
-      "loss": 0.0004,
-      "step": 149693
     },
     {
-      "epoch": 10.81,
-      "learning_rate": 5.107678125844339e-05,
-      "loss": 0.0004,
-      "step": 151092
     },
     {
-      "epoch": 10.91,
-      "learning_rate": 5.052090783388166e-05,
-      "loss": 0.0004,
-      "step": 152491
     },
     {
-      "epoch": 11.0,
-      "eval_loss": 0.019947679713368416,
-      "eval_max_distance": 3,
-      "eval_mean_distance": 0,
-      "eval_runtime": 14.3656,
-      "eval_samples_per_second": 18.656,
-      "eval_steps_per_second": 1.253,
-      "step": 153802
     },
     {
-      "epoch": 11.01,
-      "learning_rate": 4.9965034409319923e-05,
       "loss": 0.0004,
-      "step": 153890
     },
     {
-      "epoch": 11.11,
-      "learning_rate": 4.9409160984758185e-05,
-      "loss": 0.0003,
-      "step": 155289
     },
     {
-      "epoch": 11.21,
-      "learning_rate": 4.885328756019645e-05,
-      "loss": 0.0004,
-      "step": 156688
     },
     {
-      "epoch": 11.31,
-      "learning_rate": 4.82974141356347e-05,
-      "loss": 0.0004,
-      "step": 158087
     },
     {
-      "epoch": 11.41,
-      "learning_rate": 4.774154071107297e-05,
-      "loss": 0.0004,
-      "step": 159486
     },
     {
-      "epoch": 11.51,
-      "learning_rate": 4.718566728651123e-05,
       "loss": 0.0004,
-      "step": 160885
     },
     {
-      "epoch": 11.61,
-      "learning_rate": 4.6629793861949495e-05,
-      "loss": 0.0004,
-      "step": 162284
     },
     {
-      "epoch": 11.71,
-      "learning_rate": 4.607392043738775e-05,
-      "loss": 0.0004,
-      "step": 163683
     },
     {
-      "epoch": 11.81,
-      "learning_rate": 4.551804701282601e-05,
-      "loss": 0.0004,
-      "step": 165082
     },
     {
-      "epoch": 11.91,
-      "learning_rate": 4.496217358826428e-05,
-      "loss": 0.0003,
-      "step": 166481
     },
     {
-      "epoch": 12.0,
-      "eval_loss": 0.018351813778281212,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 14.3946,
-      "eval_samples_per_second": 18.618,
-      "eval_steps_per_second": 1.25,
-      "step": 167784
     },
     {
-      "epoch": 12.01,
-      "learning_rate": 4.440630016370254e-05,
-      "loss": 0.0003,
-      "step": 167880
     },
     {
-      "epoch": 12.11,
-      "learning_rate": 4.3850426739140805e-05,
-      "loss": 0.0004,
-      "step": 169279
     },
     {
-      "epoch": 12.21,
-      "learning_rate": 4.329455331457906e-05,
-      "loss": 0.0003,
-      "step": 170678
     },
     {
-      "epoch": 12.31,
-      "learning_rate": 4.273867989001732e-05,
-      "loss": 0.0003,
-      "step": 172077
     },
     {
-      "epoch": 12.41,
-      "learning_rate": 4.218280646545559e-05,
-      "loss": 0.0003,
-      "step": 173476
     },
     {
-      "epoch": 12.51,
-      "learning_rate": 4.162693304089385e-05,
-      "loss": 0.0003,
-      "step": 174875
     },
     {
-      "epoch": 12.61,
-      "learning_rate": 4.1071059616332115e-05,
-      "loss": 0.0003,
-      "step": 176274
     },
     {
-      "epoch": 12.71,
-      "learning_rate": 4.051518619177037e-05,
-      "loss": 0.0004,
-      "step": 177673
     },
     {
-      "epoch": 12.81,
-      "learning_rate": 3.995931276720863e-05,
-      "loss": 0.0003,
-      "step": 179072
     },
     {
-      "epoch": 12.91,
-      "learning_rate": 3.94034393426469e-05,
-      "loss": 0.0004,
-      "step": 180471
     },
     {
-      "epoch": 13.0,
-      "eval_loss": 0.019636347889900208,
-      "eval_max_distance": 3,
-      "eval_mean_distance": 0,
-      "eval_runtime": 14.3221,
-      "eval_samples_per_second": 18.712,
-      "eval_steps_per_second": 1.257,
-      "step": 181766
     },
     {
-      "epoch": 13.01,
-      "learning_rate": 3.884756591808516e-05,
-      "loss": 0.0004,
-      "step": 181870
     },
     {
-      "epoch": 13.11,
-      "learning_rate": 3.8291692493523424e-05,
-      "loss": 0.0004,
-      "step": 183269
     },
     {
-      "epoch": 13.21,
-      "learning_rate": 3.773581906896168e-05,
-      "loss": 0.0004,
-      "step": 184668
     },
     {
-      "epoch": 13.31,
-      "learning_rate": 3.717994564439994e-05,
-      "loss": 0.0003,
-      "step": 186067
     },
     {
-      "epoch": 13.41,
-      "learning_rate": 3.662407221983821e-05,
-      "loss": 0.0003,
-      "step": 187466
     },
     {
-      "epoch": 13.51,
-      "learning_rate": 3.606819879527647e-05,
-      "loss": 0.0003,
-      "step": 188865
     },
     {
-      "epoch": 13.61,
-      "learning_rate": 3.551232537071473e-05,
-      "loss": 0.0003,
-      "step": 190264
     },
     {
-      "epoch": 13.71,
-      "learning_rate": 3.495645194615299e-05,
-      "loss": 0.0004,
-      "step": 191663
     },
     {
-      "epoch": 13.81,
-      "learning_rate": 3.440057852159125e-05,
-      "loss": 0.0003,
-      "step": 193062
     },
     {
-      "epoch": 13.91,
-      "learning_rate": 3.384470509702952e-05,
-      "loss": 0.0003,
-      "step": 194461
     },
     {
-      "epoch": 14.0,
-      "eval_loss": 0.01673734560608864,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 14.3426,
-      "eval_samples_per_second": 18.686,
-      "eval_steps_per_second": 1.255,
-      "step": 195748
     },
     {
-      "epoch": 14.01,
-      "learning_rate": 3.328883167246778e-05,
-      "loss": 0.0004,
-      "step": 195860
     },
     {
-      "epoch": 14.11,
-      "learning_rate": 3.273295824790604e-05,
-      "loss": 0.0003,
-      "step": 197259
     },
     {
-      "epoch": 14.21,
-      "learning_rate": 3.21770848233443e-05,
-      "loss": 0.0003,
-      "step": 198658
     },
     {
-      "epoch": 14.31,
-      "learning_rate": 3.162121139878256e-05,
-      "loss": 0.0003,
-      "step": 200057
     },
     {
-      "epoch": 14.41,
-      "learning_rate": 3.106533797422082e-05,
-      "loss": 0.0003,
-      "step": 201456
     },
     {
-      "epoch": 14.51,
-      "learning_rate": 3.0509464549659088e-05,
-      "loss": 0.0003,
-      "step": 202855
     },
     {
-      "epoch": 14.61,
-      "learning_rate": 2.9953591125097347e-05,
-      "loss": 0.0003,
-      "step": 204254
     },
     {
-      "epoch": 14.71,
-      "learning_rate": 2.939771770053561e-05,
-      "loss": 0.0003,
-      "step": 205653
     },
     {
-      "epoch": 14.81,
-      "learning_rate": 2.8841844275973874e-05,
-      "loss": 0.0004,
-      "step": 207052
     },
     {
-      "epoch": 14.91,
-      "learning_rate": 2.8285970851412136e-05,
-      "loss": 0.0003,
-      "step": 208451
     },
     {
-      "epoch": 15.0,
-      "eval_loss": 0.017744125798344612,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 14.4379,
-      "eval_samples_per_second": 18.562,
-      "eval_steps_per_second": 1.247,
-      "step": 209730
     },
     {
-      "epoch": 15.01,
-      "learning_rate": 2.7730097426850398e-05,
-      "loss": 0.0003,
-      "step": 209850
     },
     {
-      "epoch": 15.11,
-      "learning_rate": 2.7174224002288656e-05,
-      "loss": 0.0003,
-      "step": 211249
     },
     {
-      "epoch": 15.21,
-      "learning_rate": 2.661835057772692e-05,
-      "loss": 0.0003,
-      "step": 212648
     },
     {
-      "epoch": 15.31,
-      "learning_rate": 2.6062477153165184e-05,
-      "loss": 0.0003,
-      "step": 214047
     },
     {
-      "epoch": 15.41,
-      "learning_rate": 2.5506603728603446e-05,
-      "loss": 0.0003,
-      "step": 215446
     },
     {
-      "epoch": 15.51,
-      "learning_rate": 2.4950730304041704e-05,
-      "loss": 0.0003,
-      "step": 216845
     },
     {
-      "epoch": 15.61,
-      "learning_rate": 2.439485687947997e-05,
-      "loss": 0.0003,
-      "step": 218244
     },
     {
-      "epoch": 15.71,
-      "learning_rate": 2.3838983454918228e-05,
-      "loss": 0.0003,
-      "step": 219643
     },
     {
-      "epoch": 15.81,
-      "learning_rate": 2.3283110030356493e-05,
-      "loss": 0.0003,
-      "step": 221042
     },
     {
-      "epoch": 15.91,
-      "learning_rate": 2.2727236605794752e-05,
-      "loss": 0.0003,
-      "step": 222441
     },
     {
-      "epoch": 16.0,
-      "eval_loss": 0.01732315868139267,
-      "eval_max_distance": 3,
-      "eval_mean_distance": 0,
-      "eval_runtime": 14.4573,
-      "eval_samples_per_second": 18.537,
-      "eval_steps_per_second": 1.245,
-      "step": 223712
     },
     {
-      "epoch": 16.01,
-      "learning_rate": 2.2171363181233014e-05,
-      "loss": 0.0003,
-      "step": 223840
     },
     {
-      "epoch": 16.11,
-      "learning_rate": 2.1615489756671276e-05,
-      "loss": 0.0003,
-      "step": 225239
     },
     {
-      "epoch": 16.21,
-      "learning_rate": 2.1059616332109538e-05,
-      "loss": 0.0003,
-      "step": 226638
     },
     {
-      "epoch": 16.31,
-      "learning_rate": 2.0503742907547803e-05,
-      "loss": 0.0003,
-      "step": 228037
     },
     {
-      "epoch": 16.41,
-      "learning_rate": 1.994786948298606e-05,
-      "loss": 0.0003,
-      "step": 229436
     },
     {
-      "epoch": 16.51,
-      "learning_rate": 1.9391996058424324e-05,
-      "loss": 0.0003,
-      "step": 230835
     },
     {
-      "epoch": 16.61,
-      "learning_rate": 1.8836122633862586e-05,
-      "loss": 0.0003,
-      "step": 232234
     },
     {
-      "epoch": 16.71,
-      "learning_rate": 1.8280249209300847e-05,
-      "loss": 0.0003,
-      "step": 233633
     },
     {
-      "epoch": 16.81,
-      "learning_rate": 1.7724375784739113e-05,
-      "loss": 0.0003,
-      "step": 235032
     },
     {
-      "epoch": 16.91,
-      "learning_rate": 1.716850236017737e-05,
-      "loss": 0.0003,
-      "step": 236431
     },
     {
-      "epoch": 17.0,
-      "eval_loss": 0.01732039824128151,
-      "eval_max_distance": 3,
-      "eval_mean_distance": 0,
-      "eval_runtime": 14.4615,
-      "eval_samples_per_second": 18.532,
-      "eval_steps_per_second": 1.245,
-      "step": 237694
     },
     {
-      "epoch": 17.01,
-      "learning_rate": 1.6612628935615633e-05,
-      "loss": 0.0003,
-      "step": 237830
     },
     {
-      "epoch": 17.11,
-      "learning_rate": 1.6056755511053895e-05,
-      "loss": 0.0003,
-      "step": 239229
     },
     {
-      "epoch": 17.21,
-      "learning_rate": 1.5500882086492157e-05,
-      "loss": 0.0003,
-      "step": 240628
     },
     {
-      "epoch": 17.31,
-      "learning_rate": 1.4945008661930417e-05,
-      "loss": 0.0003,
-      "step": 242027
     },
     {
-      "epoch": 17.41,
-      "learning_rate": 1.4389135237368681e-05,
-      "loss": 0.0003,
-      "step": 243426
     },
     {
-      "epoch": 17.51,
-      "learning_rate": 1.3833261812806945e-05,
-      "loss": 0.0003,
-      "step": 244825
     },
     {
-      "epoch": 17.61,
-      "learning_rate": 1.3277388388245205e-05,
-      "loss": 0.0003,
-      "step": 246224
     },
     {
-      "epoch": 17.71,
-      "learning_rate": 1.2721514963683467e-05,
-      "loss": 0.0003,
-      "step": 247623
     },
     {
-      "epoch": 17.81,
-      "learning_rate": 1.2165641539121729e-05,
-      "loss": 0.0003,
-      "step": 249022
     },
     {
-      "epoch": 17.91,
-      "learning_rate": 1.160976811455999e-05,
-      "loss": 0.0003,
-      "step": 250421
     },
     {
-      "epoch": 18.0,
-      "eval_loss": 0.016897281631827354,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 14.4833,
-      "eval_samples_per_second": 18.504,
-      "eval_steps_per_second": 1.243,
-      "step": 251676
     },
     {
-      "epoch": 18.01,
-      "learning_rate": 1.1053894689998253e-05,
-      "loss": 0.0003,
-      "step": 251820
     },
     {
-      "epoch": 18.11,
-      "learning_rate": 1.0498021265436515e-05,
-      "loss": 0.0003,
-      "step": 253219
     },
     {
-      "epoch": 18.21,
-      "learning_rate": 9.942147840874775e-06,
-      "loss": 0.0003,
-      "step": 254618
     },
     {
-      "epoch": 18.31,
-      "learning_rate": 9.386274416313037e-06,
-      "loss": 0.0003,
-      "step": 256017
     },
     {
-      "epoch": 18.41,
-      "learning_rate": 8.8304009917513e-06,
-      "loss": 0.0002,
-      "step": 257416
     },
     {
-      "epoch": 18.51,
-      "learning_rate": 8.274527567189562e-06,
-      "loss": 0.0003,
-      "step": 258815
     },
     {
-      "epoch": 18.61,
-      "learning_rate": 7.718654142627824e-06,
-      "loss": 0.0003,
-      "step": 260214
     },
     {
-      "epoch": 18.71,
-      "learning_rate": 7.1627807180660855e-06,
-      "loss": 0.0003,
-      "step": 261613
     },
     {
-      "epoch": 18.81,
-      "learning_rate": 6.606907293504347e-06,
-      "loss": 0.0002,
-      "step": 263012
     },
     {
-      "epoch": 18.91,
-      "learning_rate": 6.051033868942609e-06,
       "loss": 0.0003,
-      "step": 264411
     },
     {
-      "epoch": 19.0,
-      "eval_loss": 0.016652461141347885,
-      "eval_max_distance": 3,
-      "eval_mean_distance": 0,
-      "eval_runtime": 14.4508,
-      "eval_samples_per_second": 18.546,
-      "eval_steps_per_second": 1.246,
-      "step": 265658
     },
     {
-      "epoch": 19.01,
-      "learning_rate": 5.4951604443808705e-06,
-      "loss": 0.0002,
-      "step": 265810
     },
     {
-      "epoch": 19.11,
-      "learning_rate": 4.9392870198191324e-06,
-      "loss": 0.0002,
-      "step": 267209
     },
     {
-      "epoch": 19.21,
-      "learning_rate": 4.383413595257395e-06,
-      "loss": 0.0003,
-      "step": 268608
     },
     {
-      "epoch": 19.31,
-      "learning_rate": 3.827540170695656e-06,
-      "loss": 0.0003,
-      "step": 270007
     },
     {
-      "epoch": 19.41,
-      "learning_rate": 3.2716667461339183e-06,
-      "loss": 0.0003,
-      "step": 271406
     },
     {
-      "epoch": 19.51,
-      "learning_rate": 2.71579332157218e-06,
-      "loss": 0.0003,
-      "step": 272805
     },
     {
-      "epoch": 19.61,
-      "learning_rate": 2.159919897010442e-06,
-      "loss": 0.0002,
-      "step": 274204
     },
     {
-      "epoch": 19.71,
-      "learning_rate": 1.604046472448704e-06,
-      "loss": 0.0003,
-      "step": 275603
     },
     {
-      "epoch": 19.81,
-      "learning_rate": 1.0481730478869658e-06,
-      "loss": 0.0003,
-      "step": 277002
     },
     {
-      "epoch": 19.91,
-      "learning_rate": 4.922996233252277e-07,
-      "loss": 0.0003,
-      "step": 278401
     },
     {
-      "epoch": 20.0,
-      "eval_loss": 0.017029350623488426,
-      "eval_max_distance": 3,
-      "eval_mean_distance": 0,
-      "eval_runtime": 14.4724,
-      "eval_samples_per_second": 18.518,
-      "eval_steps_per_second": 1.244,
-      "step": 279640
     },
     {
-      "epoch": 20.0,
-      "step": 279640,
-      "total_flos": 7.310805087246336e+16,
-      "train_loss": 0.00039881850996483783,
-      "train_runtime": 20247.2262,
-      "train_samples_per_second": 207.164,
-      "train_steps_per_second": 13.811
     }
   ],
-  "logging_steps": 1399,
-  "max_steps": 279640,
-  "num_train_epochs": 20,
-  "save_steps": 2797,
-  "total_flos": 7.310805087246336e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.0005441381363198161,
+  "best_model_checkpoint": "text-normalization-ru-new\\checkpoint-884",
+  "epoch": 25.0,
   "eval_steps": 500,
+  "global_step": 1700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.01,
+      "learning_rate": 5.882352941176471e-07,
+      "loss": 0.0269,
       "step": 1
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 5.294117647058824e-06,
+      "loss": 0.032,
+      "step": 9
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 1.0588235294117648e-05,
+      "loss": 0.0142,
+      "step": 18
     },
     {
       "epoch": 0.4,
+      "learning_rate": 1.588235294117647e-05,
+      "loss": 0.003,
+      "step": 27
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 2.1176470588235296e-05,
+      "loss": 0.0185,
+      "step": 36
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 2.647058823529412e-05,
+      "loss": 0.0431,
+      "step": 45
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 3.176470588235294e-05,
+      "loss": 0.0182,
+      "step": 54
     },
     {
+      "epoch": 0.93,
+      "learning_rate": 3.705882352941177e-05,
+      "loss": 0.0368,
+      "step": 63
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.061875343322753906,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 1.7967,
+      "eval_samples_per_second": 42.855,
+      "eval_steps_per_second": 1.67,
+      "step": 68
     },
     {
+      "epoch": 1.06,
+      "learning_rate": 4.235294117647059e-05,
+      "loss": 0.0151,
+      "step": 72
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 4.7647058823529414e-05,
+      "loss": 0.0193,
+      "step": 81
     },
     {
+      "epoch": 1.32,
+      "learning_rate": 5.294117647058824e-05,
+      "loss": 0.0076,
+      "step": 90
     },
     {
+      "epoch": 1.46,
+      "learning_rate": 5.823529411764707e-05,
+      "loss": 0.0061,
+      "step": 99
     },
     {
+      "epoch": 1.59,
+      "learning_rate": 6.352941176470588e-05,
+      "loss": 0.0111,
+      "step": 108
     },
     {
+      "epoch": 1.72,
+      "learning_rate": 6.882352941176471e-05,
+      "loss": 0.0314,
+      "step": 117
     },
     {
+      "epoch": 1.85,
+      "learning_rate": 7.411764705882354e-05,
+      "loss": 0.0253,
+      "step": 126
     },
     {
+      "epoch": 1.99,
+      "learning_rate": 7.941176470588235e-05,
+      "loss": 0.0057,
+      "step": 135
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.034646954387426376,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 1.8378,
+      "eval_samples_per_second": 41.898,
+      "eval_steps_per_second": 1.632,
+      "step": 136
     },
     {
+      "epoch": 2.12,
+      "learning_rate": 8.470588235294118e-05,
+      "loss": 0.0184,
+      "step": 144
     },
     {
+      "epoch": 2.25,
+      "learning_rate": 9e-05,
+      "loss": 0.0062,
+      "step": 153
     },
     {
+      "epoch": 2.38,
+      "learning_rate": 9.529411764705883e-05,
+      "loss": 0.0055,
+      "step": 162
     },
     {
+      "epoch": 2.51,
+      "learning_rate": 9.993464052287582e-05,
+      "loss": 0.0144,
+      "step": 171
     },
     {
+      "epoch": 2.65,
+      "learning_rate": 9.934640522875818e-05,
       "loss": 0.0006,
+      "step": 180
     },
     {
+      "epoch": 2.78,
+      "learning_rate": 9.875816993464053e-05,
+      "loss": 0.0101,
+      "step": 189
     },
     {
+      "epoch": 2.91,
+      "learning_rate": 9.816993464052288e-05,
+      "loss": 0.0113,
+      "step": 198
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.025189895182847977,
+      "eval_max_distance": 4,
       "eval_mean_distance": 0,
+      "eval_runtime": 1.7969,
+      "eval_samples_per_second": 42.851,
+      "eval_steps_per_second": 1.67,
+      "step": 204
     },
     {
+      "epoch": 3.04,
+      "learning_rate": 9.758169934640524e-05,
+      "loss": 0.0007,
+      "step": 207
     },
     {
+      "epoch": 3.18,
+      "learning_rate": 9.699346405228759e-05,
+      "loss": 0.0026,
+      "step": 216
     },
     {
+      "epoch": 3.31,
+      "learning_rate": 9.640522875816994e-05,
+      "loss": 0.0023,
+      "step": 225
     },
     {
+      "epoch": 3.44,
+      "learning_rate": 9.58169934640523e-05,
+      "loss": 0.0012,
+      "step": 234
     },
     {
+      "epoch": 3.57,
+      "learning_rate": 9.522875816993463e-05,
+      "loss": 0.0029,
+      "step": 243
     },
     {
+      "epoch": 3.71,
+      "learning_rate": 9.4640522875817e-05,
+      "loss": 0.0028,
+      "step": 252
     },
     {
+      "epoch": 3.84,
+      "learning_rate": 9.405228758169935e-05,
+      "loss": 0.0049,
+      "step": 261
     },
     {
+      "epoch": 3.97,
+      "learning_rate": 9.34640522875817e-05,
+      "loss": 0.0244,
+      "step": 270
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.011130807921290398,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 1.9031,
+      "eval_samples_per_second": 40.459,
+      "eval_steps_per_second": 1.576,
+      "step": 272
     },
     {
       "epoch": 4.1,
+      "learning_rate": 9.287581699346406e-05,
+      "loss": 0.0163,
+      "step": 279
     },
     {
+      "epoch": 4.24,
+      "learning_rate": 9.228758169934641e-05,
+      "loss": 0.0035,
+      "step": 288
     },
     {
+      "epoch": 4.37,
+      "learning_rate": 9.169934640522877e-05,
+      "loss": 0.0011,
+      "step": 297
     },
     {
       "epoch": 4.5,
+      "learning_rate": 9.111111111111112e-05,
+      "loss": 0.0127,
+      "step": 306
     },
     {
+      "epoch": 4.63,
+      "learning_rate": 9.052287581699347e-05,
+      "loss": 0.0017,
+      "step": 315
     },
     {
+      "epoch": 4.76,
+      "learning_rate": 8.993464052287582e-05,
+      "loss": 0.0018,
+      "step": 324
     },
     {
       "epoch": 4.9,
+      "learning_rate": 8.934640522875818e-05,
+      "loss": 0.001,
+      "step": 333
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.006467848084867001,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 1.7867,
+      "eval_samples_per_second": 43.096,
+      "eval_steps_per_second": 1.679,
+      "step": 340
     },
     {
+      "epoch": 5.03,
+      "learning_rate": 8.875816993464052e-05,
+      "loss": 0.0136,
+      "step": 342
     },
     {
+      "epoch": 5.16,
+      "learning_rate": 8.816993464052288e-05,
+      "loss": 0.0054,
+      "step": 351
     },
     {
+      "epoch": 5.29,
+      "learning_rate": 8.758169934640524e-05,
+      "loss": 0.0016,
+      "step": 360
     },
     {
+      "epoch": 5.43,
+      "learning_rate": 8.699346405228759e-05,
+      "loss": 0.0093,
+      "step": 369
     },
     {
+      "epoch": 5.56,
+      "learning_rate": 8.640522875816994e-05,
+      "loss": 0.0058,
+      "step": 378
     },
     {
+      "epoch": 5.69,
+      "learning_rate": 8.581699346405228e-05,
+      "loss": 0.0016,
+      "step": 387
     },
     {
+      "epoch": 5.82,
+      "learning_rate": 8.522875816993465e-05,
+      "loss": 0.0007,
+      "step": 396
     },
     {
+      "epoch": 5.96,
+      "learning_rate": 8.4640522875817e-05,
+      "loss": 0.0021,
+      "step": 405
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.0050986092537641525,
+      "eval_max_distance": 5,
       "eval_mean_distance": 0,
+      "eval_runtime": 1.8684,
+      "eval_samples_per_second": 41.212,
+      "eval_steps_per_second": 1.606,
+      "step": 408
     },
     {
+      "epoch": 6.09,
+      "learning_rate": 8.405228758169935e-05,
+      "loss": 0.0008,
+      "step": 414
     },
     {
+      "epoch": 6.22,
+      "learning_rate": 8.346405228758171e-05,
+      "loss": 0.0022,
+      "step": 423
     },
     {
+      "epoch": 6.35,
+      "learning_rate": 8.287581699346406e-05,
+      "loss": 0.0071,
+      "step": 432
+    },
+    {
+      "epoch": 6.49,
+      "learning_rate": 8.22875816993464e-05,
+      "loss": 0.004,
+      "step": 441
     },
     {
+      "epoch": 6.62,
+      "learning_rate": 8.169934640522877e-05,
       "loss": 0.0004,
+      "step": 450
     },
     {
+      "epoch": 6.75,
+      "learning_rate": 8.111111111111112e-05,
+      "loss": 0.0051,
+      "step": 459
     },
     {
+      "epoch": 6.88,
+      "learning_rate": 8.052287581699347e-05,
+      "loss": 0.0008,
+      "step": 468
     },
     {
+      "epoch": 7.0,
+      "eval_loss": 0.007741495501250029,
+      "eval_max_distance": 3,
+      "eval_mean_distance": 0,
+      "eval_runtime": 1.8063,
+      "eval_samples_per_second": 42.629,
+      "eval_steps_per_second": 1.661,
+      "step": 476
     },
     {
+      "epoch": 7.01,
+      "learning_rate": 7.993464052287583e-05,
+      "loss": 0.0071,
+      "step": 477
     },
     {
+      "epoch": 7.15,
+      "learning_rate": 7.934640522875816e-05,
+      "loss": 0.004,
+      "step": 486
     },
     {
+      "epoch": 7.28,
+      "learning_rate": 7.875816993464053e-05,
+      "loss": 0.0014,
+      "step": 495
     },
     {
+      "epoch": 7.41,
+      "learning_rate": 7.816993464052288e-05,
+      "loss": 0.003,
+      "step": 504
     },
     {
+      "epoch": 7.54,
+      "learning_rate": 7.758169934640524e-05,
+      "loss": 0.0008,
+      "step": 513
     },
     {
+      "epoch": 7.68,
+      "learning_rate": 7.699346405228759e-05,
+      "loss": 0.001,
+      "step": 522
     },
     {
+      "epoch": 7.81,
+      "learning_rate": 7.640522875816993e-05,
+      "loss": 0.0016,
+      "step": 531
     },
     {
+      "epoch": 7.94,
+      "learning_rate": 7.581699346405228e-05,
+      "loss": 0.0008,
+      "step": 540
     },
     {
+      "epoch": 8.0,
+      "eval_loss": 0.004006722941994667,
+      "eval_max_distance": 3,
+      "eval_mean_distance": 0,
+      "eval_runtime": 1.7939,
+      "eval_samples_per_second": 42.923,
+      "eval_steps_per_second": 1.672,
+      "step": 544
     },
     {
+      "epoch": 8.07,
+      "learning_rate": 7.522875816993465e-05,
+      "loss": 0.0008,
+      "step": 549
     },
     {
+      "epoch": 8.21,
+      "learning_rate": 7.4640522875817e-05,
+      "loss": 0.0015,
+      "step": 558
     },
     {
+      "epoch": 8.34,
+      "learning_rate": 7.405228758169935e-05,
+      "loss": 0.0018,
+      "step": 567
     },
     {
+      "epoch": 8.47,
+      "learning_rate": 7.346405228758171e-05,
+      "loss": 0.0015,
+      "step": 576
     },
     {
+      "epoch": 8.6,
+      "learning_rate": 7.287581699346405e-05,
+      "loss": 0.0028,
+      "step": 585
     },
     {
+      "epoch": 8.74,
+      "learning_rate": 7.228758169934641e-05,
+      "loss": 0.0017,
+      "step": 594
     },
     {
+      "epoch": 8.87,
+      "learning_rate": 7.169934640522877e-05,
+      "loss": 0.001,
+      "step": 603
     },
     {
+      "epoch": 9.0,
+      "learning_rate": 7.111111111111112e-05,
+      "loss": 0.0025,
+      "step": 612
     },
     {
+      "epoch": 9.0,
+      "eval_loss": 0.002946252468973398,
+      "eval_max_distance": 2,
+      "eval_mean_distance": 0,
+      "eval_runtime": 1.778,
+      "eval_samples_per_second": 43.306,
+      "eval_steps_per_second": 1.687,
+      "step": 612
     },
     {
+      "epoch": 9.13,
+      "learning_rate": 7.052287581699347e-05,
+      "loss": 0.0008,
+      "step": 621
     },
     {
+      "epoch": 9.26,
+      "learning_rate": 6.993464052287581e-05,
+      "loss": 0.0014,
+      "step": 630
     },
     {
+      "epoch": 9.4,
+      "learning_rate": 6.934640522875817e-05,
+      "loss": 0.0036,
+      "step": 639
     },
     {
+      "epoch": 9.53,
+      "learning_rate": 6.875816993464053e-05,
+      "loss": 0.0022,
+      "step": 648
     },
     {
+      "epoch": 9.66,
+      "learning_rate": 6.816993464052288e-05,
+      "loss": 0.0006,
+      "step": 657
     },
     {
+      "epoch": 9.79,
+      "learning_rate": 6.758169934640524e-05,
+      "loss": 0.0034,
+      "step": 666
     },
     {
+      "epoch": 9.93,
+      "learning_rate": 6.699346405228758e-05,
+      "loss": 0.0012,
+      "step": 675
     },
     {
+      "epoch": 10.0,
+      "eval_loss": 0.00195131148211658,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 1.7911,
+      "eval_samples_per_second": 42.99,
+      "eval_steps_per_second": 1.675,
+      "step": 680
     },
     {
+      "epoch": 10.06,
+      "learning_rate": 6.640522875816993e-05,
+      "loss": 0.0003,
+      "step": 684
     },
     {
+      "epoch": 10.19,
+      "learning_rate": 6.581699346405228e-05,
+      "loss": 0.0014,
+      "step": 693
     },
     {
+      "epoch": 10.32,
+      "learning_rate": 6.522875816993465e-05,
+      "loss": 0.0013,
+      "step": 702
     },
     {
+      "epoch": 10.46,
+      "learning_rate": 6.4640522875817e-05,
+      "loss": 0.0021,
+      "step": 711
     },
     {
+      "epoch": 10.59,
+      "learning_rate": 6.405228758169934e-05,
+      "loss": 0.0035,
+      "step": 720
     },
     {
+      "epoch": 10.72,
+      "learning_rate": 6.34640522875817e-05,
+      "loss": 0.0011,
+      "step": 729
     },
     {
+      "epoch": 10.85,
+      "learning_rate": 6.287581699346405e-05,
+      "loss": 0.0005,
+      "step": 738
     },
     {
+      "epoch": 10.99,
+      "learning_rate": 6.228758169934641e-05,
+      "loss": 0.0012,
+      "step": 747
     },
     {
+      "epoch": 11.0,
+      "eval_loss": 0.0009844042360782623,
+      "eval_max_distance": 3,
+      "eval_mean_distance": 0,
+      "eval_runtime": 1.7912,
+      "eval_samples_per_second": 42.989,
+      "eval_steps_per_second": 1.675,
+      "step": 748
     },
     {
+      "epoch": 11.12,
+      "learning_rate": 6.169934640522877e-05,
+      "loss": 0.0068,
+      "step": 756
     },
     {
+      "epoch": 11.25,
+      "learning_rate": 6.111111111111112e-05,
+      "loss": 0.001,
+      "step": 765
     },
     {
+      "epoch": 11.38,
+      "learning_rate": 6.052287581699346e-05,
+      "loss": 0.0009,
+      "step": 774
     },
     {
+      "epoch": 11.51,
+      "learning_rate": 5.993464052287582e-05,
+      "loss": 0.0002,
+      "step": 783
     },
     {
+      "epoch": 11.65,
+      "learning_rate": 5.934640522875817e-05,
+      "loss": 0.0014,
+      "step": 792
     },
     {
+      "epoch": 11.78,
+      "learning_rate": 5.8758169934640526e-05,
+      "loss": 0.0028,
+      "step": 801
     },
     {
+      "epoch": 11.91,
+      "learning_rate": 5.8169934640522886e-05,
+      "loss": 0.0006,
+      "step": 810
     },
     {
+      "epoch": 12.0,
+      "eval_loss": 0.0007958057103678584,
+      "eval_max_distance": 0,
+      "eval_mean_distance": 0,
+      "eval_runtime": 1.8244,
+      "eval_samples_per_second": 42.205,
+      "eval_steps_per_second": 1.644,
+      "step": 816
     },
     {
+      "epoch": 12.04,
+      "learning_rate": 5.7581699346405225e-05,
+      "loss": 0.0028,
+      "step": 819
     },
     {
+      "epoch": 12.18,
+      "learning_rate": 5.6993464052287585e-05,
+      "loss": 0.0015,
+      "step": 828
     },
     {
+      "epoch": 12.31,
+      "learning_rate": 5.640522875816994e-05,
+      "loss": 0.0009,
+      "step": 837
     },
     {
+      "epoch": 12.44,
+      "learning_rate": 5.581699346405229e-05,
+      "loss": 0.0018,
+      "step": 846
     },
     {
+      "epoch": 12.57,
+      "learning_rate": 5.5228758169934644e-05,
+      "loss": 0.0008,
+      "step": 855
     },
     {
+      "epoch": 12.71,
+      "learning_rate": 5.464052287581699e-05,
       "loss": 0.0004,
+      "step": 864
     },
     {
+      "epoch": 12.84,
+      "learning_rate": 5.405228758169934e-05,
+      "loss": 0.002,
+      "step": 873
     },
     {
+      "epoch": 12.97,
+      "learning_rate": 5.34640522875817e-05,
+      "loss": 0.0012,
+      "step": 882
     },
     {
+      "epoch": 13.0,
+      "eval_loss": 0.0005441381363198161,
+      "eval_max_distance": 0,
+      "eval_mean_distance": 0,
+      "eval_runtime": 1.7816,
+      "eval_samples_per_second": 43.219,
+      "eval_steps_per_second": 1.684,
+      "step": 884
     },
     {
+      "epoch": 13.1,
+      "learning_rate": 5.2875816993464056e-05,
+      "loss": 0.0013,
+      "step": 891
     },
     {
+      "epoch": 13.24,
+      "learning_rate": 5.228758169934641e-05,
       "loss": 0.0004,
+      "step": 900
     },
     {
+      "epoch": 13.37,
+      "learning_rate": 5.169934640522877e-05,
+      "loss": 0.0008,
+      "step": 909
     },
     {
+      "epoch": 13.5,
+      "learning_rate": 5.111111111111111e-05,
+      "loss": 0.0018,
+      "step": 918
     },
     {
+      "epoch": 13.63,
+      "learning_rate": 5.052287581699347e-05,
+      "loss": 0.0026,
+      "step": 927
     },
     {
+      "epoch": 13.76,
+      "learning_rate": 4.993464052287582e-05,
+      "loss": 0.0025,
+      "step": 936
     },
     {
+      "epoch": 13.9,
+      "learning_rate": 4.9346405228758174e-05,
+      "loss": 0.001,
+      "step": 945
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.0007363850018009543,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 1.7798,
+      "eval_samples_per_second": 43.263,
+      "eval_steps_per_second": 1.686,
+      "step": 952
     },
     {
+      "epoch": 14.03,
+      "learning_rate": 4.875816993464053e-05,
+      "loss": 0.0012,
+      "step": 954
     },
     {
+      "epoch": 14.16,
+      "learning_rate": 4.816993464052288e-05,
+      "loss": 0.0006,
+      "step": 963
     },
     {
+      "epoch": 14.29,
+      "learning_rate": 4.7581699346405226e-05,
+      "loss": 0.0022,
+      "step": 972
     },
     {
+      "epoch": 14.43,
+      "learning_rate": 4.6993464052287586e-05,
+      "loss": 0.001,
+      "step": 981
     },
     {
+      "epoch": 14.56,
+      "learning_rate": 4.640522875816994e-05,
+      "loss": 0.0015,
+      "step": 990
     },
     {
+      "epoch": 14.69,
+      "learning_rate": 4.5816993464052285e-05,
+      "loss": 0.0015,
+      "step": 999
     },
     {
+      "epoch": 14.82,
+      "learning_rate": 4.5228758169934645e-05,
+      "loss": 0.0013,
+      "step": 1008
     },
     {
+      "epoch": 14.96,
+      "learning_rate": 4.4640522875817e-05,
+      "loss": 0.0009,
+      "step": 1017
     },
     {
+      "epoch": 15.0,
+      "eval_loss": 0.0013804116751998663,
+      "eval_max_distance": 3,
+      "eval_mean_distance": 0,
+      "eval_runtime": 1.7896,
+      "eval_samples_per_second": 43.027,
+      "eval_steps_per_second": 1.676,
+      "step": 1020
     },
     {
+      "epoch": 15.09,
+      "learning_rate": 4.405228758169935e-05,
+      "loss": 0.0013,
+      "step": 1026
     },
     {
+      "epoch": 15.22,
+      "learning_rate": 4.3464052287581704e-05,
+      "loss": 0.0011,
+      "step": 1035
     },
     {
+      "epoch": 15.35,
+      "learning_rate": 4.287581699346405e-05,
+      "loss": 0.0024,
+      "step": 1044
     },
     {
+      "epoch": 15.49,
+      "learning_rate": 4.228758169934641e-05,
+      "loss": 0.0006,
+      "step": 1053
     },
     {
+      "epoch": 15.62,
+      "learning_rate": 4.169934640522876e-05,
+      "loss": 0.0013,
+      "step": 1062
     },
     {
+      "epoch": 15.75,
+      "learning_rate": 4.111111111111111e-05,
+      "loss": 0.0012,
+      "step": 1071
     },
     {
+      "epoch": 15.88,
+      "learning_rate": 4.052287581699347e-05,
+      "loss": 0.0005,
+      "step": 1080
     },
     {
+      "epoch": 16.0,
+      "eval_loss": 0.0015163180651143193,
+      "eval_max_distance": 3,
+      "eval_mean_distance": 0,
+      "eval_runtime": 1.7783,
+      "eval_samples_per_second": 43.3,
+      "eval_steps_per_second": 1.687,
+      "step": 1088
     },
     {
+      "epoch": 16.01,
+      "learning_rate": 3.993464052287582e-05,
+      "loss": 0.0012,
+      "step": 1089
     },
     {
+      "epoch": 16.15,
+      "learning_rate": 3.934640522875817e-05,
+      "loss": 0.0006,
+      "step": 1098
     },
     {
+      "epoch": 16.28,
+      "learning_rate": 3.875816993464053e-05,
+      "loss": 0.0018,
+      "step": 1107
     },
     {
+      "epoch": 16.41,
+      "learning_rate": 3.8169934640522874e-05,
+      "loss": 0.0008,
+      "step": 1116
     },
     {
+      "epoch": 16.54,
+      "learning_rate": 3.758169934640523e-05,
+      "loss": 0.0006,
+      "step": 1125
     },
     {
+      "epoch": 16.68,
+      "learning_rate": 3.699346405228759e-05,
+      "loss": 0.0007,
+      "step": 1134
     },
     {
+      "epoch": 16.81,
+      "learning_rate": 3.640522875816993e-05,
+      "loss": 0.0013,
+      "step": 1143
     },
     {
+      "epoch": 16.94,
+      "learning_rate": 3.581699346405229e-05,
+      "loss": 0.0009,
+      "step": 1152
     },
     {
+      "epoch": 17.0,
+      "eval_loss": 0.0014126226305961609,
+      "eval_max_distance": 3,
+      "eval_mean_distance": 0,
+      "eval_runtime": 1.7701,
+      "eval_samples_per_second": 43.501,
+      "eval_steps_per_second": 1.695,
+      "step": 1156
     },
     {
+      "epoch": 17.07,
+      "learning_rate": 3.5228758169934646e-05,
+      "loss": 0.0016,
+      "step": 1161
     },
     {
+      "epoch": 17.21,
+      "learning_rate": 3.464052287581699e-05,
+      "loss": 0.0008,
+      "step": 1170
     },
     {
+      "epoch": 17.34,
+      "learning_rate": 3.405228758169935e-05,
+      "loss": 0.001,
+      "step": 1179
     },
     {
+      "epoch": 17.47,
+      "learning_rate": 3.34640522875817e-05,
+      "loss": 0.0006,
+      "step": 1188
     },
     {
+      "epoch": 17.6,
+      "learning_rate": 3.287581699346405e-05,
+      "loss": 0.0025,
+      "step": 1197
     },
     {
+      "epoch": 17.74,
+      "learning_rate": 3.228758169934641e-05,
+      "loss": 0.0011,
+      "step": 1206
     },
     {
+      "epoch": 17.87,
+      "learning_rate": 3.169934640522876e-05,
+      "loss": 0.0008,
+      "step": 1215
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 3.111111111111111e-05,
+      "loss": 0.0006,
+      "step": 1224
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 0.0012967990478500724,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 1.7808,
+      "eval_samples_per_second": 43.238,
+      "eval_steps_per_second": 1.685,
+      "step": 1224
     },
     {
+      "epoch": 18.13,
+      "learning_rate": 3.052287581699347e-05,
+      "loss": 0.0011,
+      "step": 1233
     },
     {
+      "epoch": 18.26,
+      "learning_rate": 2.9934640522875816e-05,
+      "loss": 0.0009,
+      "step": 1242
     },
     {
+      "epoch": 18.4,
+      "learning_rate": 2.9346405228758172e-05,
+      "loss": 0.0009,
+      "step": 1251
     },
     {
+      "epoch": 18.53,
+      "learning_rate": 2.8758169934640522e-05,
+      "loss": 0.0008,
+      "step": 1260
     },
     {
+      "epoch": 18.66,
+      "learning_rate": 2.8169934640522878e-05,
+      "loss": 0.0005,
+      "step": 1269
     },
     {
+      "epoch": 18.79,
+      "learning_rate": 2.758169934640523e-05,
+      "loss": 0.001,
+      "step": 1278
     },
     {
+      "epoch": 18.93,
+      "learning_rate": 2.699346405228758e-05,
+      "loss": 0.0012,
+      "step": 1287
     },
     {
+      "epoch": 19.0,
+      "eval_loss": 0.001441239845007658,
+      "eval_max_distance": 3,
+      "eval_mean_distance": 0,
+      "eval_runtime": 1.824,
+      "eval_samples_per_second": 42.215,
+      "eval_steps_per_second": 1.645,
+      "step": 1292
     },
     {
+      "epoch": 19.06,
+      "learning_rate": 2.6405228758169937e-05,
+      "loss": 0.0008,
+      "step": 1296
     },
     {
+      "epoch": 19.19,
+      "learning_rate": 2.581699346405229e-05,
+      "loss": 0.0009,
+      "step": 1305
     },
     {
+      "epoch": 19.32,
+      "learning_rate": 2.522875816993464e-05,
+      "loss": 0.0009,
+      "step": 1314
     },
     {
+      "epoch": 19.46,
+      "learning_rate": 2.4640522875816996e-05,
+      "loss": 0.0002,
+      "step": 1323
     },
     {
+      "epoch": 19.59,
+      "learning_rate": 2.405228758169935e-05,
+      "loss": 0.0006,
+      "step": 1332
     },
     {
+      "epoch": 19.72,
+      "learning_rate": 2.34640522875817e-05,
+      "loss": 0.0004,
+      "step": 1341
     },
     {
+      "epoch": 19.85,
+      "learning_rate": 2.2875816993464052e-05,
+      "loss": 0.0006,
+      "step": 1350
     },
     {
+      "epoch": 19.99,
+      "learning_rate": 2.2287581699346408e-05,
+      "loss": 0.0007,
+      "step": 1359
     },
     {
+      "epoch": 20.0,
+      "eval_loss": 0.0013804284390062094,
+      "eval_max_distance": 3,
+      "eval_mean_distance": 0,
+      "eval_runtime": 1.9155,
+      "eval_samples_per_second": 40.198,
+      "eval_steps_per_second": 1.566,
+      "step": 1360
     },
     {
+      "epoch": 20.12,
+      "learning_rate": 2.169934640522876e-05,
+      "loss": 0.0013,
+      "step": 1368
     },
     {
+      "epoch": 20.25,
+      "learning_rate": 2.111111111111111e-05,
+      "loss": 0.0014,
+      "step": 1377
     },
     {
+      "epoch": 20.38,
+      "learning_rate": 2.0522875816993464e-05,
+      "loss": 0.0001,
+      "step": 1386
     },
     {
+      "epoch": 20.51,
+      "learning_rate": 1.993464052287582e-05,
+      "loss": 0.0015,
+      "step": 1395
     },
     {
+      "epoch": 20.65,
+      "learning_rate": 1.9346405228758173e-05,
+      "loss": 0.0008,
+      "step": 1404
     },
     {
+      "epoch": 20.78,
+      "learning_rate": 1.8758169934640523e-05,
+      "loss": 0.0006,
+      "step": 1413
     },
     {
+      "epoch": 20.91,
+      "learning_rate": 1.8169934640522876e-05,
+      "loss": 0.0012,
+      "step": 1422
     },
     {
+      "epoch": 21.0,
+      "eval_loss": 0.0013173692859709263,
+      "eval_max_distance": 3,
+      "eval_mean_distance": 0,
+      "eval_runtime": 1.8242,
+      "eval_samples_per_second": 42.21,
+      "eval_steps_per_second": 1.645,
+      "step": 1428
     },
     {
+      "epoch": 21.04,
+      "learning_rate": 1.7581699346405232e-05,
+      "loss": 0.0027,
+      "step": 1431
     },
     {
+      "epoch": 21.18,
+      "learning_rate": 1.6993464052287582e-05,
+      "loss": 0.0008,
+      "step": 1440
     },
     {
+      "epoch": 21.31,
+      "learning_rate": 1.6405228758169935e-05,
+      "loss": 0.0006,
+      "step": 1449
     },
     {
+      "epoch": 21.44,
+      "learning_rate": 1.5816993464052288e-05,
+      "loss": 0.0002,
+      "step": 1458
     },
     {
+      "epoch": 21.57,
+      "learning_rate": 1.522875816993464e-05,
+      "loss": 0.001,
+      "step": 1467
     },
     {
+      "epoch": 21.71,
+      "learning_rate": 1.4640522875816995e-05,
+      "loss": 0.0012,
+      "step": 1476
     },
     {
+      "epoch": 21.84,
+      "learning_rate": 1.4052287581699347e-05,
+      "loss": 0.0008,
+      "step": 1485
     },
     {
+      "epoch": 21.97,
+      "learning_rate": 1.34640522875817e-05,
+      "loss": 0.0013,
+      "step": 1494
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 0.001370716723613441,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 1.8261,
+      "eval_samples_per_second": 42.166,
+      "eval_steps_per_second": 1.643,
+      "step": 1496
     },
     {
+      "epoch": 22.1,
+      "learning_rate": 1.2875816993464051e-05,
+      "loss": 0.0004,
+      "step": 1503
     },
     {
+      "epoch": 22.24,
+      "learning_rate": 1.2287581699346406e-05,
+      "loss": 0.001,
+      "step": 1512
     },
     {
+      "epoch": 22.37,
+      "learning_rate": 1.1699346405228759e-05,
+      "loss": 0.0008,
+      "step": 1521
     },
     {
+      "epoch": 22.5,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.0013,
+      "step": 1530
     },
     {
+      "epoch": 22.63,
+      "learning_rate": 1.0522875816993465e-05,
+      "loss": 0.0007,
+      "step": 1539
     },
     {
+      "epoch": 22.76,
+      "learning_rate": 9.934640522875818e-06,
+      "loss": 0.0013,
+      "step": 1548
     },
     {
+      "epoch": 22.9,
+      "learning_rate": 9.34640522875817e-06,
+      "loss": 0.0008,
+      "step": 1557
     },
     {
+      "epoch": 23.0,
+      "eval_loss": 0.001398879336193204,
+      "eval_max_distance": 3,
+      "eval_mean_distance": 0,
+      "eval_runtime": 1.8234,
+      "eval_samples_per_second": 42.23,
+      "eval_steps_per_second": 1.645,
+      "step": 1564
     },
     {
+      "epoch": 23.03,
+      "learning_rate": 8.758169934640522e-06,
+      "loss": 0.0025,
+      "step": 1566
     },
     {
+      "epoch": 23.16,
+      "learning_rate": 8.169934640522877e-06,
       "loss": 0.0003,
+      "step": 1575
     },
     {
+      "epoch": 23.29,
+      "learning_rate": 7.581699346405229e-06,
+      "loss": 0.0009,
+      "step": 1584
     },
     {
+      "epoch": 23.43,
+      "learning_rate": 6.993464052287582e-06,
+      "loss": 0.0011,
+      "step": 1593
     },
     {
+      "epoch": 23.56,
+      "learning_rate": 6.405228758169935e-06,
+      "loss": 0.0026,
+      "step": 1602
     },
     {
+      "epoch": 23.69,
+      "learning_rate": 5.816993464052288e-06,
+      "loss": 0.0013,
+      "step": 1611
     },
     {
+      "epoch": 23.82,
+      "learning_rate": 5.228758169934641e-06,
+      "loss": 0.0012,
+      "step": 1620
     },
     {
+      "epoch": 23.96,
+      "learning_rate": 4.640522875816994e-06,
+      "loss": 0.0005,
+      "step": 1629
     },
     {
+      "epoch": 24.0,
+      "eval_loss": 0.0014485500287264585,
+      "eval_max_distance": 3,
+      "eval_mean_distance": 0,
+      "eval_runtime": 1.8281,
+      "eval_samples_per_second": 42.12,
+      "eval_steps_per_second": 1.641,
+      "step": 1632
     },
     {
+      "epoch": 24.09,
+      "learning_rate": 4.052287581699347e-06,
+      "loss": 0.0015,
+      "step": 1638
     },
     {
+      "epoch": 24.22,
+      "learning_rate": 3.4640522875816997e-06,
+      "loss": 0.0013,
+      "step": 1647
     },
     {
+      "epoch": 24.35,
+      "learning_rate": 2.8758169934640523e-06,
+      "loss": 0.0019,
+      "step": 1656
     },
     {
+      "epoch": 24.49,
+      "learning_rate": 2.2875816993464053e-06,
+      "loss": 0.0005,
+      "step": 1665
     },
     {
+      "epoch": 24.62,
+      "learning_rate": 1.699346405228758e-06,
+      "loss": 0.0012,
+      "step": 1674
     },
     {
+      "epoch": 24.75,
+      "learning_rate": 1.1111111111111112e-06,
+      "loss": 0.001,
+      "step": 1683
+    },
+    {
+      "epoch": 24.88,
+      "learning_rate": 5.22875816993464e-07,
+      "loss": 0.001,
+      "step": 1692
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.0014130847994238138,
+      "eval_max_distance": 3,
+      "eval_mean_distance": 0,
+      "eval_runtime": 1.9218,
+      "eval_samples_per_second": 40.066,
+      "eval_steps_per_second": 1.561,
+      "step": 1700
+    },
+    {
+      "epoch": 25.0,
+      "step": 1700,
+      "total_flos": 456120480651264.0,
+      "train_loss": 0.003576931923401871,
+      "train_runtime": 194.6035,
+      "train_samples_per_second": 259.373,
+      "train_steps_per_second": 8.736
     }
   ],
+  "logging_steps": 9,
+  "max_steps": 1700,
+  "num_train_epochs": 25,
+  "save_steps": 17,
+  "total_flos": 456120480651264.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d8a3d0207b71233d440dfc4ea0e1be195fbf0ff77bc164bd8950b614fbebbd5
-size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3766c94731270598b629b2e54dbd149eec47873f81720b047d2a1d23148ad6e
+size 4155