alexue4
/

text-normalization-ru-new

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [alexue4/text-normalization-ru-new](https://huggingface.co/alexue4/text-normalization-ru-new) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0169
 - Mean Distance: 0
 - Max Distance: 1
@@ -47,28 +47,28 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step   | Validation Loss | Max Distance | Mean Distance |
-|:-------------:|:-----:|:------:|:---------------:|:------------:|:-------------:|
-| 0.001         | 1.0   | 13726  | 0.0114          | 5            | 0             |
-| 0.0009        | 2.0   | 27452  | 0.0143          | 3            | 0             |
-| 0.0008        | 3.0   | 41178  | 0.0145          | 3            | 0             |
-| 0.0009        | 4.0   | 54904  | 0.0098          | 1            | 0             |
-| 0.0007        | 5.0   | 68630  | 0.0130          | 2            | 0             |
-| 0.0008        | 6.0   | 82356  | 0.0153          | 2            | 0             |
-| 0.0007        | 7.0   | 96082  | 0.0128          | 2            | 0             |
-| 0.0006        | 8.0   | 109808 | 0.0130          | 3            | 0             |
-| 0.0006        | 9.0   | 123534 | 0.0158          | 5            | 0             |
-| 0.0006        | 10.0  | 137260 | 0.0151          | 1            | 0             |
-| 0.0005        | 11.0  | 150986 | 0.0167          | 1            | 0             |
-| 0.0005        | 12.0  | 164712 | 0.0145          | 1            | 0             |
-| 0.0005        | 13.0  | 178438 | 0.0160          | 1            | 0             |
-| 0.0005        | 14.0  | 192164 | 0.0157          | 1            | 0             |
-| 0.0004        | 15.0  | 205890 | 0.0157          | 1            | 0             |
-| 0.0004        | 16.0  | 219616 | 0.0173          | 1            | 0             |
-| 0.0004        | 17.0  | 233342 | 0.0159          | 1            | 0             |
-| 0.0004        | 18.0  | 247068 | 0.0168          | 2            | 0             |
-| 0.0004        | 19.0  | 260794 | 0.0168          | 0            | 1             |
-| 0.0004        | 20.0  | 274520 | 0.0169          | 0            | 1             |
 ### Framework versions

 This model is a fine-tuned version of [alexue4/text-normalization-ru-new](https://huggingface.co/alexue4/text-normalization-ru-new) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0152
 - Mean Distance: 0
 - Max Distance: 1
 ### Training results
+| Training Loss | Epoch | Step   | Validation Loss | Mean Distance | Max Distance |
+|:-------------:|:-----:|:------:|:---------------:|:-------------:|:------------:|
+| 0.0005        | 1.0   | 13747  | 0.0151          | 0             | 3            |
+| 0.0005        | 2.0   | 27494  | 0.0173          | 0             | 3            |
+| 0.0006        | 3.0   | 41241  | 0.0136          | 0             | 3            |
+| 0.0007        | 4.0   | 54988  | 0.0141          | 0             | 2            |
+| 0.0006        | 5.0   | 68735  | 0.0155          | 0             | 4            |
+| 0.0005        | 6.0   | 82482  | 0.0183          | 0             | 4            |
+| 0.0005        | 7.0   | 96229  | 0.0218          | 0             | 4            |
+| 0.0005        | 8.0   | 109976 | 0.0162          | 0             | 1            |
+| 0.0005        | 9.0   | 123723 | 0.0147          | 0             | 3            |
+| 0.0005        | 10.0  | 137470 | 0.0188          | 0             | 5            |
+| 0.0004        | 11.0  | 151217 | 0.0168          | 0             | 1            |
+| 0.0004        | 12.0  | 164964 | 0.0172          | 0             | 4            |
+| 0.0004        | 13.0  | 178711 | 0.0168          | 0             | 3            |
+| 0.0004        | 14.0  | 192458 | 0.0162          | 0             | 2            |
+| 0.0004        | 15.0  | 206205 | 0.0165          | 0             | 2            |
+| 0.0003        | 16.0  | 219952 | 0.0151          | 0             | 3            |
+| 0.0004        | 17.0  | 233699 | 0.0137          | 0             | 1            |
+| 0.0003        | 18.0  | 247446 | 0.0146          | 0             | 3            |
+| 0.0003        | 19.0  | 261193 | 0.0152          | 0             | 1            |
+| 0.0003        | 20.0  | 274940 | 0.0152          | 0             | 1            |
 ### Framework versions

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9727576aa431487c27ceb1092c700d9e76b20865987fbc3ac38d6006432aac18
 size 258643461

 version https://git-lfs.github.com/spec/v1
+oid sha256:a29ed1864021c806a6e456100ae3fbfee4fceac880782c5f20ef94edb2442cf9
 size 258643461

trainer_state.json CHANGED Viewed

@@ -3,1426 +3,1426 @@
   "best_model_checkpoint": null,
   "epoch": 20.0,
   "eval_steps": 500,
-  "global_step": 274520,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 3.6427218417601638e-09,
       "loss": 0.0,
       "step": 1
     },
     {
       "epoch": 0.1,
-      "learning_rate": 5.001457088736705e-06,
-      "loss": 0.0052,
-      "step": 1373
     },
     {
       "epoch": 0.2,
-      "learning_rate": 1.000291417747341e-05,
-      "loss": 0.0041,
-      "step": 2746
     },
     {
       "epoch": 0.3,
-      "learning_rate": 1.5004371266210113e-05,
-      "loss": 0.0025,
-      "step": 4119
     },
     {
       "epoch": 0.4,
-      "learning_rate": 2.000582835494682e-05,
-      "loss": 0.002,
-      "step": 5492
     },
     {
       "epoch": 0.5,
-      "learning_rate": 2.500728544368352e-05,
-      "loss": 0.0018,
-      "step": 6865
     },
     {
       "epoch": 0.6,
-      "learning_rate": 3.0008742532420226e-05,
-      "loss": 0.0014,
-      "step": 8238
     },
     {
       "epoch": 0.7,
-      "learning_rate": 3.501019962115693e-05,
-      "loss": 0.0015,
-      "step": 9611
     },
     {
       "epoch": 0.8,
-      "learning_rate": 4.001165670989364e-05,
-      "loss": 0.0012,
-      "step": 10984
     },
     {
       "epoch": 0.9,
-      "learning_rate": 4.501311379863034e-05,
-      "loss": 0.001,
-      "step": 12357
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.011379459872841835,
-      "eval_max_distance": 5,
       "eval_mean_distance": 0,
-      "eval_runtime": 13.5607,
-      "eval_samples_per_second": 19.763,
-      "eval_steps_per_second": 1.327,
-      "step": 13726
     },
     {
       "epoch": 1.0,
-      "learning_rate": 5.001457088736704e-05,
-      "loss": 0.0009,
-      "step": 13730
     },
     {
       "epoch": 1.1,
-      "learning_rate": 5.501602797610374e-05,
-      "loss": 0.0008,
-      "step": 15103
     },
     {
       "epoch": 1.2,
-      "learning_rate": 6.001748506484045e-05,
-      "loss": 0.0009,
-      "step": 16476
     },
     {
       "epoch": 1.3,
-      "learning_rate": 6.501894215357715e-05,
-      "loss": 0.0008,
-      "step": 17849
     },
     {
       "epoch": 1.4,
-      "learning_rate": 7.002039924231386e-05,
-      "loss": 0.0007,
-      "step": 19222
     },
     {
       "epoch": 1.5,
-      "learning_rate": 7.502185633105057e-05,
-      "loss": 0.0008,
-      "step": 20595
     },
     {
       "epoch": 1.6,
-      "learning_rate": 8.002331341978728e-05,
-      "loss": 0.0008,
-      "step": 21968
     },
     {
       "epoch": 1.7,
-      "learning_rate": 8.502477050852397e-05,
-      "loss": 0.0009,
-      "step": 23341
     },
     {
       "epoch": 1.8,
-      "learning_rate": 9.002622759726068e-05,
-      "loss": 0.0008,
-      "step": 24714
     },
     {
       "epoch": 1.9,
-      "learning_rate": 9.502768468599739e-05,
-      "loss": 0.0009,
-      "step": 26087
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.01430370844900608,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 14.233,
-      "eval_samples_per_second": 18.829,
-      "eval_steps_per_second": 1.265,
-      "step": 27452
     },
     {
       "epoch": 2.0,
-      "learning_rate": 9.999676202502955e-05,
-      "loss": 0.0008,
-      "step": 27460
     },
     {
       "epoch": 2.1,
-      "learning_rate": 9.944104457072547e-05,
-      "loss": 0.0008,
-      "step": 28833
     },
     {
       "epoch": 2.2,
-      "learning_rate": 9.88853271164214e-05,
-      "loss": 0.0008,
-      "step": 30206
     },
     {
       "epoch": 2.3,
-      "learning_rate": 9.832960966211731e-05,
-      "loss": 0.0008,
-      "step": 31579
     },
     {
       "epoch": 2.4,
-      "learning_rate": 9.777389220781323e-05,
-      "loss": 0.0009,
-      "step": 32952
     },
     {
       "epoch": 2.5,
-      "learning_rate": 9.721817475350917e-05,
-      "loss": 0.0008,
-      "step": 34325
     },
     {
       "epoch": 2.6,
-      "learning_rate": 9.666245729920507e-05,
-      "loss": 0.0009,
-      "step": 35698
     },
     {
       "epoch": 2.7,
-      "learning_rate": 9.6106739844901e-05,
-      "loss": 0.0008,
-      "step": 37071
     },
     {
       "epoch": 2.8,
-      "learning_rate": 9.555102239059693e-05,
-      "loss": 0.0008,
-      "step": 38444
     },
     {
       "epoch": 2.9,
-      "learning_rate": 9.499530493629284e-05,
-      "loss": 0.0008,
-      "step": 39817
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.014528523199260235,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.815,
-      "eval_samples_per_second": 20.913,
-      "eval_steps_per_second": 1.405,
-      "step": 41178
     },
     {
       "epoch": 3.0,
-      "learning_rate": 9.443958748198876e-05,
-      "loss": 0.0009,
-      "step": 41190
     },
     {
       "epoch": 3.1,
-      "learning_rate": 9.38838700276847e-05,
-      "loss": 0.0008,
-      "step": 42563
     },
     {
       "epoch": 3.2,
-      "learning_rate": 9.332815257338062e-05,
-      "loss": 0.0008,
-      "step": 43936
     },
     {
       "epoch": 3.3,
-      "learning_rate": 9.277243511907654e-05,
-      "loss": 0.0008,
-      "step": 45309
     },
     {
       "epoch": 3.4,
-      "learning_rate": 9.221671766477246e-05,
-      "loss": 0.0008,
-      "step": 46682
     },
     {
       "epoch": 3.5,
-      "learning_rate": 9.166100021046838e-05,
-      "loss": 0.0008,
-      "step": 48055
     },
     {
       "epoch": 3.6,
-      "learning_rate": 9.11052827561643e-05,
-      "loss": 0.0008,
-      "step": 49428
     },
     {
       "epoch": 3.7,
-      "learning_rate": 9.054956530186022e-05,
-      "loss": 0.0008,
-      "step": 50801
     },
     {
       "epoch": 3.8,
-      "learning_rate": 8.999384784755615e-05,
-      "loss": 0.0008,
-      "step": 52174
     },
     {
       "epoch": 3.9,
-      "learning_rate": 8.943813039325206e-05,
-      "loss": 0.0009,
-      "step": 53547
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.009767626412212849,
-      "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 13.1075,
-      "eval_samples_per_second": 20.446,
-      "eval_steps_per_second": 1.373,
-      "step": 54904
     },
     {
       "epoch": 4.0,
-      "learning_rate": 8.888241293894799e-05,
-      "loss": 0.0009,
-      "step": 54920
     },
     {
       "epoch": 4.1,
-      "learning_rate": 8.832669548464391e-05,
-      "loss": 0.0008,
-      "step": 56293
     },
     {
       "epoch": 4.2,
-      "learning_rate": 8.777097803033983e-05,
-      "loss": 0.0008,
-      "step": 57666
     },
     {
       "epoch": 4.3,
-      "learning_rate": 8.721526057603575e-05,
-      "loss": 0.0007,
-      "step": 59039
     },
     {
       "epoch": 4.4,
-      "learning_rate": 8.665954312173167e-05,
-      "loss": 0.0008,
-      "step": 60412
     },
     {
       "epoch": 4.5,
-      "learning_rate": 8.61038256674276e-05,
-      "loss": 0.0008,
-      "step": 61785
     },
     {
       "epoch": 4.6,
-      "learning_rate": 8.554810821312351e-05,
-      "loss": 0.0008,
-      "step": 63158
     },
     {
       "epoch": 4.7,
-      "learning_rate": 8.499239075881944e-05,
-      "loss": 0.0008,
-      "step": 64531
     },
     {
       "epoch": 4.8,
-      "learning_rate": 8.443667330451536e-05,
-      "loss": 0.0008,
-      "step": 65904
     },
     {
       "epoch": 4.9,
-      "learning_rate": 8.388095585021128e-05,
-      "loss": 0.0007,
-      "step": 67277
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.012975725345313549,
-      "eval_max_distance": 2,
       "eval_mean_distance": 0,
-      "eval_runtime": 13.0896,
-      "eval_samples_per_second": 20.474,
-      "eval_steps_per_second": 1.375,
-      "step": 68630
     },
     {
       "epoch": 5.0,
-      "learning_rate": 8.33252383959072e-05,
-      "loss": 0.0008,
-      "step": 68650
     },
     {
       "epoch": 5.1,
-      "learning_rate": 8.276952094160313e-05,
-      "loss": 0.0008,
-      "step": 70023
     },
     {
       "epoch": 5.2,
-      "learning_rate": 8.221380348729904e-05,
-      "loss": 0.0007,
-      "step": 71396
     },
     {
       "epoch": 5.3,
-      "learning_rate": 8.165808603299497e-05,
-      "loss": 0.0008,
-      "step": 72769
     },
     {
       "epoch": 5.4,
-      "learning_rate": 8.11023685786909e-05,
-      "loss": 0.0008,
-      "step": 74142
     },
     {
       "epoch": 5.5,
-      "learning_rate": 8.054665112438681e-05,
-      "loss": 0.0007,
-      "step": 75515
     },
     {
       "epoch": 5.6,
-      "learning_rate": 7.999093367008273e-05,
-      "loss": 0.0008,
-      "step": 76888
     },
     {
       "epoch": 5.7,
-      "learning_rate": 7.943521621577865e-05,
-      "loss": 0.0007,
-      "step": 78261
     },
     {
       "epoch": 5.8,
-      "learning_rate": 7.887949876147457e-05,
-      "loss": 0.0008,
-      "step": 79634
     },
     {
       "epoch": 5.9,
-      "learning_rate": 7.832378130717049e-05,
-      "loss": 0.0008,
-      "step": 81007
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.015315458178520203,
-      "eval_max_distance": 2,
       "eval_mean_distance": 0,
-      "eval_runtime": 13.1351,
-      "eval_samples_per_second": 20.403,
-      "eval_steps_per_second": 1.37,
-      "step": 82356
     },
     {
       "epoch": 6.0,
-      "learning_rate": 7.776806385286643e-05,
-      "loss": 0.0008,
-      "step": 82380
     },
     {
       "epoch": 6.1,
-      "learning_rate": 7.721234639856235e-05,
-      "loss": 0.0007,
-      "step": 83753
     },
     {
       "epoch": 6.2,
-      "learning_rate": 7.665662894425827e-05,
-      "loss": 0.0007,
-      "step": 85126
     },
     {
       "epoch": 6.3,
-      "learning_rate": 7.610091148995419e-05,
-      "loss": 0.0006,
-      "step": 86499
     },
     {
       "epoch": 6.4,
-      "learning_rate": 7.554519403565012e-05,
-      "loss": 0.0007,
-      "step": 87872
     },
     {
       "epoch": 6.5,
-      "learning_rate": 7.498947658134603e-05,
-      "loss": 0.0007,
-      "step": 89245
     },
     {
       "epoch": 6.6,
-      "learning_rate": 7.443375912704195e-05,
-      "loss": 0.0007,
-      "step": 90618
     },
     {
       "epoch": 6.7,
-      "learning_rate": 7.387804167273788e-05,
-      "loss": 0.0007,
-      "step": 91991
     },
     {
       "epoch": 6.8,
-      "learning_rate": 7.332232421843378e-05,
-      "loss": 0.0007,
-      "step": 93364
     },
     {
       "epoch": 6.9,
-      "learning_rate": 7.276660676412972e-05,
-      "loss": 0.0007,
-      "step": 94737
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.01277723629027605,
-      "eval_max_distance": 2,
       "eval_mean_distance": 0,
-      "eval_runtime": 13.169,
-      "eval_samples_per_second": 20.351,
-      "eval_steps_per_second": 1.367,
-      "step": 96082
     },
     {
       "epoch": 7.0,
-      "learning_rate": 7.221088930982564e-05,
-      "loss": 0.0007,
-      "step": 96110
     },
     {
       "epoch": 7.1,
-      "learning_rate": 7.165517185552156e-05,
-      "loss": 0.0007,
-      "step": 97483
     },
     {
       "epoch": 7.2,
-      "learning_rate": 7.109945440121748e-05,
-      "loss": 0.0006,
-      "step": 98856
     },
     {
       "epoch": 7.3,
-      "learning_rate": 7.054373694691341e-05,
       "loss": 0.0006,
-      "step": 100229
     },
     {
       "epoch": 7.4,
-      "learning_rate": 6.998801949260933e-05,
-      "loss": 0.0007,
-      "step": 101602
     },
     {
       "epoch": 7.5,
-      "learning_rate": 6.943230203830525e-05,
-      "loss": 0.0006,
-      "step": 102975
     },
     {
       "epoch": 7.6,
-      "learning_rate": 6.887658458400117e-05,
       "loss": 0.0006,
-      "step": 104348
     },
     {
       "epoch": 7.7,
-      "learning_rate": 6.832086712969709e-05,
-      "loss": 0.0007,
-      "step": 105721
     },
     {
       "epoch": 7.8,
-      "learning_rate": 6.776514967539301e-05,
-      "loss": 0.0006,
-      "step": 107094
     },
     {
       "epoch": 7.9,
-      "learning_rate": 6.720943222108893e-05,
-      "loss": 0.0006,
-      "step": 108467
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.013012989424169064,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.4679,
-      "eval_samples_per_second": 21.495,
-      "eval_steps_per_second": 1.444,
-      "step": 109808
     },
     {
       "epoch": 8.0,
-      "learning_rate": 6.665371476678486e-05,
-      "loss": 0.0007,
-      "step": 109840
     },
     {
       "epoch": 8.1,
-      "learning_rate": 6.609799731248077e-05,
-      "loss": 0.0007,
-      "step": 111213
     },
     {
       "epoch": 8.2,
-      "learning_rate": 6.55422798581767e-05,
-      "loss": 0.0005,
-      "step": 112586
     },
     {
       "epoch": 8.3,
-      "learning_rate": 6.498656240387262e-05,
-      "loss": 0.0007,
-      "step": 113959
     },
     {
       "epoch": 8.4,
-      "learning_rate": 6.443084494956854e-05,
-      "loss": 0.0006,
-      "step": 115332
     },
     {
       "epoch": 8.5,
-      "learning_rate": 6.387512749526446e-05,
-      "loss": 0.0006,
-      "step": 116705
     },
     {
       "epoch": 8.6,
-      "learning_rate": 6.33194100409604e-05,
-      "loss": 0.0007,
-      "step": 118078
     },
     {
       "epoch": 8.7,
-      "learning_rate": 6.276369258665632e-05,
-      "loss": 0.0006,
-      "step": 119451
     },
     {
       "epoch": 8.8,
-      "learning_rate": 6.220797513235222e-05,
-      "loss": 0.0006,
-      "step": 120824
     },
     {
       "epoch": 8.9,
-      "learning_rate": 6.165225767804815e-05,
-      "loss": 0.0006,
-      "step": 122197
     },
     {
       "epoch": 9.0,
-      "eval_loss": 0.015804793685674667,
-      "eval_max_distance": 5,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.8641,
-      "eval_samples_per_second": 20.833,
-      "eval_steps_per_second": 1.399,
-      "step": 123534
     },
     {
       "epoch": 9.0,
-      "learning_rate": 6.109654022374407e-05,
-      "loss": 0.0005,
-      "step": 123570
     },
     {
       "epoch": 9.1,
-      "learning_rate": 6.0540822769439994e-05,
-      "loss": 0.0005,
-      "step": 124943
     },
     {
       "epoch": 9.2,
-      "learning_rate": 5.9985105315135914e-05,
-      "loss": 0.0006,
-      "step": 126316
     },
     {
       "epoch": 9.3,
-      "learning_rate": 5.942938786083184e-05,
       "loss": 0.0005,
-      "step": 127689
     },
     {
       "epoch": 9.4,
-      "learning_rate": 5.887367040652776e-05,
-      "loss": 0.0006,
-      "step": 129062
     },
     {
       "epoch": 9.5,
-      "learning_rate": 5.831795295222369e-05,
-      "loss": 0.0006,
-      "step": 130435
     },
     {
       "epoch": 9.6,
-      "learning_rate": 5.77622354979196e-05,
       "loss": 0.0006,
-      "step": 131808
     },
     {
       "epoch": 9.7,
-      "learning_rate": 5.720651804361552e-05,
-      "loss": 0.0007,
-      "step": 133181
     },
     {
       "epoch": 9.8,
-      "learning_rate": 5.6650800589311447e-05,
-      "loss": 0.0006,
-      "step": 134554
     },
     {
       "epoch": 9.9,
-      "learning_rate": 5.6095083135007366e-05,
-      "loss": 0.0006,
-      "step": 135927
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.015074091032147408,
-      "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.5962,
-      "eval_samples_per_second": 21.276,
-      "eval_steps_per_second": 1.429,
-      "step": 137260
     },
     {
       "epoch": 10.0,
-      "learning_rate": 5.553936568070329e-05,
-      "loss": 0.0006,
-      "step": 137300
     },
     {
       "epoch": 10.1,
-      "learning_rate": 5.4983648226399206e-05,
-      "loss": 0.0006,
-      "step": 138673
     },
     {
       "epoch": 10.2,
-      "learning_rate": 5.442793077209514e-05,
-      "loss": 0.0006,
-      "step": 140046
     },
     {
       "epoch": 10.3,
-      "learning_rate": 5.387221331779105e-05,
-      "loss": 0.0006,
-      "step": 141419
     },
     {
       "epoch": 10.4,
-      "learning_rate": 5.331649586348698e-05,
-      "loss": 0.0008,
-      "step": 142792
     },
     {
       "epoch": 10.5,
-      "learning_rate": 5.27607784091829e-05,
       "loss": 0.0005,
-      "step": 144165
     },
     {
       "epoch": 10.6,
-      "learning_rate": 5.2205060954878825e-05,
-      "loss": 0.0006,
-      "step": 145538
     },
     {
       "epoch": 10.7,
-      "learning_rate": 5.1649343500574745e-05,
-      "loss": 0.0006,
-      "step": 146911
     },
     {
       "epoch": 10.8,
-      "learning_rate": 5.109362604627066e-05,
       "loss": 0.0006,
-      "step": 148284
     },
     {
       "epoch": 10.9,
-      "learning_rate": 5.0537908591966585e-05,
-      "loss": 0.0005,
-      "step": 149657
     },
     {
       "epoch": 11.0,
-      "eval_loss": 0.016692565754055977,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.5906,
-      "eval_samples_per_second": 21.286,
-      "eval_steps_per_second": 1.43,
-      "step": 150986
     },
     {
       "epoch": 11.0,
-      "learning_rate": 4.998219113766251e-05,
-      "loss": 0.0006,
-      "step": 151030
     },
     {
       "epoch": 11.1,
-      "learning_rate": 4.942647368335843e-05,
-      "loss": 0.0005,
-      "step": 152403
     },
     {
       "epoch": 11.2,
-      "learning_rate": 4.887075622905435e-05,
-      "loss": 0.0005,
-      "step": 153776
     },
     {
       "epoch": 11.3,
-      "learning_rate": 4.831503877475027e-05,
-      "loss": 0.0005,
-      "step": 155149
     },
     {
       "epoch": 11.4,
-      "learning_rate": 4.775932132044619e-05,
-      "loss": 0.0005,
-      "step": 156522
     },
     {
       "epoch": 11.5,
-      "learning_rate": 4.720360386614212e-05,
-      "loss": 0.0005,
-      "step": 157895
     },
     {
       "epoch": 11.6,
-      "learning_rate": 4.664788641183804e-05,
-      "loss": 0.0005,
-      "step": 159268
     },
     {
       "epoch": 11.7,
-      "learning_rate": 4.6092168957533957e-05,
-      "loss": 0.0005,
-      "step": 160641
     },
     {
       "epoch": 11.8,
-      "learning_rate": 4.553645150322988e-05,
-      "loss": 0.0005,
-      "step": 162014
     },
     {
       "epoch": 11.9,
-      "learning_rate": 4.49807340489258e-05,
-      "loss": 0.0005,
-      "step": 163387
     },
     {
       "epoch": 12.0,
-      "eval_loss": 0.014475121162831783,
-      "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.6623,
-      "eval_samples_per_second": 21.165,
-      "eval_steps_per_second": 1.422,
-      "step": 164712
     },
     {
       "epoch": 12.0,
-      "learning_rate": 4.442501659462173e-05,
-      "loss": 0.0005,
-      "step": 164760
     },
     {
       "epoch": 12.1,
-      "learning_rate": 4.386929914031765e-05,
-      "loss": 0.0005,
-      "step": 166133
     },
     {
       "epoch": 12.2,
-      "learning_rate": 4.331358168601357e-05,
-      "loss": 0.0005,
-      "step": 167506
     },
     {
       "epoch": 12.3,
-      "learning_rate": 4.2757864231709496e-05,
-      "loss": 0.0005,
-      "step": 168879
     },
     {
       "epoch": 12.4,
-      "learning_rate": 4.220214677740541e-05,
-      "loss": 0.0005,
-      "step": 170252
     },
     {
       "epoch": 12.5,
-      "learning_rate": 4.1646429323101335e-05,
       "loss": 0.0004,
-      "step": 171625
     },
     {
       "epoch": 12.6,
-      "learning_rate": 4.1090711868797255e-05,
-      "loss": 0.0006,
-      "step": 172998
     },
     {
       "epoch": 12.7,
-      "learning_rate": 4.0534994414493175e-05,
-      "loss": 0.0006,
-      "step": 174371
     },
     {
       "epoch": 12.8,
-      "learning_rate": 3.99792769601891e-05,
-      "loss": 0.0006,
-      "step": 175744
     },
     {
       "epoch": 12.9,
-      "learning_rate": 3.942355950588502e-05,
-      "loss": 0.0005,
-      "step": 177117
     },
     {
       "epoch": 13.0,
-      "eval_loss": 0.016049271449446678,
-      "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.7374,
-      "eval_samples_per_second": 21.04,
-      "eval_steps_per_second": 1.413,
-      "step": 178438
     },
     {
       "epoch": 13.0,
-      "learning_rate": 3.886784205158094e-05,
-      "loss": 0.0005,
-      "step": 178490
     },
     {
       "epoch": 13.1,
-      "learning_rate": 3.831212459727687e-05,
-      "loss": 0.0005,
-      "step": 179863
     },
     {
       "epoch": 13.2,
-      "learning_rate": 3.775640714297279e-05,
-      "loss": 0.0005,
-      "step": 181236
     },
     {
       "epoch": 13.3,
-      "learning_rate": 3.720068968866871e-05,
-      "loss": 0.0005,
-      "step": 182609
     },
     {
       "epoch": 13.4,
-      "learning_rate": 3.6644972234364634e-05,
-      "loss": 0.0005,
-      "step": 183982
     },
     {
       "epoch": 13.5,
-      "learning_rate": 3.608925478006055e-05,
-      "loss": 0.0004,
-      "step": 185355
     },
     {
       "epoch": 13.6,
-      "learning_rate": 3.5533537325756473e-05,
-      "loss": 0.0005,
-      "step": 186728
     },
     {
       "epoch": 13.7,
-      "learning_rate": 3.497781987145239e-05,
-      "loss": 0.0005,
-      "step": 188101
     },
     {
       "epoch": 13.8,
-      "learning_rate": 3.442210241714832e-05,
-      "loss": 0.0005,
-      "step": 189474
     },
     {
       "epoch": 13.9,
-      "learning_rate": 3.386638496284424e-05,
-      "loss": 0.0005,
-      "step": 190847
     },
     {
       "epoch": 14.0,
-      "eval_loss": 0.015727248042821884,
-      "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.6356,
-      "eval_samples_per_second": 21.21,
-      "eval_steps_per_second": 1.425,
-      "step": 192164
     },
     {
       "epoch": 14.0,
-      "learning_rate": 3.331066750854016e-05,
       "loss": 0.0004,
-      "step": 192220
     },
     {
       "epoch": 14.1,
-      "learning_rate": 3.2754950054236086e-05,
-      "loss": 0.0005,
-      "step": 193593
     },
     {
       "epoch": 14.2,
-      "learning_rate": 3.2199232599932006e-05,
-      "loss": 0.0005,
-      "step": 194966
     },
     {
       "epoch": 14.3,
-      "learning_rate": 3.1643515145627926e-05,
-      "loss": 0.0004,
-      "step": 196339
     },
     {
       "epoch": 14.4,
-      "learning_rate": 3.108779769132385e-05,
       "loss": 0.0004,
-      "step": 197712
     },
     {
       "epoch": 14.5,
-      "learning_rate": 3.0532080237019765e-05,
-      "loss": 0.0005,
-      "step": 199085
     },
     {
       "epoch": 14.6,
-      "learning_rate": 2.997636278271569e-05,
-      "loss": 0.0005,
-      "step": 200458
     },
     {
       "epoch": 14.7,
-      "learning_rate": 2.942064532841161e-05,
-      "loss": 0.0004,
-      "step": 201831
     },
     {
       "epoch": 14.8,
-      "learning_rate": 2.8864927874107535e-05,
       "loss": 0.0004,
-      "step": 203204
     },
     {
       "epoch": 14.9,
-      "learning_rate": 2.8309210419803455e-05,
       "loss": 0.0004,
-      "step": 204577
     },
     {
       "epoch": 15.0,
-      "eval_loss": 0.015685711055994034,
-      "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.7509,
-      "eval_samples_per_second": 21.018,
-      "eval_steps_per_second": 1.412,
-      "step": 205890
     },
     {
       "epoch": 15.0,
-      "learning_rate": 2.7753492965499378e-05,
-      "loss": 0.0004,
-      "step": 205950
     },
     {
       "epoch": 15.1,
-      "learning_rate": 2.71977755111953e-05,
-      "loss": 0.0004,
-      "step": 207323
     },
     {
       "epoch": 15.2,
-      "learning_rate": 2.6642058056891224e-05,
-      "loss": 0.0004,
-      "step": 208696
     },
     {
       "epoch": 15.3,
-      "learning_rate": 2.6086340602587144e-05,
-      "loss": 0.0004,
-      "step": 210069
     },
     {
       "epoch": 15.4,
-      "learning_rate": 2.5530623148283067e-05,
-      "loss": 0.0004,
-      "step": 211442
     },
     {
       "epoch": 15.5,
-      "learning_rate": 2.4974905693978987e-05,
-      "loss": 0.0005,
-      "step": 212815
     },
     {
       "epoch": 15.6,
-      "learning_rate": 2.441918823967491e-05,
       "loss": 0.0004,
-      "step": 214188
     },
     {
       "epoch": 15.7,
-      "learning_rate": 2.386347078537083e-05,
       "loss": 0.0004,
-      "step": 215561
     },
     {
       "epoch": 15.8,
-      "learning_rate": 2.330775333106675e-05,
-      "loss": 0.0005,
-      "step": 216934
     },
     {
       "epoch": 15.9,
-      "learning_rate": 2.2752035876762673e-05,
-      "loss": 0.0004,
-      "step": 218307
     },
     {
       "epoch": 16.0,
-      "eval_loss": 0.017339130863547325,
-      "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.871,
-      "eval_samples_per_second": 20.822,
-      "eval_steps_per_second": 1.398,
-      "step": 219616
     },
     {
       "epoch": 16.0,
-      "learning_rate": 2.2196318422458596e-05,
-      "loss": 0.0004,
-      "step": 219680
     },
     {
       "epoch": 16.1,
-      "learning_rate": 2.1640600968154516e-05,
       "loss": 0.0004,
-      "step": 221053
     },
     {
       "epoch": 16.2,
-      "learning_rate": 2.108488351385044e-05,
       "loss": 0.0004,
-      "step": 222426
     },
     {
       "epoch": 16.3,
-      "learning_rate": 2.0529166059546362e-05,
-      "loss": 0.0004,
-      "step": 223799
     },
     {
       "epoch": 16.4,
-      "learning_rate": 1.9973448605242282e-05,
-      "loss": 0.0004,
-      "step": 225172
     },
     {
       "epoch": 16.5,
-      "learning_rate": 1.9417731150938205e-05,
       "loss": 0.0004,
-      "step": 226545
     },
     {
       "epoch": 16.6,
-      "learning_rate": 1.8862013696634125e-05,
-      "loss": 0.0004,
-      "step": 227918
     },
     {
       "epoch": 16.7,
-      "learning_rate": 1.8306296242330048e-05,
-      "loss": 0.0004,
-      "step": 229291
     },
     {
       "epoch": 16.8,
-      "learning_rate": 1.775057878802597e-05,
-      "loss": 0.0004,
-      "step": 230664
     },
     {
       "epoch": 16.9,
-      "learning_rate": 1.719486133372189e-05,
       "loss": 0.0004,
-      "step": 232037
     },
     {
       "epoch": 17.0,
-      "eval_loss": 0.015850957483053207,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.7459,
-      "eval_samples_per_second": 21.026,
-      "eval_steps_per_second": 1.412,
-      "step": 233342
     },
     {
       "epoch": 17.0,
-      "learning_rate": 1.663914387941781e-05,
       "loss": 0.0004,
-      "step": 233410
     },
     {
       "epoch": 17.1,
-      "learning_rate": 1.6083426425113734e-05,
-      "loss": 0.0004,
-      "step": 234783
     },
     {
-      "epoch": 17.21,
-      "learning_rate": 1.5527708970809657e-05,
-      "loss": 0.0004,
-      "step": 236156
     },
     {
-      "epoch": 17.31,
-      "learning_rate": 1.4971991516505579e-05,
-      "loss": 0.0004,
-      "step": 237529
     },
     {
-      "epoch": 17.41,
-      "learning_rate": 1.4416274062201499e-05,
-      "loss": 0.0005,
-      "step": 238902
     },
     {
-      "epoch": 17.51,
-      "learning_rate": 1.386055660789742e-05,
-      "loss": 0.0004,
-      "step": 240275
     },
     {
-      "epoch": 17.61,
-      "learning_rate": 1.3304839153593343e-05,
-      "loss": 0.0004,
-      "step": 241648
     },
     {
-      "epoch": 17.71,
-      "learning_rate": 1.2749121699289265e-05,
-      "loss": 0.0004,
-      "step": 243021
     },
     {
-      "epoch": 17.81,
-      "learning_rate": 1.2193404244985186e-05,
-      "loss": 0.0004,
-      "step": 244394
     },
     {
-      "epoch": 17.91,
-      "learning_rate": 1.1637686790681108e-05,
-      "loss": 0.0004,
-      "step": 245767
     },
     {
       "epoch": 18.0,
-      "eval_loss": 0.016846980899572372,
-      "eval_max_distance": 2,
       "eval_mean_distance": 0,
-      "eval_runtime": 14.3322,
-      "eval_samples_per_second": 18.699,
-      "eval_steps_per_second": 1.256,
-      "step": 247068
     },
     {
-      "epoch": 18.01,
-      "learning_rate": 1.1081969336377031e-05,
-      "loss": 0.0004,
-      "step": 247140
     },
     {
-      "epoch": 18.11,
-      "learning_rate": 1.0526251882072952e-05,
-      "loss": 0.0004,
-      "step": 248513
     },
     {
-      "epoch": 18.21,
-      "learning_rate": 9.970534427768874e-06,
-      "loss": 0.0004,
-      "step": 249886
     },
     {
-      "epoch": 18.31,
-      "learning_rate": 9.414816973464795e-06,
       "loss": 0.0003,
-      "step": 251259
     },
     {
-      "epoch": 18.41,
-      "learning_rate": 8.859099519160717e-06,
-      "loss": 0.0004,
-      "step": 252632
     },
     {
-      "epoch": 18.51,
-      "learning_rate": 8.30338206485664e-06,
-      "loss": 0.0004,
-      "step": 254005
     },
     {
-      "epoch": 18.61,
-      "learning_rate": 7.74766461055256e-06,
       "loss": 0.0004,
-      "step": 255378
     },
     {
-      "epoch": 18.71,
-      "learning_rate": 7.191947156248482e-06,
-      "loss": 0.0004,
-      "step": 256751
     },
     {
-      "epoch": 18.81,
-      "learning_rate": 6.636229701944405e-06,
       "loss": 0.0003,
-      "step": 258124
     },
     {
-      "epoch": 18.91,
-      "learning_rate": 6.080512247640326e-06,
-      "loss": 0.0004,
-      "step": 259497
     },
     {
       "epoch": 19.0,
-      "eval_loss": 0.01681215688586235,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.5068,
-      "eval_samples_per_second": 21.428,
-      "eval_steps_per_second": 1.439,
-      "step": 260794
     },
     {
-      "epoch": 19.01,
-      "learning_rate": 5.524794793336248e-06,
-      "loss": 0.0004,
-      "step": 260870
     },
     {
-      "epoch": 19.11,
-      "learning_rate": 4.969077339032169e-06,
-      "loss": 0.0004,
-      "step": 262243
     },
     {
-      "epoch": 19.21,
-      "learning_rate": 4.4133598847280914e-06,
-      "loss": 0.0004,
-      "step": 263616
     },
     {
-      "epoch": 19.31,
-      "learning_rate": 3.857642430424013e-06,
-      "loss": 0.0004,
-      "step": 264989
     },
     {
-      "epoch": 19.41,
-      "learning_rate": 3.301924976119935e-06,
-      "loss": 0.0004,
-      "step": 266362
     },
     {
-      "epoch": 19.51,
-      "learning_rate": 2.7462075218158563e-06,
-      "loss": 0.0004,
-      "step": 267735
     },
     {
-      "epoch": 19.61,
-      "learning_rate": 2.1904900675117783e-06,
       "loss": 0.0003,
-      "step": 269108
     },
     {
-      "epoch": 19.71,
-      "learning_rate": 1.6347726132077e-06,
-      "loss": 0.0004,
-      "step": 270481
     },
     {
-      "epoch": 19.81,
-      "learning_rate": 1.0790551589036217e-06,
       "loss": 0.0003,
-      "step": 271854
     },
     {
-      "epoch": 19.91,
-      "learning_rate": 5.233377045995435e-07,
-      "loss": 0.0004,
-      "step": 273227
     },
     {
       "epoch": 20.0,
-      "eval_loss": 0.016863718628883362,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.4816,
-      "eval_samples_per_second": 21.472,
-      "eval_steps_per_second": 1.442,
-      "step": 274520
     },
     {
       "epoch": 20.0,
-      "step": 274520,
-      "total_flos": 7.204011364904141e+16,
-      "train_loss": 2.2036947758330143e-05,
-      "train_runtime": 1601.2933,
-      "train_samples_per_second": 2571.434,
-      "train_steps_per_second": 171.436
     }
   ],
-  "logging_steps": 1373,
-  "max_steps": 274520,
   "num_train_epochs": 20,
-  "save_steps": 2746,
-  "total_flos": 7.204011364904141e+16,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 20.0,
   "eval_steps": 500,
+  "global_step": 274940,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 3.6371571979340947e-09,
       "loss": 0.0,
       "step": 1
     },
     {
       "epoch": 0.1,
+      "learning_rate": 5.001091147159381e-06,
+      "loss": 0.0005,
+      "step": 1375
     },
     {
       "epoch": 0.2,
+      "learning_rate": 1.0002182294318761e-05,
+      "loss": 0.0005,
+      "step": 2750
     },
     {
       "epoch": 0.3,
+      "learning_rate": 1.5003273441478141e-05,
+      "loss": 0.0004,
+      "step": 4125
     },
     {
       "epoch": 0.4,
+      "learning_rate": 2.0004364588637523e-05,
+      "loss": 0.0004,
+      "step": 5500
     },
     {
       "epoch": 0.5,
+      "learning_rate": 2.50054557357969e-05,
+      "loss": 0.0005,
+      "step": 6875
     },
     {
       "epoch": 0.6,
+      "learning_rate": 3.0006546882956283e-05,
+      "loss": 0.0004,
+      "step": 8250
     },
     {
       "epoch": 0.7,
+      "learning_rate": 3.5007638030115664e-05,
+      "loss": 0.0004,
+      "step": 9625
     },
     {
       "epoch": 0.8,
+      "learning_rate": 4.0008729177275046e-05,
+      "loss": 0.0005,
+      "step": 11000
     },
     {
       "epoch": 0.9,
+      "learning_rate": 4.500982032443443e-05,
+      "loss": 0.0005,
+      "step": 12375
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.015108300372958183,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 16.7885,
+      "eval_samples_per_second": 15.963,
+      "eval_steps_per_second": 1.072,
+      "step": 13747
     },
     {
       "epoch": 1.0,
+      "learning_rate": 5.00109114715938e-05,
+      "loss": 0.0005,
+      "step": 13750
     },
     {
       "epoch": 1.1,
+      "learning_rate": 5.501200261875319e-05,
+      "loss": 0.0005,
+      "step": 15125
     },
     {
       "epoch": 1.2,
+      "learning_rate": 6.0013093765912565e-05,
+      "loss": 0.0005,
+      "step": 16500
     },
     {
       "epoch": 1.3,
+      "learning_rate": 6.501418491307195e-05,
+      "loss": 0.0005,
+      "step": 17875
     },
     {
       "epoch": 1.4,
+      "learning_rate": 7.001527606023133e-05,
+      "loss": 0.0005,
+      "step": 19250
     },
     {
       "epoch": 1.5,
+      "learning_rate": 7.50163672073907e-05,
+      "loss": 0.0005,
+      "step": 20625
     },
     {
       "epoch": 1.6,
+      "learning_rate": 8.001745835455009e-05,
+      "loss": 0.0005,
+      "step": 22000
     },
     {
       "epoch": 1.7,
+      "learning_rate": 8.501854950170947e-05,
+      "loss": 0.0005,
+      "step": 23375
     },
     {
       "epoch": 1.8,
+      "learning_rate": 9.001964064886885e-05,
+      "loss": 0.0005,
+      "step": 24750
     },
     {
       "epoch": 1.9,
+      "learning_rate": 9.502073179602823e-05,
+      "loss": 0.0005,
+      "step": 26125
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.0173035915941,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 16.2636,
+      "eval_samples_per_second": 16.479,
+      "eval_steps_per_second": 1.107,
+      "step": 27494
     },
     {
       "epoch": 2.0,
+      "learning_rate": 9.999757522853471e-05,
+      "loss": 0.0006,
+      "step": 27500
     },
     {
       "epoch": 2.1,
+      "learning_rate": 9.94418984344059e-05,
+      "loss": 0.0005,
+      "step": 28875
     },
     {
       "epoch": 2.2,
+      "learning_rate": 9.888622164027708e-05,
+      "loss": 0.0006,
+      "step": 30250
     },
     {
       "epoch": 2.3,
+      "learning_rate": 9.833054484614825e-05,
+      "loss": 0.0006,
+      "step": 31625
     },
     {
       "epoch": 2.4,
+      "learning_rate": 9.777486805201943e-05,
+      "loss": 0.0006,
+      "step": 33000
     },
     {
       "epoch": 2.5,
+      "learning_rate": 9.721919125789062e-05,
+      "loss": 0.0006,
+      "step": 34375
     },
     {
       "epoch": 2.6,
+      "learning_rate": 9.66635144637618e-05,
+      "loss": 0.0007,
+      "step": 35750
     },
     {
       "epoch": 2.7,
+      "learning_rate": 9.610783766963298e-05,
+      "loss": 0.0006,
+      "step": 37125
     },
     {
       "epoch": 2.8,
+      "learning_rate": 9.555216087550416e-05,
+      "loss": 0.0006,
+      "step": 38500
     },
     {
       "epoch": 2.9,
+      "learning_rate": 9.499648408137534e-05,
+      "loss": 0.0006,
+      "step": 39875
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.013588453643023968,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.87,
+      "eval_samples_per_second": 16.887,
+      "eval_steps_per_second": 1.134,
+      "step": 41241
     },
     {
       "epoch": 3.0,
+      "learning_rate": 9.444080728724652e-05,
+      "loss": 0.0006,
+      "step": 41250
     },
     {
       "epoch": 3.1,
+      "learning_rate": 9.38851304931177e-05,
+      "loss": 0.0006,
+      "step": 42625
     },
     {
       "epoch": 3.2,
+      "learning_rate": 9.332945369898887e-05,
+      "loss": 0.0005,
+      "step": 44000
     },
     {
       "epoch": 3.3,
+      "learning_rate": 9.277377690486005e-05,
+      "loss": 0.0006,
+      "step": 45375
     },
     {
       "epoch": 3.4,
+      "learning_rate": 9.221810011073123e-05,
+      "loss": 0.0006,
+      "step": 46750
     },
     {
       "epoch": 3.5,
+      "learning_rate": 9.166242331660242e-05,
+      "loss": 0.0007,
+      "step": 48125
     },
     {
       "epoch": 3.6,
+      "learning_rate": 9.110674652247359e-05,
+      "loss": 0.0006,
+      "step": 49500
     },
     {
       "epoch": 3.7,
+      "learning_rate": 9.055106972834477e-05,
+      "loss": 0.0006,
+      "step": 50875
     },
     {
       "epoch": 3.8,
+      "learning_rate": 8.999539293421595e-05,
+      "loss": 0.0007,
+      "step": 52250
     },
     {
       "epoch": 3.9,
+      "learning_rate": 8.943971614008714e-05,
+      "loss": 0.0007,
+      "step": 53625
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.014065152034163475,
+      "eval_max_distance": 2,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.9652,
+      "eval_samples_per_second": 16.787,
+      "eval_steps_per_second": 1.127,
+      "step": 54988
     },
     {
       "epoch": 4.0,
+      "learning_rate": 8.888403934595832e-05,
+      "loss": 0.0006,
+      "step": 55000
     },
     {
       "epoch": 4.1,
+      "learning_rate": 8.832836255182949e-05,
+      "loss": 0.0006,
+      "step": 56375
     },
     {
       "epoch": 4.2,
+      "learning_rate": 8.777268575770068e-05,
+      "loss": 0.0006,
+      "step": 57750
     },
     {
       "epoch": 4.3,
+      "learning_rate": 8.721700896357186e-05,
+      "loss": 0.0005,
+      "step": 59125
     },
     {
       "epoch": 4.4,
+      "learning_rate": 8.666133216944304e-05,
+      "loss": 0.0006,
+      "step": 60500
     },
     {
       "epoch": 4.5,
+      "learning_rate": 8.610565537531422e-05,
+      "loss": 0.0005,
+      "step": 61875
     },
     {
       "epoch": 4.6,
+      "learning_rate": 8.55499785811854e-05,
+      "loss": 0.0006,
+      "step": 63250
     },
     {
       "epoch": 4.7,
+      "learning_rate": 8.499430178705657e-05,
+      "loss": 0.0007,
+      "step": 64625
     },
     {
       "epoch": 4.8,
+      "learning_rate": 8.443862499292775e-05,
+      "loss": 0.0006,
+      "step": 66000
     },
     {
       "epoch": 4.9,
+      "learning_rate": 8.388294819879895e-05,
+      "loss": 0.0006,
+      "step": 67375
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.015543907880783081,
+      "eval_max_distance": 4,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.8832,
+      "eval_samples_per_second": 16.873,
+      "eval_steps_per_second": 1.133,
+      "step": 68735
     },
     {
       "epoch": 5.0,
+      "learning_rate": 8.332727140467011e-05,
+      "loss": 0.0006,
+      "step": 68750
     },
     {
       "epoch": 5.1,
+      "learning_rate": 8.277159461054129e-05,
+      "loss": 0.0006,
+      "step": 70125
     },
     {
       "epoch": 5.2,
+      "learning_rate": 8.221591781641247e-05,
+      "loss": 0.0006,
+      "step": 71500
     },
     {
       "epoch": 5.3,
+      "learning_rate": 8.166024102228366e-05,
+      "loss": 0.0006,
+      "step": 72875
     },
     {
       "epoch": 5.4,
+      "learning_rate": 8.110456422815483e-05,
+      "loss": 0.0006,
+      "step": 74250
     },
     {
       "epoch": 5.5,
+      "learning_rate": 8.0548887434026e-05,
+      "loss": 0.0006,
+      "step": 75625
     },
     {
       "epoch": 5.6,
+      "learning_rate": 7.99932106398972e-05,
+      "loss": 0.0006,
+      "step": 77000
     },
     {
       "epoch": 5.7,
+      "learning_rate": 7.943753384576838e-05,
+      "loss": 0.0006,
+      "step": 78375
     },
     {
       "epoch": 5.8,
+      "learning_rate": 7.888185705163956e-05,
+      "loss": 0.0006,
+      "step": 79750
     },
     {
       "epoch": 5.9,
+      "learning_rate": 7.832618025751072e-05,
+      "loss": 0.0005,
+      "step": 81125
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.018322547897696495,
+      "eval_max_distance": 4,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.9589,
+      "eval_samples_per_second": 16.793,
+      "eval_steps_per_second": 1.128,
+      "step": 82482
     },
     {
       "epoch": 6.0,
+      "learning_rate": 7.777050346338192e-05,
+      "loss": 0.0006,
+      "step": 82500
     },
     {
       "epoch": 6.1,
+      "learning_rate": 7.72148266692531e-05,
+      "loss": 0.0005,
+      "step": 83875
     },
     {
       "epoch": 6.2,
+      "learning_rate": 7.665914987512427e-05,
+      "loss": 0.0005,
+      "step": 85250
     },
     {
       "epoch": 6.3,
+      "learning_rate": 7.610347308099545e-05,
+      "loss": 0.0005,
+      "step": 86625
     },
     {
       "epoch": 6.4,
+      "learning_rate": 7.554779628686663e-05,
+      "loss": 0.0006,
+      "step": 88000
     },
     {
       "epoch": 6.5,
+      "learning_rate": 7.499211949273781e-05,
+      "loss": 0.0005,
+      "step": 89375
     },
     {
       "epoch": 6.6,
+      "learning_rate": 7.443644269860899e-05,
+      "loss": 0.0005,
+      "step": 90750
     },
     {
       "epoch": 6.7,
+      "learning_rate": 7.388076590448018e-05,
+      "loss": 0.0005,
+      "step": 92125
     },
     {
       "epoch": 6.8,
+      "learning_rate": 7.332508911035135e-05,
+      "loss": 0.0006,
+      "step": 93500
     },
     {
       "epoch": 6.9,
+      "learning_rate": 7.276941231622253e-05,
+      "loss": 0.0005,
+      "step": 94875
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.021769728511571884,
+      "eval_max_distance": 4,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.9282,
+      "eval_samples_per_second": 16.825,
+      "eval_steps_per_second": 1.13,
+      "step": 96229
     },
     {
       "epoch": 7.0,
+      "learning_rate": 7.221373552209372e-05,
+      "loss": 0.0005,
+      "step": 96250
     },
     {
       "epoch": 7.1,
+      "learning_rate": 7.16580587279649e-05,
+      "loss": 0.0005,
+      "step": 97625
     },
     {
       "epoch": 7.2,
+      "learning_rate": 7.110238193383608e-05,
+      "loss": 0.0005,
+      "step": 99000
     },
     {
       "epoch": 7.3,
+      "learning_rate": 7.054670513970724e-05,
       "loss": 0.0006,
+      "step": 100375
     },
     {
       "epoch": 7.4,
+      "learning_rate": 6.999102834557844e-05,
+      "loss": 0.0005,
+      "step": 101750
     },
     {
       "epoch": 7.5,
+      "learning_rate": 6.943535155144961e-05,
+      "loss": 0.0007,
+      "step": 103125
     },
     {
       "epoch": 7.6,
+      "learning_rate": 6.88796747573208e-05,
       "loss": 0.0006,
+      "step": 104500
     },
     {
       "epoch": 7.7,
+      "learning_rate": 6.832399796319197e-05,
+      "loss": 0.0006,
+      "step": 105875
     },
     {
       "epoch": 7.8,
+      "learning_rate": 6.776832116906315e-05,
+      "loss": 0.0005,
+      "step": 107250
     },
     {
       "epoch": 7.9,
+      "learning_rate": 6.721264437493433e-05,
+      "loss": 0.0005,
+      "step": 108625
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.016180865466594696,
+      "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.9709,
+      "eval_samples_per_second": 16.781,
+      "eval_steps_per_second": 1.127,
+      "step": 109976
     },
     {
       "epoch": 8.0,
+      "learning_rate": 6.665696758080551e-05,
+      "loss": 0.0005,
+      "step": 110000
     },
     {
       "epoch": 8.1,
+      "learning_rate": 6.610129078667669e-05,
+      "loss": 0.0005,
+      "step": 111375
     },
     {
       "epoch": 8.2,
+      "learning_rate": 6.554561399254787e-05,
+      "loss": 0.0006,
+      "step": 112750
     },
     {
       "epoch": 8.3,
+      "learning_rate": 6.498993719841905e-05,
+      "loss": 0.0005,
+      "step": 114125
     },
     {
       "epoch": 8.4,
+      "learning_rate": 6.443426040429024e-05,
+      "loss": 0.0005,
+      "step": 115500
     },
     {
       "epoch": 8.5,
+      "learning_rate": 6.387858361016142e-05,
+      "loss": 0.0005,
+      "step": 116875
     },
     {
       "epoch": 8.6,
+      "learning_rate": 6.332290681603258e-05,
+      "loss": 0.0005,
+      "step": 118250
     },
     {
       "epoch": 8.7,
+      "learning_rate": 6.276723002190376e-05,
+      "loss": 0.0005,
+      "step": 119625
     },
     {
       "epoch": 8.8,
+      "learning_rate": 6.221155322777496e-05,
+      "loss": 0.0005,
+      "step": 121000
     },
     {
       "epoch": 8.9,
+      "learning_rate": 6.165587643364614e-05,
+      "loss": 0.0005,
+      "step": 122375
     },
     {
       "epoch": 9.0,
+      "eval_loss": 0.014703923836350441,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.6578,
+      "eval_samples_per_second": 17.116,
+      "eval_steps_per_second": 1.15,
+      "step": 123723
     },
     {
       "epoch": 9.0,
+      "learning_rate": 6.110019963951731e-05,
+      "loss": 0.0004,
+      "step": 123750
     },
     {
       "epoch": 9.1,
+      "learning_rate": 6.0544522845388493e-05,
+      "loss": 0.0004,
+      "step": 125125
     },
     {
       "epoch": 9.2,
+      "learning_rate": 5.998884605125967e-05,
+      "loss": 0.0005,
+      "step": 126500
     },
     {
       "epoch": 9.3,
+      "learning_rate": 5.943316925713085e-05,
       "loss": 0.0005,
+      "step": 127875
     },
     {
       "epoch": 9.4,
+      "learning_rate": 5.8877492463002024e-05,
+      "loss": 0.0005,
+      "step": 129250
     },
     {
       "epoch": 9.5,
+      "learning_rate": 5.8321815668873216e-05,
+      "loss": 0.0005,
+      "step": 130625
     },
     {
       "epoch": 9.6,
+      "learning_rate": 5.776613887474439e-05,
       "loss": 0.0006,
+      "step": 132000
     },
     {
       "epoch": 9.7,
+      "learning_rate": 5.721046208061557e-05,
+      "loss": 0.0005,
+      "step": 133375
     },
     {
       "epoch": 9.8,
+      "learning_rate": 5.6654785286486754e-05,
+      "loss": 0.0005,
+      "step": 134750
     },
     {
       "epoch": 9.9,
+      "learning_rate": 5.609910849235793e-05,
+      "loss": 0.0005,
+      "step": 136125
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.018843844532966614,
+      "eval_max_distance": 5,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.9456,
+      "eval_samples_per_second": 16.807,
+      "eval_steps_per_second": 1.129,
+      "step": 137470
     },
     {
       "epoch": 10.0,
+      "learning_rate": 5.554343169822911e-05,
+      "loss": 0.0005,
+      "step": 137500
     },
     {
       "epoch": 10.1,
+      "learning_rate": 5.4987754904100284e-05,
+      "loss": 0.0005,
+      "step": 138875
     },
     {
       "epoch": 10.2,
+      "learning_rate": 5.443207810997148e-05,
+      "loss": 0.0005,
+      "step": 140250
     },
     {
       "epoch": 10.3,
+      "learning_rate": 5.387640131584265e-05,
+      "loss": 0.0005,
+      "step": 141625
     },
     {
       "epoch": 10.4,
+      "learning_rate": 5.332072452171383e-05,
+      "loss": 0.0005,
+      "step": 143000
     },
     {
       "epoch": 10.5,
+      "learning_rate": 5.2765047727585014e-05,
       "loss": 0.0005,
+      "step": 144375
     },
     {
       "epoch": 10.6,
+      "learning_rate": 5.220937093345619e-05,
+      "loss": 0.0004,
+      "step": 145750
     },
     {
       "epoch": 10.7,
+      "learning_rate": 5.165369413932737e-05,
+      "loss": 0.0004,
+      "step": 147125
     },
     {
       "epoch": 10.8,
+      "learning_rate": 5.1098017345198544e-05,
       "loss": 0.0006,
+      "step": 148500
     },
     {
       "epoch": 10.9,
+      "learning_rate": 5.054234055106973e-05,
+      "loss": 0.0004,
+      "step": 149875
     },
     {
       "epoch": 11.0,
+      "eval_loss": 0.016838768497109413,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.6708,
+      "eval_samples_per_second": 17.102,
+      "eval_steps_per_second": 1.149,
+      "step": 151217
     },
     {
       "epoch": 11.0,
+      "learning_rate": 4.998666375694091e-05,
+      "loss": 0.0005,
+      "step": 151250
     },
     {
       "epoch": 11.1,
+      "learning_rate": 4.9430986962812095e-05,
+      "loss": 0.0004,
+      "step": 152625
     },
     {
       "epoch": 11.2,
+      "learning_rate": 4.887531016868327e-05,
+      "loss": 0.0004,
+      "step": 154000
     },
     {
       "epoch": 11.3,
+      "learning_rate": 4.831963337455445e-05,
+      "loss": 0.0004,
+      "step": 155375
     },
     {
       "epoch": 11.4,
+      "learning_rate": 4.7763956580425626e-05,
+      "loss": 0.0004,
+      "step": 156750
     },
     {
       "epoch": 11.5,
+      "learning_rate": 4.720827978629681e-05,
+      "loss": 0.0004,
+      "step": 158125
     },
     {
       "epoch": 11.6,
+      "learning_rate": 4.665260299216799e-05,
+      "loss": 0.0004,
+      "step": 159500
     },
     {
       "epoch": 11.7,
+      "learning_rate": 4.609692619803917e-05,
+      "loss": 0.0004,
+      "step": 160875
     },
     {
       "epoch": 11.8,
+      "learning_rate": 4.5541249403910355e-05,
+      "loss": 0.0004,
+      "step": 162250
     },
     {
       "epoch": 11.9,
+      "learning_rate": 4.498557260978153e-05,
+      "loss": 0.0004,
+      "step": 163625
     },
     {
       "epoch": 12.0,
+      "eval_loss": 0.017172418534755707,
+      "eval_max_distance": 4,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.706,
+      "eval_samples_per_second": 17.064,
+      "eval_steps_per_second": 1.146,
+      "step": 164964
     },
     {
       "epoch": 12.0,
+      "learning_rate": 4.4429895815652714e-05,
+      "loss": 0.0004,
+      "step": 165000
     },
     {
       "epoch": 12.1,
+      "learning_rate": 4.3874219021523886e-05,
+      "loss": 0.0004,
+      "step": 166375
     },
     {
       "epoch": 12.2,
+      "learning_rate": 4.331854222739507e-05,
+      "loss": 0.0004,
+      "step": 167750
     },
     {
       "epoch": 12.3,
+      "learning_rate": 4.276286543326625e-05,
+      "loss": 0.0004,
+      "step": 169125
     },
     {
       "epoch": 12.4,
+      "learning_rate": 4.220718863913743e-05,
+      "loss": 0.0004,
+      "step": 170500
     },
     {
       "epoch": 12.5,
+      "learning_rate": 4.165151184500861e-05,
       "loss": 0.0004,
+      "step": 171875
     },
     {
       "epoch": 12.6,
+      "learning_rate": 4.109583505087979e-05,
+      "loss": 0.0004,
+      "step": 173250
     },
     {
       "epoch": 12.7,
+      "learning_rate": 4.0540158256750974e-05,
+      "loss": 0.0004,
+      "step": 174625
     },
     {
       "epoch": 12.8,
+      "learning_rate": 3.9984481462622146e-05,
+      "loss": 0.0004,
+      "step": 176000
     },
     {
       "epoch": 12.9,
+      "learning_rate": 3.942880466849333e-05,
+      "loss": 0.0004,
+      "step": 177375
     },
     {
       "epoch": 13.0,
+      "eval_loss": 0.01684817485511303,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.8959,
+      "eval_samples_per_second": 16.86,
+      "eval_steps_per_second": 1.132,
+      "step": 178711
     },
     {
       "epoch": 13.0,
+      "learning_rate": 3.887312787436451e-05,
+      "loss": 0.0004,
+      "step": 178750
     },
     {
       "epoch": 13.1,
+      "learning_rate": 3.831745108023569e-05,
+      "loss": 0.0004,
+      "step": 180125
     },
     {
       "epoch": 13.2,
+      "learning_rate": 3.776177428610687e-05,
+      "loss": 0.0003,
+      "step": 181500
     },
     {
       "epoch": 13.3,
+      "learning_rate": 3.720609749197805e-05,
+      "loss": 0.0004,
+      "step": 182875
     },
     {
       "epoch": 13.4,
+      "learning_rate": 3.665042069784923e-05,
+      "loss": 0.0003,
+      "step": 184250
     },
     {
       "epoch": 13.5,
+      "learning_rate": 3.6094743903720406e-05,
+      "loss": 0.0005,
+      "step": 185625
     },
     {
       "epoch": 13.6,
+      "learning_rate": 3.553906710959159e-05,
+      "loss": 0.0004,
+      "step": 187000
     },
     {
       "epoch": 13.7,
+      "learning_rate": 3.498339031546277e-05,
+      "loss": 0.0004,
+      "step": 188375
     },
     {
       "epoch": 13.8,
+      "learning_rate": 3.442771352133395e-05,
+      "loss": 0.0003,
+      "step": 189750
     },
     {
       "epoch": 13.9,
+      "learning_rate": 3.387203672720513e-05,
+      "loss": 0.0004,
+      "step": 191125
     },
     {
       "epoch": 14.0,
+      "eval_loss": 0.01621120423078537,
+      "eval_max_distance": 2,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.9061,
+      "eval_samples_per_second": 16.849,
+      "eval_steps_per_second": 1.132,
+      "step": 192458
     },
     {
       "epoch": 14.0,
+      "learning_rate": 3.331635993307631e-05,
       "loss": 0.0004,
+      "step": 192500
     },
     {
       "epoch": 14.1,
+      "learning_rate": 3.276068313894749e-05,
+      "loss": 0.0003,
+      "step": 193875
     },
     {
       "epoch": 14.2,
+      "learning_rate": 3.220500634481867e-05,
+      "loss": 0.0004,
+      "step": 195250
     },
     {
       "epoch": 14.3,
+      "learning_rate": 3.1649329550689846e-05,
+      "loss": 0.0003,
+      "step": 196625
     },
     {
       "epoch": 14.4,
+      "learning_rate": 3.109365275656103e-05,
       "loss": 0.0004,
+      "step": 198000
     },
     {
       "epoch": 14.5,
+      "learning_rate": 3.053797596243221e-05,
+      "loss": 0.0003,
+      "step": 199375
     },
     {
       "epoch": 14.6,
+      "learning_rate": 2.998229916830339e-05,
+      "loss": 0.0004,
+      "step": 200750
     },
     {
       "epoch": 14.7,
+      "learning_rate": 2.942662237417457e-05,
+      "loss": 0.0003,
+      "step": 202125
     },
     {
       "epoch": 14.8,
+      "learning_rate": 2.8870945580045748e-05,
       "loss": 0.0004,
+      "step": 203500
     },
     {
       "epoch": 14.9,
+      "learning_rate": 2.8315268785916927e-05,
       "loss": 0.0004,
+      "step": 204875
     },
     {
       "epoch": 15.0,
+      "eval_loss": 0.016450826078653336,
+      "eval_max_distance": 2,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.843,
+      "eval_samples_per_second": 16.916,
+      "eval_steps_per_second": 1.136,
+      "step": 206205
     },
     {
       "epoch": 15.0,
+      "learning_rate": 2.775959199178811e-05,
+      "loss": 0.0003,
+      "step": 206250
     },
     {
       "epoch": 15.1,
+      "learning_rate": 2.7203915197659292e-05,
+      "loss": 0.0003,
+      "step": 207625
     },
     {
       "epoch": 15.2,
+      "learning_rate": 2.6648238403530468e-05,
+      "loss": 0.0003,
+      "step": 209000
     },
     {
       "epoch": 15.3,
+      "learning_rate": 2.609256160940165e-05,
+      "loss": 0.0003,
+      "step": 210375
     },
     {
       "epoch": 15.4,
+      "learning_rate": 2.5536884815272826e-05,
+      "loss": 0.0003,
+      "step": 211750
     },
     {
       "epoch": 15.5,
+      "learning_rate": 2.4981208021144008e-05,
+      "loss": 0.0004,
+      "step": 213125
     },
     {
       "epoch": 15.6,
+      "learning_rate": 2.4425531227015187e-05,
       "loss": 0.0004,
+      "step": 214500
     },
     {
       "epoch": 15.7,
+      "learning_rate": 2.386985443288637e-05,
       "loss": 0.0004,
+      "step": 215875
     },
     {
       "epoch": 15.8,
+      "learning_rate": 2.331417763875755e-05,
+      "loss": 0.0003,
+      "step": 217250
     },
     {
       "epoch": 15.9,
+      "learning_rate": 2.2758500844628728e-05,
+      "loss": 0.0003,
+      "step": 218625
     },
     {
       "epoch": 16.0,
+      "eval_loss": 0.015056570991873741,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.5877,
+      "eval_samples_per_second": 17.193,
+      "eval_steps_per_second": 1.155,
+      "step": 219952
     },
     {
       "epoch": 16.0,
+      "learning_rate": 2.2202824050499907e-05,
+      "loss": 0.0003,
+      "step": 220000
     },
     {
       "epoch": 16.1,
+      "learning_rate": 2.164714725637109e-05,
       "loss": 0.0004,
+      "step": 221375
     },
     {
       "epoch": 16.2,
+      "learning_rate": 2.109147046224227e-05,
       "loss": 0.0004,
+      "step": 222750
     },
     {
       "epoch": 16.3,
+      "learning_rate": 2.0535793668113448e-05,
+      "loss": 0.0003,
+      "step": 224125
     },
     {
       "epoch": 16.4,
+      "learning_rate": 1.9980116873984627e-05,
+      "loss": 0.0003,
+      "step": 225500
     },
     {
       "epoch": 16.5,
+      "learning_rate": 1.9424440079855806e-05,
       "loss": 0.0004,
+      "step": 226875
     },
     {
       "epoch": 16.6,
+      "learning_rate": 1.8868763285726988e-05,
+      "loss": 0.0003,
+      "step": 228250
     },
     {
       "epoch": 16.7,
+      "learning_rate": 1.8313086491598167e-05,
+      "loss": 0.0003,
+      "step": 229625
     },
     {
       "epoch": 16.8,
+      "learning_rate": 1.775740969746935e-05,
+      "loss": 0.0003,
+      "step": 231000
     },
     {
       "epoch": 16.9,
+      "learning_rate": 1.720173290334053e-05,
       "loss": 0.0004,
+      "step": 232375
     },
     {
       "epoch": 17.0,
+      "eval_loss": 0.01368328370153904,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.9295,
+      "eval_samples_per_second": 16.824,
+      "eval_steps_per_second": 1.13,
+      "step": 233699
     },
     {
       "epoch": 17.0,
+      "learning_rate": 1.6646056109211708e-05,
       "loss": 0.0004,
+      "step": 233750
     },
     {
       "epoch": 17.1,
+      "learning_rate": 1.6090379315082887e-05,
+      "loss": 0.0003,
+      "step": 235125
     },
     {
+      "epoch": 17.2,
+      "learning_rate": 1.5534702520954066e-05,
+      "loss": 0.0003,
+      "step": 236500
     },
     {
+      "epoch": 17.3,
+      "learning_rate": 1.4979025726825247e-05,
+      "loss": 0.0003,
+      "step": 237875
     },
     {
+      "epoch": 17.4,
+      "learning_rate": 1.4423348932696426e-05,
+      "loss": 0.0003,
+      "step": 239250
     },
     {
+      "epoch": 17.5,
+      "learning_rate": 1.3867672138567608e-05,
+      "loss": 0.0003,
+      "step": 240625
     },
     {
+      "epoch": 17.6,
+      "learning_rate": 1.3311995344438787e-05,
+      "loss": 0.0003,
+      "step": 242000
     },
     {
+      "epoch": 17.7,
+      "learning_rate": 1.2756318550309968e-05,
+      "loss": 0.0003,
+      "step": 243375
     },
     {
+      "epoch": 17.8,
+      "learning_rate": 1.2200641756181147e-05,
+      "loss": 0.0003,
+      "step": 244750
     },
     {
+      "epoch": 17.9,
+      "learning_rate": 1.1644964962052326e-05,
+      "loss": 0.0003,
+      "step": 246125
     },
     {
       "epoch": 18.0,
+      "eval_loss": 0.014638499356806278,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.7143,
+      "eval_samples_per_second": 17.054,
+      "eval_steps_per_second": 1.145,
+      "step": 247446
     },
     {
+      "epoch": 18.0,
+      "learning_rate": 1.1089288167923507e-05,
+      "loss": 0.0003,
+      "step": 247500
     },
     {
+      "epoch": 18.1,
+      "learning_rate": 1.0533611373794686e-05,
+      "loss": 0.0003,
+      "step": 248875
     },
     {
+      "epoch": 18.2,
+      "learning_rate": 9.977934579665867e-06,
+      "loss": 0.0003,
+      "step": 250250
     },
     {
+      "epoch": 18.3,
+      "learning_rate": 9.422257785537048e-06,
       "loss": 0.0003,
+      "step": 251625
     },
     {
+      "epoch": 18.4,
+      "learning_rate": 8.866580991408227e-06,
+      "loss": 0.0003,
+      "step": 253000
     },
     {
+      "epoch": 18.5,
+      "learning_rate": 8.310904197279406e-06,
+      "loss": 0.0003,
+      "step": 254375
     },
     {
+      "epoch": 18.6,
+      "learning_rate": 7.755227403150587e-06,
       "loss": 0.0004,
+      "step": 255750
     },
     {
+      "epoch": 18.7,
+      "learning_rate": 7.199550609021767e-06,
+      "loss": 0.0003,
+      "step": 257125
     },
     {
+      "epoch": 18.8,
+      "learning_rate": 6.6438738148929465e-06,
       "loss": 0.0003,
+      "step": 258500
     },
     {
+      "epoch": 18.9,
+      "learning_rate": 6.088197020764127e-06,
+      "loss": 0.0003,
+      "step": 259875
     },
     {
       "epoch": 19.0,
+      "eval_loss": 0.015229469165205956,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.6105,
+      "eval_samples_per_second": 17.168,
+      "eval_steps_per_second": 1.153,
+      "step": 261193
     },
     {
+      "epoch": 19.0,
+      "learning_rate": 5.532520226635306e-06,
+      "loss": 0.0003,
+      "step": 261250
     },
     {
+      "epoch": 19.1,
+      "learning_rate": 4.976843432506486e-06,
+      "loss": 0.0003,
+      "step": 262625
     },
     {
+      "epoch": 19.2,
+      "learning_rate": 4.421166638377666e-06,
+      "loss": 0.0003,
+      "step": 264000
     },
     {
+      "epoch": 19.3,
+      "learning_rate": 3.865489844248846e-06,
+      "loss": 0.0003,
+      "step": 265375
     },
     {
+      "epoch": 19.4,
+      "learning_rate": 3.309813050120027e-06,
+      "loss": 0.0003,
+      "step": 266750
     },
     {
+      "epoch": 19.5,
+      "learning_rate": 2.7541362559912064e-06,
+      "loss": 0.0003,
+      "step": 268125
     },
     {
+      "epoch": 19.6,
+      "learning_rate": 2.1984594618623863e-06,
       "loss": 0.0003,
+      "step": 269500
     },
     {
+      "epoch": 19.7,
+      "learning_rate": 1.6427826677335664e-06,
+      "loss": 0.0003,
+      "step": 270875
     },
     {
+      "epoch": 19.8,
+      "learning_rate": 1.0871058736047461e-06,
       "loss": 0.0003,
+      "step": 272250
     },
     {
+      "epoch": 19.9,
+      "learning_rate": 5.31429079475926e-07,
+      "loss": 0.0003,
+      "step": 273625
     },
     {
       "epoch": 20.0,
+      "eval_loss": 0.015233452431857586,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.6363,
+      "eval_samples_per_second": 17.14,
+      "eval_steps_per_second": 1.151,
+      "step": 274940
     },
     {
       "epoch": 20.0,
+      "step": 274940,
+      "total_flos": 7.20387481955881e+16,
+      "train_loss": 0.00045419663040463374,
+      "train_runtime": 19389.5827,
+      "train_samples_per_second": 212.682,
+      "train_steps_per_second": 14.18
     }
   ],
+  "logging_steps": 1375,
+  "max_steps": 274940,
   "num_train_epochs": 20,
+  "save_steps": 2750,
+  "total_flos": 7.20387481955881e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fcbb4734a1034f7e19548fb8450d8c0a52da16d2253c49bf3ef5741ac2faac2
 size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:11404ac3fc96ba698fa232f738237fb864a527c9cdcf006042014fef3b60a4aa
 size 4091