alexue4
/

text-normalization-ru-new

@@ -15,9 +15,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [alexue4/text-normalization-ru-new](https://huggingface.co/alexue4/text-normalization-ru-new) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0061
 - Mean Distance: 0
-- Max Distance: 3
 ## Model description
@@ -47,28 +47,28 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step  | Validation Loss | Mean Distance | Max Distance |
-|:-------------:|:-----:|:-----:|:---------------:|:-------------:|:------------:|
-| 0.0013        | 1.0   | 846   | 0.0053          | 0             | 3            |
-| 0.0011        | 2.0   | 1692  | 0.0043          | 0             | 3            |
-| 0.0009        | 3.0   | 2538  | 0.0049          | 0             | 3            |
-| 0.0008        | 4.0   | 3384  | 0.0043          | 0             | 3            |
-| 0.0005        | 5.0   | 4230  | 0.0048          | 0             | 3            |
-| 0.0006        | 6.0   | 5076  | 0.0024          | 0             | 3            |
-| 0.0005        | 7.0   | 5922  | 0.0029          | 0             | 3            |
-| 0.0008        | 8.0   | 6768  | 0.0061          | 0             | 3            |
-| 0.0006        | 9.0   | 7614  | 0.0050          | 0             | 3            |
-| 0.0006        | 10.0  | 8460  | 0.0092          | 0             | 3            |
-| 0.0004        | 11.0  | 9306  | 0.0066          | 0             | 3            |
-| 0.0004        | 12.0  | 10152 | 0.0065          | 0             | 3            |
-| 0.0003        | 13.0  | 10998 | 0.0066          | 0             | 3            |
-| 0.0005        | 14.0  | 11844 | 0.0062          | 0             | 3            |
-| 0.0003        | 15.0  | 12690 | 0.0061          | 0             | 3            |
-| 0.0004        | 16.0  | 13536 | 0.0059          | 0             | 3            |
-| 0.0003        | 17.0  | 14382 | 0.0060          | 0             | 3            |
-| 0.0004        | 18.0  | 15228 | 0.0061          | 0             | 3            |
-| 0.0003        | 19.0  | 16074 | 0.0061          | 0             | 3            |
-| 0.0005        | 20.0  | 16920 | 0.0061          | 0             | 3            |
 ### Framework versions

 This model is a fine-tuned version of [alexue4/text-normalization-ru-new](https://huggingface.co/alexue4/text-normalization-ru-new) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0169
 - Mean Distance: 0
+- Max Distance: 1
 ## Model description
 ### Training results
+| Training Loss | Epoch | Step   | Validation Loss | Max Distance | Mean Distance |
+|:-------------:|:-----:|:------:|:---------------:|:------------:|:-------------:|
+| 0.001         | 1.0   | 13726  | 0.0114          | 5            | 0             |
+| 0.0009        | 2.0   | 27452  | 0.0143          | 3            | 0             |
+| 0.0008        | 3.0   | 41178  | 0.0145          | 3            | 0             |
+| 0.0009        | 4.0   | 54904  | 0.0098          | 1            | 0             |
+| 0.0007        | 5.0   | 68630  | 0.0130          | 2            | 0             |
+| 0.0008        | 6.0   | 82356  | 0.0153          | 2            | 0             |
+| 0.0007        | 7.0   | 96082  | 0.0128          | 2            | 0             |
+| 0.0006        | 8.0   | 109808 | 0.0130          | 3            | 0             |
+| 0.0006        | 9.0   | 123534 | 0.0158          | 5            | 0             |
+| 0.0006        | 10.0  | 137260 | 0.0151          | 1            | 0             |
+| 0.0005        | 11.0  | 150986 | 0.0167          | 1            | 0             |
+| 0.0005        | 12.0  | 164712 | 0.0145          | 1            | 0             |
+| 0.0005        | 13.0  | 178438 | 0.0160          | 1            | 0             |
+| 0.0005        | 14.0  | 192164 | 0.0157          | 1            | 0             |
+| 0.0004        | 15.0  | 205890 | 0.0157          | 1            | 0             |
+| 0.0004        | 16.0  | 219616 | 0.0173          | 1            | 0             |
+| 0.0004        | 17.0  | 233342 | 0.0159          | 1            | 0             |
+| 0.0004        | 18.0  | 247068 | 0.0168          | 2            | 0             |
+| 0.0004        | 19.0  | 260794 | 0.0168          | 0            | 1             |
+| 0.0004        | 20.0  | 274520 | 0.0169          | 0            | 1             |
 ### Framework versions

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78b0e0c08d3da00bb77130eb2c3c6172ba691bea22a870c4dbca3b69010646ea
 size 258643461

 version https://git-lfs.github.com/spec/v1
+oid sha256:9727576aa431487c27ceb1092c700d9e76b20865987fbc3ac38d6006432aac18
 size 258643461

trainer_state.json CHANGED Viewed

@@ -3,1426 +3,1426 @@
   "best_model_checkpoint": null,
   "epoch": 20.0,
   "eval_steps": 500,
-  "global_step": 16920,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 5.91016548463357e-08,
-      "loss": 0.0002,
       "step": 1
     },
     {
       "epoch": 0.1,
-      "learning_rate": 5.023640661938535e-06,
-      "loss": 0.0009,
-      "step": 85
     },
     {
       "epoch": 0.2,
-      "learning_rate": 1.004728132387707e-05,
-      "loss": 0.0012,
-      "step": 170
     },
     {
       "epoch": 0.3,
-      "learning_rate": 1.5070921985815603e-05,
-      "loss": 0.0012,
-      "step": 255
     },
     {
       "epoch": 0.4,
-      "learning_rate": 2.009456264775414e-05,
-      "loss": 0.0007,
-      "step": 340
     },
     {
       "epoch": 0.5,
-      "learning_rate": 2.5118203309692672e-05,
-      "loss": 0.0012,
-      "step": 425
     },
     {
       "epoch": 0.6,
-      "learning_rate": 3.0141843971631207e-05,
       "loss": 0.0014,
-      "step": 510
     },
     {
       "epoch": 0.7,
-      "learning_rate": 3.516548463356974e-05,
-      "loss": 0.0016,
-      "step": 595
     },
     {
       "epoch": 0.8,
-      "learning_rate": 4.018912529550828e-05,
-      "loss": 0.0018,
-      "step": 680
     },
     {
       "epoch": 0.9,
-      "learning_rate": 4.5212765957446815e-05,
-      "loss": 0.0013,
-      "step": 765
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.005299737676978111,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 34.0947,
-      "eval_samples_per_second": 7.626,
-      "eval_steps_per_second": 0.528,
-      "step": 846
     },
     {
       "epoch": 1.0,
-      "learning_rate": 5.0236406619385343e-05,
-      "loss": 0.001,
-      "step": 850
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 5.526004728132388e-05,
       "loss": 0.0008,
-      "step": 935
     },
     {
-      "epoch": 1.21,
-      "learning_rate": 6.0283687943262414e-05,
-      "loss": 0.0012,
-      "step": 1020
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 6.530732860520094e-05,
-      "loss": 0.0015,
-      "step": 1105
     },
     {
-      "epoch": 1.41,
-      "learning_rate": 7.033096926713948e-05,
-      "loss": 0.0019,
-      "step": 1190
     },
     {
-      "epoch": 1.51,
-      "learning_rate": 7.535460992907801e-05,
-      "loss": 0.001,
-      "step": 1275
     },
     {
-      "epoch": 1.61,
-      "learning_rate": 8.037825059101656e-05,
-      "loss": 0.0012,
-      "step": 1360
     },
     {
-      "epoch": 1.71,
-      "learning_rate": 8.54018912529551e-05,
-      "loss": 0.0007,
-      "step": 1445
     },
     {
-      "epoch": 1.81,
-      "learning_rate": 9.042553191489363e-05,
       "loss": 0.0008,
-      "step": 1530
     },
     {
-      "epoch": 1.91,
-      "learning_rate": 9.544917257683215e-05,
-      "loss": 0.0011,
-      "step": 1615
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.004299119580537081,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 30.4314,
-      "eval_samples_per_second": 8.544,
-      "eval_steps_per_second": 0.591,
-      "step": 1692
     },
     {
-      "epoch": 2.01,
-      "learning_rate": 9.994746519569215e-05,
-      "loss": 0.0007,
-      "step": 1700
     },
     {
-      "epoch": 2.11,
-      "learning_rate": 9.93892828999212e-05,
-      "loss": 0.001,
-      "step": 1785
     },
     {
-      "epoch": 2.21,
-      "learning_rate": 9.883110060415024e-05,
       "loss": 0.0008,
-      "step": 1870
     },
     {
-      "epoch": 2.31,
-      "learning_rate": 9.82729183083793e-05,
-      "loss": 0.0015,
-      "step": 1955
     },
     {
-      "epoch": 2.41,
-      "learning_rate": 9.771473601260836e-05,
-      "loss": 0.0011,
-      "step": 2040
     },
     {
-      "epoch": 2.51,
-      "learning_rate": 9.715655371683741e-05,
-      "loss": 0.0011,
-      "step": 2125
     },
     {
-      "epoch": 2.61,
-      "learning_rate": 9.659837142106646e-05,
-      "loss": 0.0008,
-      "step": 2210
     },
     {
-      "epoch": 2.71,
-      "learning_rate": 9.604018912529551e-05,
       "loss": 0.0008,
-      "step": 2295
     },
     {
-      "epoch": 2.81,
-      "learning_rate": 9.548200682952457e-05,
-      "loss": 0.0009,
-      "step": 2380
     },
     {
-      "epoch": 2.91,
-      "learning_rate": 9.492382453375361e-05,
-      "loss": 0.0009,
-      "step": 2465
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.004937924910336733,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 30.2916,
-      "eval_samples_per_second": 8.583,
-      "eval_steps_per_second": 0.594,
-      "step": 2538
     },
     {
-      "epoch": 3.01,
-      "learning_rate": 9.436564223798267e-05,
-      "loss": 0.0013,
-      "step": 2550
     },
     {
-      "epoch": 3.11,
-      "learning_rate": 9.380745994221172e-05,
       "loss": 0.0008,
-      "step": 2635
     },
     {
-      "epoch": 3.22,
-      "learning_rate": 9.324927764644077e-05,
-      "loss": 0.0006,
-      "step": 2720
     },
     {
-      "epoch": 3.32,
-      "learning_rate": 9.269109535066982e-05,
-      "loss": 0.0009,
-      "step": 2805
     },
     {
-      "epoch": 3.42,
-      "learning_rate": 9.213291305489888e-05,
-      "loss": 0.0007,
-      "step": 2890
     },
     {
-      "epoch": 3.52,
-      "learning_rate": 9.157473075912792e-05,
-      "loss": 0.0007,
-      "step": 2975
     },
     {
-      "epoch": 3.62,
-      "learning_rate": 9.101654846335698e-05,
-      "loss": 0.001,
-      "step": 3060
     },
     {
-      "epoch": 3.72,
-      "learning_rate": 9.045836616758603e-05,
-      "loss": 0.0007,
-      "step": 3145
     },
     {
-      "epoch": 3.82,
-      "learning_rate": 8.990018387181508e-05,
-      "loss": 0.0009,
-      "step": 3230
     },
     {
-      "epoch": 3.92,
-      "learning_rate": 8.934200157604413e-05,
-      "loss": 0.0008,
-      "step": 3315
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.004295715596526861,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 30.309,
-      "eval_samples_per_second": 8.578,
-      "eval_steps_per_second": 0.594,
-      "step": 3384
     },
     {
-      "epoch": 4.02,
-      "learning_rate": 8.878381928027319e-05,
       "loss": 0.0009,
-      "step": 3400
     },
     {
-      "epoch": 4.12,
-      "learning_rate": 8.822563698450223e-05,
-      "loss": 0.0007,
-      "step": 3485
     },
     {
-      "epoch": 4.22,
-      "learning_rate": 8.766745468873129e-05,
-      "loss": 0.0005,
-      "step": 3570
     },
     {
-      "epoch": 4.32,
-      "learning_rate": 8.710927239296034e-05,
-      "loss": 0.0004,
-      "step": 3655
     },
     {
-      "epoch": 4.42,
-      "learning_rate": 8.655109009718939e-05,
-      "loss": 0.0009,
-      "step": 3740
     },
     {
-      "epoch": 4.52,
-      "learning_rate": 8.599290780141844e-05,
-      "loss": 0.0009,
-      "step": 3825
     },
     {
-      "epoch": 4.62,
-      "learning_rate": 8.54347255056475e-05,
-      "loss": 0.0005,
-      "step": 3910
     },
     {
-      "epoch": 4.72,
-      "learning_rate": 8.487654320987654e-05,
-      "loss": 0.0006,
-      "step": 3995
     },
     {
-      "epoch": 4.82,
-      "learning_rate": 8.43183609141056e-05,
-      "loss": 0.0004,
-      "step": 4080
     },
     {
-      "epoch": 4.92,
-      "learning_rate": 8.376017861833465e-05,
-      "loss": 0.0005,
-      "step": 4165
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.004825934302061796,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 31.3644,
-      "eval_samples_per_second": 8.29,
-      "eval_steps_per_second": 0.574,
-      "step": 4230
     },
     {
-      "epoch": 5.02,
-      "learning_rate": 8.320199632256371e-05,
-      "loss": 0.0007,
-      "step": 4250
     },
     {
-      "epoch": 5.12,
-      "learning_rate": 8.264381402679275e-05,
-      "loss": 0.0007,
-      "step": 4335
     },
     {
-      "epoch": 5.22,
-      "learning_rate": 8.208563173102181e-05,
-      "loss": 0.0006,
-      "step": 4420
     },
     {
-      "epoch": 5.33,
-      "learning_rate": 8.152744943525086e-05,
       "loss": 0.0008,
-      "step": 4505
     },
     {
-      "epoch": 5.43,
-      "learning_rate": 8.09692671394799e-05,
-      "loss": 0.0009,
-      "step": 4590
     },
     {
-      "epoch": 5.53,
-      "learning_rate": 8.041108484370896e-05,
       "loss": 0.0007,
-      "step": 4675
     },
     {
-      "epoch": 5.63,
-      "learning_rate": 7.985290254793802e-05,
-      "loss": 0.0007,
-      "step": 4760
     },
     {
-      "epoch": 5.73,
-      "learning_rate": 7.929472025216706e-05,
-      "loss": 0.0004,
-      "step": 4845
     },
     {
-      "epoch": 5.83,
-      "learning_rate": 7.873653795639612e-05,
-      "loss": 0.0007,
-      "step": 4930
     },
     {
-      "epoch": 5.93,
-      "learning_rate": 7.817835566062517e-05,
-      "loss": 0.0006,
-      "step": 5015
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.0023884631227701902,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 30.4064,
-      "eval_samples_per_second": 8.551,
-      "eval_steps_per_second": 0.592,
-      "step": 5076
     },
     {
-      "epoch": 6.03,
-      "learning_rate": 7.762017336485422e-05,
-      "loss": 0.0005,
-      "step": 5100
     },
     {
-      "epoch": 6.13,
-      "learning_rate": 7.706199106908327e-05,
-      "loss": 0.0006,
-      "step": 5185
     },
     {
-      "epoch": 6.23,
-      "learning_rate": 7.650380877331233e-05,
-      "loss": 0.0005,
-      "step": 5270
     },
     {
-      "epoch": 6.33,
-      "learning_rate": 7.594562647754137e-05,
-      "loss": 0.0003,
-      "step": 5355
     },
     {
-      "epoch": 6.43,
-      "learning_rate": 7.538744418177043e-05,
       "loss": 0.0007,
-      "step": 5440
     },
     {
-      "epoch": 6.53,
-      "learning_rate": 7.482926188599948e-05,
-      "loss": 0.0008,
-      "step": 5525
     },
     {
-      "epoch": 6.63,
-      "learning_rate": 7.427107959022853e-05,
-      "loss": 0.0004,
-      "step": 5610
     },
     {
-      "epoch": 6.73,
-      "learning_rate": 7.371289729445758e-05,
-      "loss": 0.0009,
-      "step": 5695
     },
     {
-      "epoch": 6.83,
-      "learning_rate": 7.315471499868664e-05,
-      "loss": 0.0008,
-      "step": 5780
     },
     {
-      "epoch": 6.93,
-      "learning_rate": 7.259653270291568e-05,
-      "loss": 0.0005,
-      "step": 5865
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.002862530527636409,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 30.524,
-      "eval_samples_per_second": 8.518,
-      "eval_steps_per_second": 0.59,
-      "step": 5922
     },
     {
-      "epoch": 7.03,
-      "learning_rate": 7.203835040714474e-05,
       "loss": 0.0007,
-      "step": 5950
     },
     {
-      "epoch": 7.13,
-      "learning_rate": 7.14801681113738e-05,
-      "loss": 0.0006,
-      "step": 6035
     },
     {
-      "epoch": 7.23,
-      "learning_rate": 7.092198581560284e-05,
-      "loss": 0.0005,
-      "step": 6120
     },
     {
-      "epoch": 7.33,
-      "learning_rate": 7.036380351983189e-05,
-      "loss": 0.0004,
-      "step": 6205
     },
     {
-      "epoch": 7.43,
-      "learning_rate": 6.980562122406095e-05,
       "loss": 0.0007,
-      "step": 6290
     },
     {
-      "epoch": 7.54,
-      "learning_rate": 6.924743892829e-05,
       "loss": 0.0006,
-      "step": 6375
     },
     {
-      "epoch": 7.64,
-      "learning_rate": 6.868925663251905e-05,
-      "loss": 0.0005,
-      "step": 6460
     },
     {
-      "epoch": 7.74,
-      "learning_rate": 6.81310743367481e-05,
       "loss": 0.0007,
-      "step": 6545
     },
     {
-      "epoch": 7.84,
-      "learning_rate": 6.757289204097716e-05,
-      "loss": 0.0012,
-      "step": 6630
     },
     {
-      "epoch": 7.94,
-      "learning_rate": 6.70147097452062e-05,
-      "loss": 0.0008,
-      "step": 6715
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.006056753918528557,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 30.8852,
-      "eval_samples_per_second": 8.418,
-      "eval_steps_per_second": 0.583,
-      "step": 6768
     },
     {
-      "epoch": 8.04,
-      "learning_rate": 6.645652744943526e-05,
-      "loss": 0.0008,
-      "step": 6800
     },
     {
-      "epoch": 8.14,
-      "learning_rate": 6.589834515366431e-05,
       "loss": 0.0007,
-      "step": 6885
     },
     {
-      "epoch": 8.24,
-      "learning_rate": 6.534016285789336e-05,
       "loss": 0.0005,
-      "step": 6970
-    },
-    {
-      "epoch": 8.34,
-      "learning_rate": 6.478198056212241e-05,
-      "loss": 0.0006,
-      "step": 7055
     },
     {
-      "epoch": 8.44,
-      "learning_rate": 6.422379826635147e-05,
       "loss": 0.0007,
-      "step": 7140
     },
     {
-      "epoch": 8.54,
-      "learning_rate": 6.366561597058051e-05,
-      "loss": 0.0004,
-      "step": 7225
     },
     {
-      "epoch": 8.64,
-      "learning_rate": 6.310743367480957e-05,
       "loss": 0.0006,
-      "step": 7310
     },
     {
-      "epoch": 8.74,
-      "learning_rate": 6.254925137903862e-05,
-      "loss": 0.0004,
-      "step": 7395
     },
     {
-      "epoch": 8.84,
-      "learning_rate": 6.199106908326767e-05,
-      "loss": 0.0005,
-      "step": 7480
     },
     {
-      "epoch": 8.94,
-      "learning_rate": 6.143288678749672e-05,
       "loss": 0.0006,
-      "step": 7565
     },
     {
-      "epoch": 9.0,
-      "eval_loss": 0.005007054656744003,
-      "eval_max_distance": 3,
-      "eval_mean_distance": 0,
-      "eval_runtime": 29.9284,
-      "eval_samples_per_second": 8.687,
-      "eval_steps_per_second": 0.601,
-      "step": 7614
     },
     {
-      "epoch": 9.04,
-      "learning_rate": 6.087470449172577e-05,
-      "loss": 0.0006,
-      "step": 7650
     },
     {
-      "epoch": 9.14,
-      "learning_rate": 6.031652219595483e-05,
-      "loss": 0.0007,
-      "step": 7735
     },
     {
-      "epoch": 9.24,
-      "learning_rate": 5.975833990018388e-05,
       "loss": 0.0005,
-      "step": 7820
     },
     {
-      "epoch": 9.34,
-      "learning_rate": 5.9200157604412935e-05,
       "loss": 0.0006,
-      "step": 7905
     },
     {
-      "epoch": 9.44,
-      "learning_rate": 5.8641975308641984e-05,
       "loss": 0.0006,
-      "step": 7990
     },
     {
-      "epoch": 9.54,
-      "learning_rate": 5.8083793012871034e-05,
-      "loss": 0.0004,
-      "step": 8075
     },
     {
-      "epoch": 9.65,
-      "learning_rate": 5.752561071710009e-05,
-      "loss": 0.0004,
-      "step": 8160
     },
     {
-      "epoch": 9.75,
-      "learning_rate": 5.696742842132914e-05,
-      "loss": 0.0004,
-      "step": 8245
     },
     {
-      "epoch": 9.85,
-      "learning_rate": 5.640924612555819e-05,
-      "loss": 0.0004,
-      "step": 8330
     },
     {
-      "epoch": 9.95,
-      "learning_rate": 5.585106382978723e-05,
       "loss": 0.0006,
-      "step": 8415
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.009199680760502815,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 29.8643,
-      "eval_samples_per_second": 8.706,
-      "eval_steps_per_second": 0.603,
-      "step": 8460
     },
     {
-      "epoch": 10.05,
-      "learning_rate": 5.529288153401628e-05,
-      "loss": 0.0005,
-      "step": 8500
     },
     {
-      "epoch": 10.15,
-      "learning_rate": 5.473469923824534e-05,
       "loss": 0.0006,
-      "step": 8585
     },
     {
-      "epoch": 10.25,
-      "learning_rate": 5.4176516942474386e-05,
-      "loss": 0.0005,
-      "step": 8670
     },
     {
-      "epoch": 10.35,
-      "learning_rate": 5.3618334646703436e-05,
-      "loss": 0.0004,
-      "step": 8755
     },
     {
-      "epoch": 10.45,
-      "learning_rate": 5.306015235093249e-05,
-      "loss": 0.0004,
-      "step": 8840
     },
     {
-      "epoch": 10.55,
-      "learning_rate": 5.250197005516154e-05,
-      "loss": 0.0004,
-      "step": 8925
     },
     {
-      "epoch": 10.65,
-      "learning_rate": 5.19437877593906e-05,
       "loss": 0.0006,
-      "step": 9010
     },
     {
-      "epoch": 10.75,
-      "learning_rate": 5.138560546361965e-05,
-      "loss": 0.0005,
-      "step": 9095
     },
     {
-      "epoch": 10.85,
-      "learning_rate": 5.0827423167848696e-05,
-      "loss": 0.0005,
-      "step": 9180
     },
     {
-      "epoch": 10.95,
-      "learning_rate": 5.026924087207775e-05,
-      "loss": 0.0004,
-      "step": 9265
     },
     {
       "epoch": 11.0,
-      "eval_loss": 0.006612914614379406,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 30.0706,
-      "eval_samples_per_second": 8.646,
-      "eval_steps_per_second": 0.599,
-      "step": 9306
     },
     {
-      "epoch": 11.05,
-      "learning_rate": 4.971105857630681e-05,
-      "loss": 0.0005,
-      "step": 9350
     },
     {
-      "epoch": 11.15,
-      "learning_rate": 4.915287628053586e-05,
       "loss": 0.0005,
-      "step": 9435
     },
     {
-      "epoch": 11.25,
-      "learning_rate": 4.8594693984764914e-05,
-      "loss": 0.0006,
-      "step": 9520
     },
     {
-      "epoch": 11.35,
-      "learning_rate": 4.8036511688993963e-05,
-      "loss": 0.0004,
-      "step": 9605
     },
     {
-      "epoch": 11.45,
-      "learning_rate": 4.747832939322301e-05,
-      "loss": 0.0006,
-      "step": 9690
     },
     {
-      "epoch": 11.55,
-      "learning_rate": 4.692014709745207e-05,
-      "loss": 0.0004,
-      "step": 9775
     },
     {
-      "epoch": 11.65,
-      "learning_rate": 4.636196480168112e-05,
       "loss": 0.0005,
-      "step": 9860
     },
     {
-      "epoch": 11.76,
-      "learning_rate": 4.580378250591017e-05,
       "loss": 0.0005,
-      "step": 9945
     },
     {
-      "epoch": 11.86,
-      "learning_rate": 4.5245600210139224e-05,
-      "loss": 0.0006,
-      "step": 10030
     },
     {
-      "epoch": 11.96,
-      "learning_rate": 4.4687417914368273e-05,
-      "loss": 0.0004,
-      "step": 10115
     },
     {
       "epoch": 12.0,
-      "eval_loss": 0.006491700652986765,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 29.5704,
-      "eval_samples_per_second": 8.793,
-      "eval_steps_per_second": 0.609,
-      "step": 10152
     },
     {
-      "epoch": 12.06,
-      "learning_rate": 4.412923561859732e-05,
-      "loss": 0.0004,
-      "step": 10200
     },
     {
-      "epoch": 12.16,
-      "learning_rate": 4.357105332282638e-05,
-      "loss": 0.0004,
-      "step": 10285
     },
     {
-      "epoch": 12.26,
-      "learning_rate": 4.301287102705542e-05,
-      "loss": 0.0003,
-      "step": 10370
     },
     {
-      "epoch": 12.36,
-      "learning_rate": 4.245468873128448e-05,
-      "loss": 0.0004,
-      "step": 10455
     },
     {
-      "epoch": 12.46,
-      "learning_rate": 4.189650643551353e-05,
-      "loss": 0.0003,
-      "step": 10540
     },
     {
-      "epoch": 12.56,
-      "learning_rate": 4.133832413974258e-05,
       "loss": 0.0004,
-      "step": 10625
     },
     {
-      "epoch": 12.66,
-      "learning_rate": 4.078014184397163e-05,
-      "loss": 0.0003,
-      "step": 10710
     },
     {
-      "epoch": 12.76,
-      "learning_rate": 4.022195954820068e-05,
-      "loss": 0.0004,
-      "step": 10795
     },
     {
-      "epoch": 12.86,
-      "learning_rate": 3.966377725242973e-05,
-      "loss": 0.0005,
-      "step": 10880
     },
     {
-      "epoch": 12.96,
-      "learning_rate": 3.910559495665879e-05,
-      "loss": 0.0003,
-      "step": 10965
     },
     {
       "epoch": 13.0,
-      "eval_loss": 0.006619863212108612,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 29.8838,
-      "eval_samples_per_second": 8.7,
-      "eval_steps_per_second": 0.602,
-      "step": 10998
     },
     {
-      "epoch": 13.06,
-      "learning_rate": 3.854741266088784e-05,
-      "loss": 0.0004,
-      "step": 11050
     },
     {
-      "epoch": 13.16,
-      "learning_rate": 3.7989230365116893e-05,
-      "loss": 0.0003,
-      "step": 11135
     },
     {
-      "epoch": 13.26,
-      "learning_rate": 3.743104806934594e-05,
-      "loss": 0.0003,
-      "step": 11220
     },
     {
-      "epoch": 13.36,
-      "learning_rate": 3.687286577357499e-05,
-      "loss": 0.0004,
-      "step": 11305
     },
     {
-      "epoch": 13.46,
-      "learning_rate": 3.631468347780405e-05,
-      "loss": 0.0003,
-      "step": 11390
     },
     {
-      "epoch": 13.56,
-      "learning_rate": 3.57565011820331e-05,
-      "loss": 0.0003,
-      "step": 11475
     },
     {
-      "epoch": 13.66,
-      "learning_rate": 3.519831888626215e-05,
-      "loss": 0.0004,
-      "step": 11560
     },
     {
-      "epoch": 13.76,
-      "learning_rate": 3.4640136590491203e-05,
       "loss": 0.0005,
-      "step": 11645
     },
     {
-      "epoch": 13.87,
-      "learning_rate": 3.408195429472025e-05,
-      "loss": 0.0004,
-      "step": 11730
     },
     {
-      "epoch": 13.97,
-      "learning_rate": 3.35237719989493e-05,
       "loss": 0.0005,
-      "step": 11815
     },
     {
       "epoch": 14.0,
-      "eval_loss": 0.006221045274287462,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 30.0954,
-      "eval_samples_per_second": 8.639,
-      "eval_steps_per_second": 0.598,
-      "step": 11844
     },
     {
-      "epoch": 14.07,
-      "learning_rate": 3.296558970317836e-05,
-      "loss": 0.0005,
-      "step": 11900
     },
     {
-      "epoch": 14.17,
-      "learning_rate": 3.240740740740741e-05,
-      "loss": 0.0003,
-      "step": 11985
     },
     {
-      "epoch": 14.27,
-      "learning_rate": 3.184922511163646e-05,
       "loss": 0.0005,
-      "step": 12070
     },
     {
-      "epoch": 14.37,
-      "learning_rate": 3.1291042815865513e-05,
       "loss": 0.0004,
-      "step": 12155
     },
     {
-      "epoch": 14.47,
-      "learning_rate": 3.073286052009456e-05,
-      "loss": 0.0005,
-      "step": 12240
-    },
-    {
-      "epoch": 14.57,
-      "learning_rate": 3.0174678224323616e-05,
       "loss": 0.0004,
-      "step": 12325
     },
     {
-      "epoch": 14.67,
-      "learning_rate": 2.961649592855267e-05,
       "loss": 0.0005,
-      "step": 12410
     },
     {
-      "epoch": 14.77,
-      "learning_rate": 2.905831363278172e-05,
       "loss": 0.0005,
-      "step": 12495
     },
     {
-      "epoch": 14.87,
-      "learning_rate": 2.850013133701077e-05,
-      "loss": 0.0006,
-      "step": 12580
     },
     {
-      "epoch": 14.97,
-      "learning_rate": 2.7941949041239823e-05,
-      "loss": 0.0003,
-      "step": 12665
     },
     {
       "epoch": 15.0,
-      "eval_loss": 0.006079429294914007,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 29.8562,
-      "eval_samples_per_second": 8.708,
-      "eval_steps_per_second": 0.603,
-      "step": 12690
     },
     {
-      "epoch": 15.07,
-      "learning_rate": 2.7383766745468876e-05,
       "loss": 0.0004,
-      "step": 12750
     },
     {
-      "epoch": 15.17,
-      "learning_rate": 2.6825584449697926e-05,
       "loss": 0.0004,
-      "step": 12835
-    },
-    {
-      "epoch": 15.27,
-      "learning_rate": 2.626740215392698e-05,
-      "loss": 0.0007,
-      "step": 12920
     },
     {
-      "epoch": 15.37,
-      "learning_rate": 2.570921985815603e-05,
-      "loss": 0.0003,
-      "step": 13005
     },
     {
-      "epoch": 15.47,
-      "learning_rate": 2.5151037562385084e-05,
-      "loss": 0.0005,
-      "step": 13090
     },
     {
-      "epoch": 15.57,
-      "learning_rate": 2.4592855266614133e-05,
       "loss": 0.0004,
-      "step": 13175
     },
     {
-      "epoch": 15.67,
-      "learning_rate": 2.4034672970843186e-05,
       "loss": 0.0005,
-      "step": 13260
     },
     {
-      "epoch": 15.77,
-      "learning_rate": 2.3476490675072236e-05,
       "loss": 0.0004,
-      "step": 13345
     },
     {
-      "epoch": 15.87,
-      "learning_rate": 2.291830837930129e-05,
-      "loss": 0.0002,
-      "step": 13430
     },
     {
-      "epoch": 15.98,
-      "learning_rate": 2.2360126083530338e-05,
       "loss": 0.0004,
-      "step": 13515
     },
     {
       "epoch": 16.0,
-      "eval_loss": 0.005943103693425655,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 29.5405,
-      "eval_samples_per_second": 8.801,
-      "eval_steps_per_second": 0.609,
-      "step": 13536
     },
     {
-      "epoch": 16.08,
-      "learning_rate": 2.180194378775939e-05,
-      "loss": 0.0005,
-      "step": 13600
     },
     {
-      "epoch": 16.18,
-      "learning_rate": 2.1243761491988443e-05,
-      "loss": 0.0003,
-      "step": 13685
     },
     {
-      "epoch": 16.28,
-      "learning_rate": 2.0685579196217493e-05,
-      "loss": 0.0005,
-      "step": 13770
     },
     {
-      "epoch": 16.38,
-      "learning_rate": 2.0127396900446546e-05,
-      "loss": 0.0003,
-      "step": 13855
     },
     {
-      "epoch": 16.48,
-      "learning_rate": 1.95692146046756e-05,
       "loss": 0.0004,
-      "step": 13940
     },
     {
-      "epoch": 16.58,
-      "learning_rate": 1.901103230890465e-05,
-      "loss": 0.0003,
-      "step": 14025
     },
     {
-      "epoch": 16.68,
-      "learning_rate": 1.84528500131337e-05,
       "loss": 0.0004,
-      "step": 14110
     },
     {
-      "epoch": 16.78,
-      "learning_rate": 1.7894667717362753e-05,
       "loss": 0.0004,
-      "step": 14195
     },
     {
-      "epoch": 16.88,
-      "learning_rate": 1.7336485421591806e-05,
       "loss": 0.0004,
-      "step": 14280
     },
     {
-      "epoch": 16.98,
-      "learning_rate": 1.677830312582086e-05,
-      "loss": 0.0003,
-      "step": 14365
     },
     {
       "epoch": 17.0,
-      "eval_loss": 0.006018976215273142,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 29.8665,
-      "eval_samples_per_second": 8.705,
-      "eval_steps_per_second": 0.603,
-      "step": 14382
     },
     {
-      "epoch": 17.08,
-      "learning_rate": 1.622012083004991e-05,
       "loss": 0.0004,
-      "step": 14450
     },
     {
-      "epoch": 17.18,
-      "learning_rate": 1.566193853427896e-05,
-      "loss": 0.0002,
-      "step": 14535
     },
     {
-      "epoch": 17.28,
-      "learning_rate": 1.5103756238508012e-05,
-      "loss": 0.0003,
-      "step": 14620
     },
     {
-      "epoch": 17.38,
-      "learning_rate": 1.4545573942737065e-05,
-      "loss": 0.0005,
-      "step": 14705
     },
     {
-      "epoch": 17.48,
-      "learning_rate": 1.3987391646966116e-05,
-      "loss": 0.0008,
-      "step": 14790
     },
     {
-      "epoch": 17.58,
-      "learning_rate": 1.3429209351195169e-05,
-      "loss": 0.0003,
-      "step": 14875
     },
     {
-      "epoch": 17.68,
-      "learning_rate": 1.287102705542422e-05,
-      "loss": 0.0003,
-      "step": 14960
     },
     {
-      "epoch": 17.78,
-      "learning_rate": 1.2312844759653271e-05,
-      "loss": 0.0005,
-      "step": 15045
     },
     {
-      "epoch": 17.88,
-      "learning_rate": 1.1754662463882322e-05,
-      "loss": 0.0003,
-      "step": 15130
     },
     {
-      "epoch": 17.98,
-      "learning_rate": 1.1196480168111375e-05,
       "loss": 0.0004,
-      "step": 15215
     },
     {
       "epoch": 18.0,
-      "eval_loss": 0.006091571878641844,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 29.7889,
-      "eval_samples_per_second": 8.728,
-      "eval_steps_per_second": 0.604,
-      "step": 15228
     },
     {
-      "epoch": 18.09,
-      "learning_rate": 1.0638297872340426e-05,
-      "loss": 0.0003,
-      "step": 15300
-    },
-    {
-      "epoch": 18.19,
-      "learning_rate": 1.0080115576569477e-05,
       "loss": 0.0004,
-      "step": 15385
     },
     {
-      "epoch": 18.29,
-      "learning_rate": 9.52193328079853e-06,
       "loss": 0.0004,
-      "step": 15470
     },
     {
-      "epoch": 18.39,
-      "learning_rate": 8.963750985027581e-06,
-      "loss": 0.0003,
-      "step": 15555
     },
     {
-      "epoch": 18.49,
-      "learning_rate": 8.405568689256634e-06,
       "loss": 0.0003,
-      "step": 15640
     },
     {
-      "epoch": 18.59,
-      "learning_rate": 7.847386393485685e-06,
       "loss": 0.0004,
-      "step": 15725
     },
     {
-      "epoch": 18.69,
-      "learning_rate": 7.289204097714736e-06,
       "loss": 0.0004,
-      "step": 15810
     },
     {
-      "epoch": 18.79,
-      "learning_rate": 6.731021801943787e-06,
       "loss": 0.0004,
-      "step": 15895
     },
     {
-      "epoch": 18.89,
-      "learning_rate": 6.172839506172839e-06,
       "loss": 0.0004,
-      "step": 15980
     },
     {
-      "epoch": 18.99,
-      "learning_rate": 5.614657210401891e-06,
       "loss": 0.0003,
-      "step": 16065
     },
     {
-      "epoch": 19.0,
-      "eval_loss": 0.006117388140410185,
-      "eval_max_distance": 3,
-      "eval_mean_distance": 0,
-      "eval_runtime": 29.5322,
-      "eval_samples_per_second": 8.804,
-      "eval_steps_per_second": 0.61,
-      "step": 16074
     },
     {
-      "epoch": 19.09,
-      "learning_rate": 5.056474914630943e-06,
-      "loss": 0.0003,
-      "step": 16150
     },
     {
-      "epoch": 19.19,
-      "learning_rate": 4.498292618859995e-06,
       "loss": 0.0004,
-      "step": 16235
     },
     {
-      "epoch": 19.29,
-      "learning_rate": 3.940110323089047e-06,
-      "loss": 0.0002,
-      "step": 16320
     },
     {
-      "epoch": 19.39,
-      "learning_rate": 3.3819280273180985e-06,
-      "loss": 0.0003,
-      "step": 16405
     },
     {
-      "epoch": 19.49,
-      "learning_rate": 2.82374573154715e-06,
-      "loss": 0.0003,
-      "step": 16490
     },
     {
-      "epoch": 19.59,
-      "learning_rate": 2.265563435776202e-06,
-      "loss": 0.0002,
-      "step": 16575
     },
     {
-      "epoch": 19.69,
-      "learning_rate": 1.7073811400052534e-06,
       "loss": 0.0004,
-      "step": 16660
     },
     {
-      "epoch": 19.79,
-      "learning_rate": 1.1491988442343054e-06,
       "loss": 0.0003,
-      "step": 16745
     },
     {
-      "epoch": 19.89,
-      "learning_rate": 5.91016548463357e-07,
       "loss": 0.0003,
-      "step": 16830
     },
     {
-      "epoch": 19.99,
-      "learning_rate": 3.2834252692408726e-08,
-      "loss": 0.0005,
-      "step": 16915
     },
     {
       "epoch": 20.0,
-      "eval_loss": 0.00614793598651886,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 29.6354,
-      "eval_samples_per_second": 8.773,
-      "eval_steps_per_second": 0.607,
-      "step": 16920
     },
     {
       "epoch": 20.0,
-      "step": 16920,
-      "total_flos": 4933712379248640.0,
-      "train_loss": 0.0005908621804599912,
-      "train_runtime": 1909.7013,
-      "train_samples_per_second": 132.796,
-      "train_steps_per_second": 8.86
     }
   ],
-  "logging_steps": 85,
-  "max_steps": 16920,
   "num_train_epochs": 20,
-  "save_steps": 170,
-  "total_flos": 4933712379248640.0,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 20.0,
   "eval_steps": 500,
+  "global_step": 274520,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 3.6427218417601638e-09,
+      "loss": 0.0,
       "step": 1
     },
     {
       "epoch": 0.1,
+      "learning_rate": 5.001457088736705e-06,
+      "loss": 0.0052,
+      "step": 1373
     },
     {
       "epoch": 0.2,
+      "learning_rate": 1.000291417747341e-05,
+      "loss": 0.0041,
+      "step": 2746
     },
     {
       "epoch": 0.3,
+      "learning_rate": 1.5004371266210113e-05,
+      "loss": 0.0025,
+      "step": 4119
     },
     {
       "epoch": 0.4,
+      "learning_rate": 2.000582835494682e-05,
+      "loss": 0.002,
+      "step": 5492
     },
     {
       "epoch": 0.5,
+      "learning_rate": 2.500728544368352e-05,
+      "loss": 0.0018,
+      "step": 6865
     },
     {
       "epoch": 0.6,
+      "learning_rate": 3.0008742532420226e-05,
       "loss": 0.0014,
+      "step": 8238
     },
     {
       "epoch": 0.7,
+      "learning_rate": 3.501019962115693e-05,
+      "loss": 0.0015,
+      "step": 9611
     },
     {
       "epoch": 0.8,
+      "learning_rate": 4.001165670989364e-05,
+      "loss": 0.0012,
+      "step": 10984
     },
     {
       "epoch": 0.9,
+      "learning_rate": 4.501311379863034e-05,
+      "loss": 0.001,
+      "step": 12357
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.011379459872841835,
+      "eval_max_distance": 5,
       "eval_mean_distance": 0,
+      "eval_runtime": 13.5607,
+      "eval_samples_per_second": 19.763,
+      "eval_steps_per_second": 1.327,
+      "step": 13726
     },
     {
       "epoch": 1.0,
+      "learning_rate": 5.001457088736704e-05,
+      "loss": 0.0009,
+      "step": 13730
     },
     {
+      "epoch": 1.1,
+      "learning_rate": 5.501602797610374e-05,
       "loss": 0.0008,
+      "step": 15103
     },
     {
+      "epoch": 1.2,
+      "learning_rate": 6.001748506484045e-05,
+      "loss": 0.0009,
+      "step": 16476
     },
     {
+      "epoch": 1.3,
+      "learning_rate": 6.501894215357715e-05,
+      "loss": 0.0008,
+      "step": 17849
     },
     {
+      "epoch": 1.4,
+      "learning_rate": 7.002039924231386e-05,
+      "loss": 0.0007,
+      "step": 19222
     },
     {
+      "epoch": 1.5,
+      "learning_rate": 7.502185633105057e-05,
+      "loss": 0.0008,
+      "step": 20595
     },
     {
+      "epoch": 1.6,
+      "learning_rate": 8.002331341978728e-05,
+      "loss": 0.0008,
+      "step": 21968
     },
     {
+      "epoch": 1.7,
+      "learning_rate": 8.502477050852397e-05,
+      "loss": 0.0009,
+      "step": 23341
     },
     {
+      "epoch": 1.8,
+      "learning_rate": 9.002622759726068e-05,
       "loss": 0.0008,
+      "step": 24714
     },
     {
+      "epoch": 1.9,
+      "learning_rate": 9.502768468599739e-05,
+      "loss": 0.0009,
+      "step": 26087
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.01430370844900608,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.233,
+      "eval_samples_per_second": 18.829,
+      "eval_steps_per_second": 1.265,
+      "step": 27452
     },
     {
+      "epoch": 2.0,
+      "learning_rate": 9.999676202502955e-05,
+      "loss": 0.0008,
+      "step": 27460
     },
     {
+      "epoch": 2.1,
+      "learning_rate": 9.944104457072547e-05,
+      "loss": 0.0008,
+      "step": 28833
     },
     {
+      "epoch": 2.2,
+      "learning_rate": 9.88853271164214e-05,
       "loss": 0.0008,
+      "step": 30206
     },
     {
+      "epoch": 2.3,
+      "learning_rate": 9.832960966211731e-05,
+      "loss": 0.0008,
+      "step": 31579
     },
     {
+      "epoch": 2.4,
+      "learning_rate": 9.777389220781323e-05,
+      "loss": 0.0009,
+      "step": 32952
     },
     {
+      "epoch": 2.5,
+      "learning_rate": 9.721817475350917e-05,
+      "loss": 0.0008,
+      "step": 34325
     },
     {
+      "epoch": 2.6,
+      "learning_rate": 9.666245729920507e-05,
+      "loss": 0.0009,
+      "step": 35698
     },
     {
+      "epoch": 2.7,
+      "learning_rate": 9.6106739844901e-05,
       "loss": 0.0008,
+      "step": 37071
     },
     {
+      "epoch": 2.8,
+      "learning_rate": 9.555102239059693e-05,
+      "loss": 0.0008,
+      "step": 38444
     },
     {
+      "epoch": 2.9,
+      "learning_rate": 9.499530493629284e-05,
+      "loss": 0.0008,
+      "step": 39817
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.014528523199260235,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.815,
+      "eval_samples_per_second": 20.913,
+      "eval_steps_per_second": 1.405,
+      "step": 41178
     },
     {
+      "epoch": 3.0,
+      "learning_rate": 9.443958748198876e-05,
+      "loss": 0.0009,
+      "step": 41190
     },
     {
+      "epoch": 3.1,
+      "learning_rate": 9.38838700276847e-05,
       "loss": 0.0008,
+      "step": 42563
     },
     {
+      "epoch": 3.2,
+      "learning_rate": 9.332815257338062e-05,
+      "loss": 0.0008,
+      "step": 43936
     },
     {
+      "epoch": 3.3,
+      "learning_rate": 9.277243511907654e-05,
+      "loss": 0.0008,
+      "step": 45309
     },
     {
+      "epoch": 3.4,
+      "learning_rate": 9.221671766477246e-05,
+      "loss": 0.0008,
+      "step": 46682
     },
     {
+      "epoch": 3.5,
+      "learning_rate": 9.166100021046838e-05,
+      "loss": 0.0008,
+      "step": 48055
     },
     {
+      "epoch": 3.6,
+      "learning_rate": 9.11052827561643e-05,
+      "loss": 0.0008,
+      "step": 49428
     },
     {
+      "epoch": 3.7,
+      "learning_rate": 9.054956530186022e-05,
+      "loss": 0.0008,
+      "step": 50801
     },
     {
+      "epoch": 3.8,
+      "learning_rate": 8.999384784755615e-05,
+      "loss": 0.0008,
+      "step": 52174
     },
     {
+      "epoch": 3.9,
+      "learning_rate": 8.943813039325206e-05,
+      "loss": 0.0009,
+      "step": 53547
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.009767626412212849,
+      "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 13.1075,
+      "eval_samples_per_second": 20.446,
+      "eval_steps_per_second": 1.373,
+      "step": 54904
     },
     {
+      "epoch": 4.0,
+      "learning_rate": 8.888241293894799e-05,
       "loss": 0.0009,
+      "step": 54920
     },
     {
+      "epoch": 4.1,
+      "learning_rate": 8.832669548464391e-05,
+      "loss": 0.0008,
+      "step": 56293
     },
     {
+      "epoch": 4.2,
+      "learning_rate": 8.777097803033983e-05,
+      "loss": 0.0008,
+      "step": 57666
     },
     {
+      "epoch": 4.3,
+      "learning_rate": 8.721526057603575e-05,
+      "loss": 0.0007,
+      "step": 59039
     },
     {
+      "epoch": 4.4,
+      "learning_rate": 8.665954312173167e-05,
+      "loss": 0.0008,
+      "step": 60412
     },
     {
+      "epoch": 4.5,
+      "learning_rate": 8.61038256674276e-05,
+      "loss": 0.0008,
+      "step": 61785
     },
     {
+      "epoch": 4.6,
+      "learning_rate": 8.554810821312351e-05,
+      "loss": 0.0008,
+      "step": 63158
     },
     {
+      "epoch": 4.7,
+      "learning_rate": 8.499239075881944e-05,
+      "loss": 0.0008,
+      "step": 64531
     },
     {
+      "epoch": 4.8,
+      "learning_rate": 8.443667330451536e-05,
+      "loss": 0.0008,
+      "step": 65904
     },
     {
+      "epoch": 4.9,
+      "learning_rate": 8.388095585021128e-05,
+      "loss": 0.0007,
+      "step": 67277
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.012975725345313549,
+      "eval_max_distance": 2,
       "eval_mean_distance": 0,
+      "eval_runtime": 13.0896,
+      "eval_samples_per_second": 20.474,
+      "eval_steps_per_second": 1.375,
+      "step": 68630
     },
     {
+      "epoch": 5.0,
+      "learning_rate": 8.33252383959072e-05,
+      "loss": 0.0008,
+      "step": 68650
     },
     {
+      "epoch": 5.1,
+      "learning_rate": 8.276952094160313e-05,
+      "loss": 0.0008,
+      "step": 70023
     },
     {
+      "epoch": 5.2,
+      "learning_rate": 8.221380348729904e-05,
+      "loss": 0.0007,
+      "step": 71396
     },
     {
+      "epoch": 5.3,
+      "learning_rate": 8.165808603299497e-05,
       "loss": 0.0008,
+      "step": 72769
     },
     {
+      "epoch": 5.4,
+      "learning_rate": 8.11023685786909e-05,
+      "loss": 0.0008,
+      "step": 74142
     },
     {
+      "epoch": 5.5,
+      "learning_rate": 8.054665112438681e-05,
       "loss": 0.0007,
+      "step": 75515
     },
     {
+      "epoch": 5.6,
+      "learning_rate": 7.999093367008273e-05,
+      "loss": 0.0008,
+      "step": 76888
     },
     {
+      "epoch": 5.7,
+      "learning_rate": 7.943521621577865e-05,
+      "loss": 0.0007,
+      "step": 78261
     },
     {
+      "epoch": 5.8,
+      "learning_rate": 7.887949876147457e-05,
+      "loss": 0.0008,
+      "step": 79634
     },
     {
+      "epoch": 5.9,
+      "learning_rate": 7.832378130717049e-05,
+      "loss": 0.0008,
+      "step": 81007
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.015315458178520203,
+      "eval_max_distance": 2,
       "eval_mean_distance": 0,
+      "eval_runtime": 13.1351,
+      "eval_samples_per_second": 20.403,
+      "eval_steps_per_second": 1.37,
+      "step": 82356
     },
     {
+      "epoch": 6.0,
+      "learning_rate": 7.776806385286643e-05,
+      "loss": 0.0008,
+      "step": 82380
     },
     {
+      "epoch": 6.1,
+      "learning_rate": 7.721234639856235e-05,
+      "loss": 0.0007,
+      "step": 83753
     },
     {
+      "epoch": 6.2,
+      "learning_rate": 7.665662894425827e-05,
+      "loss": 0.0007,
+      "step": 85126
     },
     {
+      "epoch": 6.3,
+      "learning_rate": 7.610091148995419e-05,
+      "loss": 0.0006,
+      "step": 86499
     },
     {
+      "epoch": 6.4,
+      "learning_rate": 7.554519403565012e-05,
       "loss": 0.0007,
+      "step": 87872
     },
     {
+      "epoch": 6.5,
+      "learning_rate": 7.498947658134603e-05,
+      "loss": 0.0007,
+      "step": 89245
     },
     {
+      "epoch": 6.6,
+      "learning_rate": 7.443375912704195e-05,
+      "loss": 0.0007,
+      "step": 90618
     },
     {
+      "epoch": 6.7,
+      "learning_rate": 7.387804167273788e-05,
+      "loss": 0.0007,
+      "step": 91991
     },
     {
+      "epoch": 6.8,
+      "learning_rate": 7.332232421843378e-05,
+      "loss": 0.0007,
+      "step": 93364
     },
     {
+      "epoch": 6.9,
+      "learning_rate": 7.276660676412972e-05,
+      "loss": 0.0007,
+      "step": 94737
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.01277723629027605,
+      "eval_max_distance": 2,
       "eval_mean_distance": 0,
+      "eval_runtime": 13.169,
+      "eval_samples_per_second": 20.351,
+      "eval_steps_per_second": 1.367,
+      "step": 96082
     },
     {
+      "epoch": 7.0,
+      "learning_rate": 7.221088930982564e-05,
       "loss": 0.0007,
+      "step": 96110
     },
     {
+      "epoch": 7.1,
+      "learning_rate": 7.165517185552156e-05,
+      "loss": 0.0007,
+      "step": 97483
     },
     {
+      "epoch": 7.2,
+      "learning_rate": 7.109945440121748e-05,
+      "loss": 0.0006,
+      "step": 98856
     },
     {
+      "epoch": 7.3,
+      "learning_rate": 7.054373694691341e-05,
+      "loss": 0.0006,
+      "step": 100229
     },
     {
+      "epoch": 7.4,
+      "learning_rate": 6.998801949260933e-05,
       "loss": 0.0007,
+      "step": 101602
     },
     {
+      "epoch": 7.5,
+      "learning_rate": 6.943230203830525e-05,
       "loss": 0.0006,
+      "step": 102975
     },
     {
+      "epoch": 7.6,
+      "learning_rate": 6.887658458400117e-05,
+      "loss": 0.0006,
+      "step": 104348
     },
     {
+      "epoch": 7.7,
+      "learning_rate": 6.832086712969709e-05,
       "loss": 0.0007,
+      "step": 105721
     },
     {
+      "epoch": 7.8,
+      "learning_rate": 6.776514967539301e-05,
+      "loss": 0.0006,
+      "step": 107094
     },
     {
+      "epoch": 7.9,
+      "learning_rate": 6.720943222108893e-05,
+      "loss": 0.0006,
+      "step": 108467
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.013012989424169064,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.4679,
+      "eval_samples_per_second": 21.495,
+      "eval_steps_per_second": 1.444,
+      "step": 109808
     },
     {
+      "epoch": 8.0,
+      "learning_rate": 6.665371476678486e-05,
+      "loss": 0.0007,
+      "step": 109840
     },
     {
+      "epoch": 8.1,
+      "learning_rate": 6.609799731248077e-05,
       "loss": 0.0007,
+      "step": 111213
     },
     {
+      "epoch": 8.2,
+      "learning_rate": 6.55422798581767e-05,
       "loss": 0.0005,
+      "step": 112586
     },
     {
+      "epoch": 8.3,
+      "learning_rate": 6.498656240387262e-05,
       "loss": 0.0007,
+      "step": 113959
     },
     {
+      "epoch": 8.4,
+      "learning_rate": 6.443084494956854e-05,
+      "loss": 0.0006,
+      "step": 115332
     },
     {
+      "epoch": 8.5,
+      "learning_rate": 6.387512749526446e-05,
       "loss": 0.0006,
+      "step": 116705
     },
     {
+      "epoch": 8.6,
+      "learning_rate": 6.33194100409604e-05,
+      "loss": 0.0007,
+      "step": 118078
     },
     {
+      "epoch": 8.7,
+      "learning_rate": 6.276369258665632e-05,
+      "loss": 0.0006,
+      "step": 119451
     },
     {
+      "epoch": 8.8,
+      "learning_rate": 6.220797513235222e-05,
       "loss": 0.0006,
+      "step": 120824
     },
     {
+      "epoch": 8.9,
+      "learning_rate": 6.165225767804815e-05,
+      "loss": 0.0006,
+      "step": 122197
     },
     {
+      "epoch": 9.0,
+      "eval_loss": 0.015804793685674667,
+      "eval_max_distance": 5,
+      "eval_mean_distance": 0,
+      "eval_runtime": 12.8641,
+      "eval_samples_per_second": 20.833,
+      "eval_steps_per_second": 1.399,
+      "step": 123534
     },
     {
+      "epoch": 9.0,
+      "learning_rate": 6.109654022374407e-05,
+      "loss": 0.0005,
+      "step": 123570
     },
     {
+      "epoch": 9.1,
+      "learning_rate": 6.0540822769439994e-05,
       "loss": 0.0005,
+      "step": 124943
     },
     {
+      "epoch": 9.2,
+      "learning_rate": 5.9985105315135914e-05,
       "loss": 0.0006,
+      "step": 126316
+    },
+    {
+      "epoch": 9.3,
+      "learning_rate": 5.942938786083184e-05,
+      "loss": 0.0005,
+      "step": 127689
     },
     {
+      "epoch": 9.4,
+      "learning_rate": 5.887367040652776e-05,
       "loss": 0.0006,
+      "step": 129062
     },
     {
+      "epoch": 9.5,
+      "learning_rate": 5.831795295222369e-05,
+      "loss": 0.0006,
+      "step": 130435
     },
     {
+      "epoch": 9.6,
+      "learning_rate": 5.77622354979196e-05,
+      "loss": 0.0006,
+      "step": 131808
     },
     {
+      "epoch": 9.7,
+      "learning_rate": 5.720651804361552e-05,
+      "loss": 0.0007,
+      "step": 133181
     },
     {
+      "epoch": 9.8,
+      "learning_rate": 5.6650800589311447e-05,
+      "loss": 0.0006,
+      "step": 134554
     },
     {
+      "epoch": 9.9,
+      "learning_rate": 5.6095083135007366e-05,
       "loss": 0.0006,
+      "step": 135927
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.015074091032147408,
+      "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.5962,
+      "eval_samples_per_second": 21.276,
+      "eval_steps_per_second": 1.429,
+      "step": 137260
     },
     {
+      "epoch": 10.0,
+      "learning_rate": 5.553936568070329e-05,
+      "loss": 0.0006,
+      "step": 137300
     },
     {
+      "epoch": 10.1,
+      "learning_rate": 5.4983648226399206e-05,
       "loss": 0.0006,
+      "step": 138673
     },
     {
+      "epoch": 10.2,
+      "learning_rate": 5.442793077209514e-05,
+      "loss": 0.0006,
+      "step": 140046
     },
     {
+      "epoch": 10.3,
+      "learning_rate": 5.387221331779105e-05,
+      "loss": 0.0006,
+      "step": 141419
     },
     {
+      "epoch": 10.4,
+      "learning_rate": 5.331649586348698e-05,
+      "loss": 0.0008,
+      "step": 142792
     },
     {
+      "epoch": 10.5,
+      "learning_rate": 5.27607784091829e-05,
+      "loss": 0.0005,
+      "step": 144165
     },
     {
+      "epoch": 10.6,
+      "learning_rate": 5.2205060954878825e-05,
       "loss": 0.0006,
+      "step": 145538
     },
     {
+      "epoch": 10.7,
+      "learning_rate": 5.1649343500574745e-05,
+      "loss": 0.0006,
+      "step": 146911
     },
     {
+      "epoch": 10.8,
+      "learning_rate": 5.109362604627066e-05,
+      "loss": 0.0006,
+      "step": 148284
     },
     {
+      "epoch": 10.9,
+      "learning_rate": 5.0537908591966585e-05,
+      "loss": 0.0005,
+      "step": 149657
     },
     {
       "epoch": 11.0,
+      "eval_loss": 0.016692565754055977,
+      "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.5906,
+      "eval_samples_per_second": 21.286,
+      "eval_steps_per_second": 1.43,
+      "step": 150986
     },
     {
+      "epoch": 11.0,
+      "learning_rate": 4.998219113766251e-05,
+      "loss": 0.0006,
+      "step": 151030
     },
     {
+      "epoch": 11.1,
+      "learning_rate": 4.942647368335843e-05,
       "loss": 0.0005,
+      "step": 152403
     },
     {
+      "epoch": 11.2,
+      "learning_rate": 4.887075622905435e-05,
+      "loss": 0.0005,
+      "step": 153776
     },
     {
+      "epoch": 11.3,
+      "learning_rate": 4.831503877475027e-05,
+      "loss": 0.0005,
+      "step": 155149
     },
     {
+      "epoch": 11.4,
+      "learning_rate": 4.775932132044619e-05,
+      "loss": 0.0005,
+      "step": 156522
     },
     {
+      "epoch": 11.5,
+      "learning_rate": 4.720360386614212e-05,
+      "loss": 0.0005,
+      "step": 157895
     },
     {
+      "epoch": 11.6,
+      "learning_rate": 4.664788641183804e-05,
       "loss": 0.0005,
+      "step": 159268
     },
     {
+      "epoch": 11.7,
+      "learning_rate": 4.6092168957533957e-05,
       "loss": 0.0005,
+      "step": 160641
     },
     {
+      "epoch": 11.8,
+      "learning_rate": 4.553645150322988e-05,
+      "loss": 0.0005,
+      "step": 162014
     },
     {
+      "epoch": 11.9,
+      "learning_rate": 4.49807340489258e-05,
+      "loss": 0.0005,
+      "step": 163387
     },
     {
       "epoch": 12.0,
+      "eval_loss": 0.014475121162831783,
+      "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.6623,
+      "eval_samples_per_second": 21.165,
+      "eval_steps_per_second": 1.422,
+      "step": 164712
     },
     {
+      "epoch": 12.0,
+      "learning_rate": 4.442501659462173e-05,
+      "loss": 0.0005,
+      "step": 164760
     },
     {
+      "epoch": 12.1,
+      "learning_rate": 4.386929914031765e-05,
+      "loss": 0.0005,
+      "step": 166133
     },
     {
+      "epoch": 12.2,
+      "learning_rate": 4.331358168601357e-05,
+      "loss": 0.0005,
+      "step": 167506
     },
     {
+      "epoch": 12.3,
+      "learning_rate": 4.2757864231709496e-05,
+      "loss": 0.0005,
+      "step": 168879
     },
     {
+      "epoch": 12.4,
+      "learning_rate": 4.220214677740541e-05,
+      "loss": 0.0005,
+      "step": 170252
     },
     {
+      "epoch": 12.5,
+      "learning_rate": 4.1646429323101335e-05,
       "loss": 0.0004,
+      "step": 171625
     },
     {
+      "epoch": 12.6,
+      "learning_rate": 4.1090711868797255e-05,
+      "loss": 0.0006,
+      "step": 172998
     },
     {
+      "epoch": 12.7,
+      "learning_rate": 4.0534994414493175e-05,
+      "loss": 0.0006,
+      "step": 174371
     },
     {
+      "epoch": 12.8,
+      "learning_rate": 3.99792769601891e-05,
+      "loss": 0.0006,
+      "step": 175744
     },
     {
+      "epoch": 12.9,
+      "learning_rate": 3.942355950588502e-05,
+      "loss": 0.0005,
+      "step": 177117
     },
     {
       "epoch": 13.0,
+      "eval_loss": 0.016049271449446678,
+      "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.7374,
+      "eval_samples_per_second": 21.04,
+      "eval_steps_per_second": 1.413,
+      "step": 178438
     },
     {
+      "epoch": 13.0,
+      "learning_rate": 3.886784205158094e-05,
+      "loss": 0.0005,
+      "step": 178490
     },
     {
+      "epoch": 13.1,
+      "learning_rate": 3.831212459727687e-05,
+      "loss": 0.0005,
+      "step": 179863
     },
     {
+      "epoch": 13.2,
+      "learning_rate": 3.775640714297279e-05,
+      "loss": 0.0005,
+      "step": 181236
     },
     {
+      "epoch": 13.3,
+      "learning_rate": 3.720068968866871e-05,
+      "loss": 0.0005,
+      "step": 182609
     },
     {
+      "epoch": 13.4,
+      "learning_rate": 3.6644972234364634e-05,
+      "loss": 0.0005,
+      "step": 183982
     },
     {
+      "epoch": 13.5,
+      "learning_rate": 3.608925478006055e-05,
+      "loss": 0.0004,
+      "step": 185355
     },
     {
+      "epoch": 13.6,
+      "learning_rate": 3.5533537325756473e-05,
+      "loss": 0.0005,
+      "step": 186728
     },
     {
+      "epoch": 13.7,
+      "learning_rate": 3.497781987145239e-05,
       "loss": 0.0005,
+      "step": 188101
     },
     {
+      "epoch": 13.8,
+      "learning_rate": 3.442210241714832e-05,
+      "loss": 0.0005,
+      "step": 189474
     },
     {
+      "epoch": 13.9,
+      "learning_rate": 3.386638496284424e-05,
       "loss": 0.0005,
+      "step": 190847
     },
     {
       "epoch": 14.0,
+      "eval_loss": 0.015727248042821884,
+      "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.6356,
+      "eval_samples_per_second": 21.21,
+      "eval_steps_per_second": 1.425,
+      "step": 192164
     },
     {
+      "epoch": 14.0,
+      "learning_rate": 3.331066750854016e-05,
+      "loss": 0.0004,
+      "step": 192220
     },
     {
+      "epoch": 14.1,
+      "learning_rate": 3.2754950054236086e-05,
+      "loss": 0.0005,
+      "step": 193593
     },
     {
+      "epoch": 14.2,
+      "learning_rate": 3.2199232599932006e-05,
       "loss": 0.0005,
+      "step": 194966
     },
     {
+      "epoch": 14.3,
+      "learning_rate": 3.1643515145627926e-05,
       "loss": 0.0004,
+      "step": 196339
     },
     {
+      "epoch": 14.4,
+      "learning_rate": 3.108779769132385e-05,
       "loss": 0.0004,
+      "step": 197712
     },
     {
+      "epoch": 14.5,
+      "learning_rate": 3.0532080237019765e-05,
       "loss": 0.0005,
+      "step": 199085
     },
     {
+      "epoch": 14.6,
+      "learning_rate": 2.997636278271569e-05,
       "loss": 0.0005,
+      "step": 200458
     },
     {
+      "epoch": 14.7,
+      "learning_rate": 2.942064532841161e-05,
+      "loss": 0.0004,
+      "step": 201831
     },
     {
+      "epoch": 14.8,
+      "learning_rate": 2.8864927874107535e-05,
+      "loss": 0.0004,
+      "step": 203204
+    },
+    {
+      "epoch": 14.9,
+      "learning_rate": 2.8309210419803455e-05,
+      "loss": 0.0004,
+      "step": 204577
     },
     {
       "epoch": 15.0,
+      "eval_loss": 0.015685711055994034,
+      "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.7509,
+      "eval_samples_per_second": 21.018,
+      "eval_steps_per_second": 1.412,
+      "step": 205890
     },
     {
+      "epoch": 15.0,
+      "learning_rate": 2.7753492965499378e-05,
       "loss": 0.0004,
+      "step": 205950
     },
     {
+      "epoch": 15.1,
+      "learning_rate": 2.71977755111953e-05,
       "loss": 0.0004,
+      "step": 207323
     },
     {
+      "epoch": 15.2,
+      "learning_rate": 2.6642058056891224e-05,
+      "loss": 0.0004,
+      "step": 208696
     },
     {
+      "epoch": 15.3,
+      "learning_rate": 2.6086340602587144e-05,
+      "loss": 0.0004,
+      "step": 210069
     },
     {
+      "epoch": 15.4,
+      "learning_rate": 2.5530623148283067e-05,
       "loss": 0.0004,
+      "step": 211442
     },
     {
+      "epoch": 15.5,
+      "learning_rate": 2.4974905693978987e-05,
       "loss": 0.0005,
+      "step": 212815
     },
     {
+      "epoch": 15.6,
+      "learning_rate": 2.441918823967491e-05,
       "loss": 0.0004,
+      "step": 214188
     },
     {
+      "epoch": 15.7,
+      "learning_rate": 2.386347078537083e-05,
+      "loss": 0.0004,
+      "step": 215561
     },
     {
+      "epoch": 15.8,
+      "learning_rate": 2.330775333106675e-05,
+      "loss": 0.0005,
+      "step": 216934
+    },
+    {
+      "epoch": 15.9,
+      "learning_rate": 2.2752035876762673e-05,
       "loss": 0.0004,
+      "step": 218307
     },
     {
       "epoch": 16.0,
+      "eval_loss": 0.017339130863547325,
+      "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.871,
+      "eval_samples_per_second": 20.822,
+      "eval_steps_per_second": 1.398,
+      "step": 219616
     },
     {
+      "epoch": 16.0,
+      "learning_rate": 2.2196318422458596e-05,
+      "loss": 0.0004,
+      "step": 219680
     },
     {
+      "epoch": 16.1,
+      "learning_rate": 2.1640600968154516e-05,
+      "loss": 0.0004,
+      "step": 221053
     },
     {
+      "epoch": 16.2,
+      "learning_rate": 2.108488351385044e-05,
+      "loss": 0.0004,
+      "step": 222426
     },
     {
+      "epoch": 16.3,
+      "learning_rate": 2.0529166059546362e-05,
+      "loss": 0.0004,
+      "step": 223799
     },
     {
+      "epoch": 16.4,
+      "learning_rate": 1.9973448605242282e-05,
       "loss": 0.0004,
+      "step": 225172
     },
     {
+      "epoch": 16.5,
+      "learning_rate": 1.9417731150938205e-05,
+      "loss": 0.0004,
+      "step": 226545
     },
     {
+      "epoch": 16.6,
+      "learning_rate": 1.8862013696634125e-05,
       "loss": 0.0004,
+      "step": 227918
     },
     {
+      "epoch": 16.7,
+      "learning_rate": 1.8306296242330048e-05,
       "loss": 0.0004,
+      "step": 229291
     },
     {
+      "epoch": 16.8,
+      "learning_rate": 1.775057878802597e-05,
       "loss": 0.0004,
+      "step": 230664
     },
     {
+      "epoch": 16.9,
+      "learning_rate": 1.719486133372189e-05,
+      "loss": 0.0004,
+      "step": 232037
     },
     {
       "epoch": 17.0,
+      "eval_loss": 0.015850957483053207,
+      "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.7459,
+      "eval_samples_per_second": 21.026,
+      "eval_steps_per_second": 1.412,
+      "step": 233342
     },
     {
+      "epoch": 17.0,
+      "learning_rate": 1.663914387941781e-05,
       "loss": 0.0004,
+      "step": 233410
     },
     {
+      "epoch": 17.1,
+      "learning_rate": 1.6083426425113734e-05,
+      "loss": 0.0004,
+      "step": 234783
     },
     {
+      "epoch": 17.21,
+      "learning_rate": 1.5527708970809657e-05,
+      "loss": 0.0004,
+      "step": 236156
     },
     {
+      "epoch": 17.31,
+      "learning_rate": 1.4971991516505579e-05,
+      "loss": 0.0004,
+      "step": 237529
     },
     {
+      "epoch": 17.41,
+      "learning_rate": 1.4416274062201499e-05,
+      "loss": 0.0005,
+      "step": 238902
     },
     {
+      "epoch": 17.51,
+      "learning_rate": 1.386055660789742e-05,
+      "loss": 0.0004,
+      "step": 240275
     },
     {
+      "epoch": 17.61,
+      "learning_rate": 1.3304839153593343e-05,
+      "loss": 0.0004,
+      "step": 241648
     },
     {
+      "epoch": 17.71,
+      "learning_rate": 1.2749121699289265e-05,
+      "loss": 0.0004,
+      "step": 243021
     },
     {
+      "epoch": 17.81,
+      "learning_rate": 1.2193404244985186e-05,
+      "loss": 0.0004,
+      "step": 244394
     },
     {
+      "epoch": 17.91,
+      "learning_rate": 1.1637686790681108e-05,
       "loss": 0.0004,
+      "step": 245767
     },
     {
       "epoch": 18.0,
+      "eval_loss": 0.016846980899572372,
+      "eval_max_distance": 2,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.3322,
+      "eval_samples_per_second": 18.699,
+      "eval_steps_per_second": 1.256,
+      "step": 247068
     },
     {
+      "epoch": 18.01,
+      "learning_rate": 1.1081969336377031e-05,
       "loss": 0.0004,
+      "step": 247140
     },
     {
+      "epoch": 18.11,
+      "learning_rate": 1.0526251882072952e-05,
       "loss": 0.0004,
+      "step": 248513
     },
     {
+      "epoch": 18.21,
+      "learning_rate": 9.970534427768874e-06,
+      "loss": 0.0004,
+      "step": 249886
     },
     {
+      "epoch": 18.31,
+      "learning_rate": 9.414816973464795e-06,
       "loss": 0.0003,
+      "step": 251259
     },
     {
+      "epoch": 18.41,
+      "learning_rate": 8.859099519160717e-06,
       "loss": 0.0004,
+      "step": 252632
     },
     {
+      "epoch": 18.51,
+      "learning_rate": 8.30338206485664e-06,
       "loss": 0.0004,
+      "step": 254005
     },
     {
+      "epoch": 18.61,
+      "learning_rate": 7.74766461055256e-06,
       "loss": 0.0004,
+      "step": 255378
     },
     {
+      "epoch": 18.71,
+      "learning_rate": 7.191947156248482e-06,
       "loss": 0.0004,
+      "step": 256751
     },
     {
+      "epoch": 18.81,
+      "learning_rate": 6.636229701944405e-06,
       "loss": 0.0003,
+      "step": 258124
     },
     {
+      "epoch": 18.91,
+      "learning_rate": 6.080512247640326e-06,
+      "loss": 0.0004,
+      "step": 259497
     },
     {
+      "epoch": 19.0,
+      "eval_loss": 0.01681215688586235,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 12.5068,
+      "eval_samples_per_second": 21.428,
+      "eval_steps_per_second": 1.439,
+      "step": 260794
     },
     {
+      "epoch": 19.01,
+      "learning_rate": 5.524794793336248e-06,
       "loss": 0.0004,
+      "step": 260870
     },
     {
+      "epoch": 19.11,
+      "learning_rate": 4.969077339032169e-06,
+      "loss": 0.0004,
+      "step": 262243
     },
     {
+      "epoch": 19.21,
+      "learning_rate": 4.4133598847280914e-06,
+      "loss": 0.0004,
+      "step": 263616
     },
     {
+      "epoch": 19.31,
+      "learning_rate": 3.857642430424013e-06,
+      "loss": 0.0004,
+      "step": 264989
     },
     {
+      "epoch": 19.41,
+      "learning_rate": 3.301924976119935e-06,
+      "loss": 0.0004,
+      "step": 266362
     },
     {
+      "epoch": 19.51,
+      "learning_rate": 2.7462075218158563e-06,
       "loss": 0.0004,
+      "step": 267735
     },
     {
+      "epoch": 19.61,
+      "learning_rate": 2.1904900675117783e-06,
       "loss": 0.0003,
+      "step": 269108
+    },
+    {
+      "epoch": 19.71,
+      "learning_rate": 1.6347726132077e-06,
+      "loss": 0.0004,
+      "step": 270481
     },
     {
+      "epoch": 19.81,
+      "learning_rate": 1.0790551589036217e-06,
       "loss": 0.0003,
+      "step": 271854
     },
     {
+      "epoch": 19.91,
+      "learning_rate": 5.233377045995435e-07,
+      "loss": 0.0004,
+      "step": 273227
     },
     {
       "epoch": 20.0,
+      "eval_loss": 0.016863718628883362,
+      "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.4816,
+      "eval_samples_per_second": 21.472,
+      "eval_steps_per_second": 1.442,
+      "step": 274520
     },
     {
       "epoch": 20.0,
+      "step": 274520,
+      "total_flos": 7.204011364904141e+16,
+      "train_loss": 2.2036947758330143e-05,
+      "train_runtime": 1601.2933,
+      "train_samples_per_second": 2571.434,
+      "train_steps_per_second": 171.436
     }
   ],
+  "logging_steps": 1373,
+  "max_steps": 274520,
   "num_train_epochs": 20,
+  "save_steps": 2746,
+  "total_flos": 7.204011364904141e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff328fa272f719329d317d9c2a268053f31d067183e9227f052a9647a6837e34
 size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fcbb4734a1034f7e19548fb8450d8c0a52da16d2253c49bf3ef5741ac2faac2
 size 4091