alexue4
/

text-normalization-ru-new

@@ -15,9 +15,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [alexue4/text-normalization-ru-new](https://huggingface.co/alexue4/text-normalization-ru-new) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0152
 - Mean Distance: 0
-- Max Distance: 1
 ## Model description
@@ -49,26 +49,26 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step   | Validation Loss | Mean Distance | Max Distance |
 |:-------------:|:-----:|:------:|:---------------:|:-------------:|:------------:|
-| 0.0005        | 1.0   | 13747  | 0.0151          | 0             | 3            |
-| 0.0005        | 2.0   | 27494  | 0.0173          | 0             | 3            |
-| 0.0006        | 3.0   | 41241  | 0.0136          | 0             | 3            |
-| 0.0007        | 4.0   | 54988  | 0.0141          | 0             | 2            |
-| 0.0006        | 5.0   | 68735  | 0.0155          | 0             | 4            |
-| 0.0005        | 6.0   | 82482  | 0.0183          | 0             | 4            |
-| 0.0005        | 7.0   | 96229  | 0.0218          | 0             | 4            |
-| 0.0005        | 8.0   | 109976 | 0.0162          | 0             | 1            |
-| 0.0005        | 9.0   | 123723 | 0.0147          | 0             | 3            |
-| 0.0005        | 10.0  | 137470 | 0.0188          | 0             | 5            |
-| 0.0004        | 11.0  | 151217 | 0.0168          | 0             | 1            |
-| 0.0004        | 12.0  | 164964 | 0.0172          | 0             | 4            |
-| 0.0004        | 13.0  | 178711 | 0.0168          | 0             | 3            |
-| 0.0004        | 14.0  | 192458 | 0.0162          | 0             | 2            |
-| 0.0004        | 15.0  | 206205 | 0.0165          | 0             | 2            |
-| 0.0003        | 16.0  | 219952 | 0.0151          | 0             | 3            |
-| 0.0004        | 17.0  | 233699 | 0.0137          | 0             | 1            |
-| 0.0003        | 18.0  | 247446 | 0.0146          | 0             | 3            |
-| 0.0003        | 19.0  | 261193 | 0.0152          | 0             | 1            |
-| 0.0003        | 20.0  | 274940 | 0.0152          | 0             | 1            |
 ### Framework versions

 This model is a fine-tuned version of [alexue4/text-normalization-ru-new](https://huggingface.co/alexue4/text-normalization-ru-new) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0170
 - Mean Distance: 0
+- Max Distance: 3
 ## Model description
 | Training Loss | Epoch | Step   | Validation Loss | Mean Distance | Max Distance |
 |:-------------:|:-----:|:------:|:---------------:|:-------------:|:------------:|
+| 0.0004        | 1.0   | 13982  | 0.0145          | 0             | 4            |
+| 0.0005        | 2.0   | 27964  | 0.0164          | 0             | 4            |
+| 0.0005        | 3.0   | 41946  | 0.0167          | 0             | 3            |
+| 0.0005        | 4.0   | 55928  | 0.0125          | 0             | 3            |
+| 0.0005        | 5.0   | 69910  | 0.0185          | 0             | 3            |
+| 0.0005        | 6.0   | 83892  | 0.0173          | 0             | 3            |
+| 0.0005        | 7.0   | 97874  | 0.0168          | 0             | 5            |
+| 0.0004        | 8.0   | 111856 | 0.0201          | 0             | 5            |
+| 0.0004        | 9.0   | 125838 | 0.0215          | 0             | 2            |
+| 0.0004        | 10.0  | 139820 | 0.0226          | 0             | 3            |
+| 0.0004        | 11.0  | 153802 | 0.0199          | 0             | 3            |
+| 0.0003        | 12.0  | 167784 | 0.0184          | 0             | 3            |
+| 0.0004        | 13.0  | 181766 | 0.0196          | 0             | 3            |
+| 0.0003        | 14.0  | 195748 | 0.0167          | 0             | 1            |
+| 0.0003        | 15.0  | 209730 | 0.0177          | 0             | 3            |
+| 0.0003        | 16.0  | 223712 | 0.0173          | 0             | 3            |
+| 0.0003        | 17.0  | 237694 | 0.0173          | 0             | 3            |
+| 0.0003        | 18.0  | 251676 | 0.0169          | 0             | 3            |
+| 0.0003        | 19.0  | 265658 | 0.0167          | 0             | 3            |
+| 0.0003        | 20.0  | 279640 | 0.0170          | 0             | 3            |
 ### Framework versions

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a29ed1864021c806a6e456100ae3fbfee4fceac880782c5f20ef94edb2442cf9
 size 258643461

 version https://git-lfs.github.com/spec/v1
+oid sha256:0faab56c1613c68c3c5f4b631273360760561866b59ee610afd96d410f0b2012
 size 258643461

trainer_state.json CHANGED Viewed

@@ -3,1426 +3,1426 @@
   "best_model_checkpoint": null,
   "epoch": 20.0,
   "eval_steps": 500,
-  "global_step": 274940,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 3.6371571979340947e-09,
       "loss": 0.0,
       "step": 1
     },
     {
       "epoch": 0.1,
-      "learning_rate": 5.001091147159381e-06,
-      "loss": 0.0005,
-      "step": 1375
     },
     {
       "epoch": 0.2,
-      "learning_rate": 1.0002182294318761e-05,
-      "loss": 0.0005,
-      "step": 2750
     },
     {
       "epoch": 0.3,
-      "learning_rate": 1.5003273441478141e-05,
-      "loss": 0.0004,
-      "step": 4125
     },
     {
       "epoch": 0.4,
-      "learning_rate": 2.0004364588637523e-05,
       "loss": 0.0004,
-      "step": 5500
     },
     {
       "epoch": 0.5,
-      "learning_rate": 2.50054557357969e-05,
-      "loss": 0.0005,
-      "step": 6875
     },
     {
       "epoch": 0.6,
-      "learning_rate": 3.0006546882956283e-05,
       "loss": 0.0004,
-      "step": 8250
     },
     {
       "epoch": 0.7,
-      "learning_rate": 3.5007638030115664e-05,
-      "loss": 0.0004,
-      "step": 9625
     },
     {
       "epoch": 0.8,
-      "learning_rate": 4.0008729177275046e-05,
-      "loss": 0.0005,
-      "step": 11000
     },
     {
       "epoch": 0.9,
-      "learning_rate": 4.500982032443443e-05,
-      "loss": 0.0005,
-      "step": 12375
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.015108300372958183,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 16.7885,
-      "eval_samples_per_second": 15.963,
-      "eval_steps_per_second": 1.072,
-      "step": 13747
     },
     {
       "epoch": 1.0,
-      "learning_rate": 5.00109114715938e-05,
-      "loss": 0.0005,
-      "step": 13750
     },
     {
       "epoch": 1.1,
-      "learning_rate": 5.501200261875319e-05,
-      "loss": 0.0005,
-      "step": 15125
     },
     {
       "epoch": 1.2,
-      "learning_rate": 6.0013093765912565e-05,
-      "loss": 0.0005,
-      "step": 16500
     },
     {
       "epoch": 1.3,
-      "learning_rate": 6.501418491307195e-05,
-      "loss": 0.0005,
-      "step": 17875
     },
     {
       "epoch": 1.4,
-      "learning_rate": 7.001527606023133e-05,
-      "loss": 0.0005,
-      "step": 19250
     },
     {
       "epoch": 1.5,
-      "learning_rate": 7.50163672073907e-05,
-      "loss": 0.0005,
-      "step": 20625
     },
     {
       "epoch": 1.6,
-      "learning_rate": 8.001745835455009e-05,
       "loss": 0.0005,
-      "step": 22000
     },
     {
       "epoch": 1.7,
-      "learning_rate": 8.501854950170947e-05,
-      "loss": 0.0005,
-      "step": 23375
     },
     {
       "epoch": 1.8,
-      "learning_rate": 9.001964064886885e-05,
-      "loss": 0.0005,
-      "step": 24750
     },
     {
       "epoch": 1.9,
-      "learning_rate": 9.502073179602823e-05,
       "loss": 0.0005,
-      "step": 26125
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.0173035915941,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 16.2636,
-      "eval_samples_per_second": 16.479,
-      "eval_steps_per_second": 1.107,
-      "step": 27494
     },
     {
       "epoch": 2.0,
-      "learning_rate": 9.999757522853471e-05,
-      "loss": 0.0006,
-      "step": 27500
     },
     {
       "epoch": 2.1,
-      "learning_rate": 9.94418984344059e-05,
       "loss": 0.0005,
-      "step": 28875
     },
     {
       "epoch": 2.2,
-      "learning_rate": 9.888622164027708e-05,
-      "loss": 0.0006,
-      "step": 30250
     },
     {
       "epoch": 2.3,
-      "learning_rate": 9.833054484614825e-05,
-      "loss": 0.0006,
-      "step": 31625
     },
     {
       "epoch": 2.4,
-      "learning_rate": 9.777486805201943e-05,
-      "loss": 0.0006,
-      "step": 33000
     },
     {
       "epoch": 2.5,
-      "learning_rate": 9.721919125789062e-05,
-      "loss": 0.0006,
-      "step": 34375
     },
     {
       "epoch": 2.6,
-      "learning_rate": 9.66635144637618e-05,
-      "loss": 0.0007,
-      "step": 35750
     },
     {
       "epoch": 2.7,
-      "learning_rate": 9.610783766963298e-05,
       "loss": 0.0006,
-      "step": 37125
     },
     {
       "epoch": 2.8,
-      "learning_rate": 9.555216087550416e-05,
-      "loss": 0.0006,
-      "step": 38500
     },
     {
       "epoch": 2.9,
-      "learning_rate": 9.499648408137534e-05,
-      "loss": 0.0006,
-      "step": 39875
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.013588453643023968,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.87,
-      "eval_samples_per_second": 16.887,
-      "eval_steps_per_second": 1.134,
-      "step": 41241
     },
     {
       "epoch": 3.0,
-      "learning_rate": 9.444080728724652e-05,
       "loss": 0.0006,
-      "step": 41250
     },
     {
       "epoch": 3.1,
-      "learning_rate": 9.38851304931177e-05,
-      "loss": 0.0006,
-      "step": 42625
     },
     {
       "epoch": 3.2,
-      "learning_rate": 9.332945369898887e-05,
       "loss": 0.0005,
-      "step": 44000
     },
     {
       "epoch": 3.3,
-      "learning_rate": 9.277377690486005e-05,
       "loss": 0.0006,
-      "step": 45375
     },
     {
       "epoch": 3.4,
-      "learning_rate": 9.221810011073123e-05,
-      "loss": 0.0006,
-      "step": 46750
     },
     {
       "epoch": 3.5,
-      "learning_rate": 9.166242331660242e-05,
-      "loss": 0.0007,
-      "step": 48125
     },
     {
       "epoch": 3.6,
-      "learning_rate": 9.110674652247359e-05,
-      "loss": 0.0006,
-      "step": 49500
     },
     {
       "epoch": 3.7,
-      "learning_rate": 9.055106972834477e-05,
-      "loss": 0.0006,
-      "step": 50875
     },
     {
       "epoch": 3.8,
-      "learning_rate": 8.999539293421595e-05,
-      "loss": 0.0007,
-      "step": 52250
     },
     {
       "epoch": 3.9,
-      "learning_rate": 8.943971614008714e-05,
-      "loss": 0.0007,
-      "step": 53625
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.014065152034163475,
-      "eval_max_distance": 2,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.9652,
-      "eval_samples_per_second": 16.787,
-      "eval_steps_per_second": 1.127,
-      "step": 54988
     },
     {
       "epoch": 4.0,
-      "learning_rate": 8.888403934595832e-05,
       "loss": 0.0006,
-      "step": 55000
     },
     {
       "epoch": 4.1,
-      "learning_rate": 8.832836255182949e-05,
-      "loss": 0.0006,
-      "step": 56375
     },
     {
       "epoch": 4.2,
-      "learning_rate": 8.777268575770068e-05,
-      "loss": 0.0006,
-      "step": 57750
     },
     {
       "epoch": 4.3,
-      "learning_rate": 8.721700896357186e-05,
       "loss": 0.0005,
-      "step": 59125
     },
     {
       "epoch": 4.4,
-      "learning_rate": 8.666133216944304e-05,
-      "loss": 0.0006,
-      "step": 60500
     },
     {
       "epoch": 4.5,
-      "learning_rate": 8.610565537531422e-05,
       "loss": 0.0005,
-      "step": 61875
     },
     {
       "epoch": 4.6,
-      "learning_rate": 8.55499785811854e-05,
-      "loss": 0.0006,
-      "step": 63250
     },
     {
       "epoch": 4.7,
-      "learning_rate": 8.499430178705657e-05,
-      "loss": 0.0007,
-      "step": 64625
     },
     {
       "epoch": 4.8,
-      "learning_rate": 8.443862499292775e-05,
-      "loss": 0.0006,
-      "step": 66000
     },
     {
       "epoch": 4.9,
-      "learning_rate": 8.388294819879895e-05,
-      "loss": 0.0006,
-      "step": 67375
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.015543907880783081,
-      "eval_max_distance": 4,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.8832,
-      "eval_samples_per_second": 16.873,
-      "eval_steps_per_second": 1.133,
-      "step": 68735
     },
     {
       "epoch": 5.0,
-      "learning_rate": 8.332727140467011e-05,
-      "loss": 0.0006,
-      "step": 68750
     },
     {
       "epoch": 5.1,
-      "learning_rate": 8.277159461054129e-05,
-      "loss": 0.0006,
-      "step": 70125
     },
     {
       "epoch": 5.2,
-      "learning_rate": 8.221591781641247e-05,
-      "loss": 0.0006,
-      "step": 71500
     },
     {
       "epoch": 5.3,
-      "learning_rate": 8.166024102228366e-05,
-      "loss": 0.0006,
-      "step": 72875
     },
     {
       "epoch": 5.4,
-      "learning_rate": 8.110456422815483e-05,
-      "loss": 0.0006,
-      "step": 74250
     },
     {
       "epoch": 5.5,
-      "learning_rate": 8.0548887434026e-05,
-      "loss": 0.0006,
-      "step": 75625
     },
     {
       "epoch": 5.6,
-      "learning_rate": 7.99932106398972e-05,
-      "loss": 0.0006,
-      "step": 77000
     },
     {
       "epoch": 5.7,
-      "learning_rate": 7.943753384576838e-05,
-      "loss": 0.0006,
-      "step": 78375
     },
     {
       "epoch": 5.8,
-      "learning_rate": 7.888185705163956e-05,
-      "loss": 0.0006,
-      "step": 79750
     },
     {
       "epoch": 5.9,
-      "learning_rate": 7.832618025751072e-05,
       "loss": 0.0005,
-      "step": 81125
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.018322547897696495,
-      "eval_max_distance": 4,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.9589,
-      "eval_samples_per_second": 16.793,
-      "eval_steps_per_second": 1.128,
-      "step": 82482
     },
     {
       "epoch": 6.0,
-      "learning_rate": 7.777050346338192e-05,
-      "loss": 0.0006,
-      "step": 82500
     },
     {
       "epoch": 6.1,
-      "learning_rate": 7.72148266692531e-05,
-      "loss": 0.0005,
-      "step": 83875
     },
     {
       "epoch": 6.2,
-      "learning_rate": 7.665914987512427e-05,
-      "loss": 0.0005,
-      "step": 85250
     },
     {
       "epoch": 6.3,
-      "learning_rate": 7.610347308099545e-05,
-      "loss": 0.0005,
-      "step": 86625
     },
     {
       "epoch": 6.4,
-      "learning_rate": 7.554779628686663e-05,
-      "loss": 0.0006,
-      "step": 88000
     },
     {
       "epoch": 6.5,
-      "learning_rate": 7.499211949273781e-05,
-      "loss": 0.0005,
-      "step": 89375
     },
     {
       "epoch": 6.6,
-      "learning_rate": 7.443644269860899e-05,
-      "loss": 0.0005,
-      "step": 90750
     },
     {
       "epoch": 6.7,
-      "learning_rate": 7.388076590448018e-05,
       "loss": 0.0005,
-      "step": 92125
     },
     {
       "epoch": 6.8,
-      "learning_rate": 7.332508911035135e-05,
-      "loss": 0.0006,
-      "step": 93500
     },
     {
       "epoch": 6.9,
-      "learning_rate": 7.276941231622253e-05,
       "loss": 0.0005,
-      "step": 94875
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.021769728511571884,
-      "eval_max_distance": 4,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.9282,
-      "eval_samples_per_second": 16.825,
-      "eval_steps_per_second": 1.13,
-      "step": 96229
     },
     {
       "epoch": 7.0,
-      "learning_rate": 7.221373552209372e-05,
       "loss": 0.0005,
-      "step": 96250
     },
     {
       "epoch": 7.1,
-      "learning_rate": 7.16580587279649e-05,
       "loss": 0.0005,
-      "step": 97625
     },
     {
       "epoch": 7.2,
-      "learning_rate": 7.110238193383608e-05,
       "loss": 0.0005,
-      "step": 99000
     },
     {
       "epoch": 7.3,
-      "learning_rate": 7.054670513970724e-05,
-      "loss": 0.0006,
-      "step": 100375
     },
     {
       "epoch": 7.4,
-      "learning_rate": 6.999102834557844e-05,
       "loss": 0.0005,
-      "step": 101750
     },
     {
       "epoch": 7.5,
-      "learning_rate": 6.943535155144961e-05,
-      "loss": 0.0007,
-      "step": 103125
     },
     {
       "epoch": 7.6,
-      "learning_rate": 6.88796747573208e-05,
-      "loss": 0.0006,
-      "step": 104500
     },
     {
       "epoch": 7.7,
-      "learning_rate": 6.832399796319197e-05,
-      "loss": 0.0006,
-      "step": 105875
     },
     {
       "epoch": 7.8,
-      "learning_rate": 6.776832116906315e-05,
-      "loss": 0.0005,
-      "step": 107250
     },
     {
       "epoch": 7.9,
-      "learning_rate": 6.721264437493433e-05,
-      "loss": 0.0005,
-      "step": 108625
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.016180865466594696,
-      "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.9709,
-      "eval_samples_per_second": 16.781,
-      "eval_steps_per_second": 1.127,
-      "step": 109976
     },
     {
       "epoch": 8.0,
-      "learning_rate": 6.665696758080551e-05,
-      "loss": 0.0005,
-      "step": 110000
     },
     {
       "epoch": 8.1,
-      "learning_rate": 6.610129078667669e-05,
       "loss": 0.0005,
-      "step": 111375
     },
     {
       "epoch": 8.2,
-      "learning_rate": 6.554561399254787e-05,
-      "loss": 0.0006,
-      "step": 112750
     },
     {
       "epoch": 8.3,
-      "learning_rate": 6.498993719841905e-05,
       "loss": 0.0005,
-      "step": 114125
     },
     {
       "epoch": 8.4,
-      "learning_rate": 6.443426040429024e-05,
       "loss": 0.0005,
-      "step": 115500
     },
     {
       "epoch": 8.5,
-      "learning_rate": 6.387858361016142e-05,
       "loss": 0.0005,
-      "step": 116875
     },
     {
       "epoch": 8.6,
-      "learning_rate": 6.332290681603258e-05,
-      "loss": 0.0005,
-      "step": 118250
     },
     {
       "epoch": 8.7,
-      "learning_rate": 6.276723002190376e-05,
-      "loss": 0.0005,
-      "step": 119625
     },
     {
-      "epoch": 8.8,
-      "learning_rate": 6.221155322777496e-05,
-      "loss": 0.0005,
-      "step": 121000
     },
     {
-      "epoch": 8.9,
-      "learning_rate": 6.165587643364614e-05,
-      "loss": 0.0005,
-      "step": 122375
     },
     {
       "epoch": 9.0,
-      "eval_loss": 0.014703923836350441,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.6578,
-      "eval_samples_per_second": 17.116,
-      "eval_steps_per_second": 1.15,
-      "step": 123723
     },
     {
-      "epoch": 9.0,
-      "learning_rate": 6.110019963951731e-05,
       "loss": 0.0004,
-      "step": 123750
     },
     {
-      "epoch": 9.1,
-      "learning_rate": 6.0544522845388493e-05,
       "loss": 0.0004,
-      "step": 125125
     },
     {
-      "epoch": 9.2,
-      "learning_rate": 5.998884605125967e-05,
-      "loss": 0.0005,
-      "step": 126500
     },
     {
-      "epoch": 9.3,
-      "learning_rate": 5.943316925713085e-05,
-      "loss": 0.0005,
-      "step": 127875
     },
     {
-      "epoch": 9.4,
-      "learning_rate": 5.8877492463002024e-05,
-      "loss": 0.0005,
-      "step": 129250
     },
     {
-      "epoch": 9.5,
-      "learning_rate": 5.8321815668873216e-05,
-      "loss": 0.0005,
-      "step": 130625
     },
     {
-      "epoch": 9.6,
-      "learning_rate": 5.776613887474439e-05,
-      "loss": 0.0006,
-      "step": 132000
     },
     {
-      "epoch": 9.7,
-      "learning_rate": 5.721046208061557e-05,
       "loss": 0.0005,
-      "step": 133375
     },
     {
-      "epoch": 9.8,
-      "learning_rate": 5.6654785286486754e-05,
-      "loss": 0.0005,
-      "step": 134750
     },
     {
-      "epoch": 9.9,
-      "learning_rate": 5.609910849235793e-05,
-      "loss": 0.0005,
-      "step": 136125
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.018843844532966614,
-      "eval_max_distance": 5,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.9456,
-      "eval_samples_per_second": 16.807,
-      "eval_steps_per_second": 1.129,
-      "step": 137470
     },
     {
-      "epoch": 10.0,
-      "learning_rate": 5.554343169822911e-05,
-      "loss": 0.0005,
-      "step": 137500
     },
     {
-      "epoch": 10.1,
-      "learning_rate": 5.4987754904100284e-05,
-      "loss": 0.0005,
-      "step": 138875
     },
     {
-      "epoch": 10.2,
-      "learning_rate": 5.443207810997148e-05,
-      "loss": 0.0005,
-      "step": 140250
     },
     {
-      "epoch": 10.3,
-      "learning_rate": 5.387640131584265e-05,
-      "loss": 0.0005,
-      "step": 141625
     },
     {
-      "epoch": 10.4,
-      "learning_rate": 5.332072452171383e-05,
-      "loss": 0.0005,
-      "step": 143000
     },
     {
-      "epoch": 10.5,
-      "learning_rate": 5.2765047727585014e-05,
-      "loss": 0.0005,
-      "step": 144375
     },
     {
-      "epoch": 10.6,
-      "learning_rate": 5.220937093345619e-05,
       "loss": 0.0004,
-      "step": 145750
     },
     {
-      "epoch": 10.7,
-      "learning_rate": 5.165369413932737e-05,
       "loss": 0.0004,
-      "step": 147125
     },
     {
-      "epoch": 10.8,
-      "learning_rate": 5.1098017345198544e-05,
-      "loss": 0.0006,
-      "step": 148500
     },
     {
-      "epoch": 10.9,
-      "learning_rate": 5.054234055106973e-05,
       "loss": 0.0004,
-      "step": 149875
     },
     {
       "epoch": 11.0,
-      "eval_loss": 0.016838768497109413,
-      "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.6708,
-      "eval_samples_per_second": 17.102,
-      "eval_steps_per_second": 1.149,
-      "step": 151217
     },
     {
-      "epoch": 11.0,
-      "learning_rate": 4.998666375694091e-05,
-      "loss": 0.0005,
-      "step": 151250
     },
     {
-      "epoch": 11.1,
-      "learning_rate": 4.9430986962812095e-05,
-      "loss": 0.0004,
-      "step": 152625
     },
     {
-      "epoch": 11.2,
-      "learning_rate": 4.887531016868327e-05,
       "loss": 0.0004,
-      "step": 154000
     },
     {
-      "epoch": 11.3,
-      "learning_rate": 4.831963337455445e-05,
       "loss": 0.0004,
-      "step": 155375
     },
     {
-      "epoch": 11.4,
-      "learning_rate": 4.7763956580425626e-05,
       "loss": 0.0004,
-      "step": 156750
     },
     {
-      "epoch": 11.5,
-      "learning_rate": 4.720827978629681e-05,
       "loss": 0.0004,
-      "step": 158125
     },
     {
-      "epoch": 11.6,
-      "learning_rate": 4.665260299216799e-05,
       "loss": 0.0004,
-      "step": 159500
     },
     {
-      "epoch": 11.7,
-      "learning_rate": 4.609692619803917e-05,
       "loss": 0.0004,
-      "step": 160875
     },
     {
-      "epoch": 11.8,
-      "learning_rate": 4.5541249403910355e-05,
       "loss": 0.0004,
-      "step": 162250
     },
     {
-      "epoch": 11.9,
-      "learning_rate": 4.498557260978153e-05,
-      "loss": 0.0004,
-      "step": 163625
     },
     {
       "epoch": 12.0,
-      "eval_loss": 0.017172418534755707,
-      "eval_max_distance": 4,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.706,
-      "eval_samples_per_second": 17.064,
-      "eval_steps_per_second": 1.146,
-      "step": 164964
     },
     {
-      "epoch": 12.0,
-      "learning_rate": 4.4429895815652714e-05,
-      "loss": 0.0004,
-      "step": 165000
     },
     {
-      "epoch": 12.1,
-      "learning_rate": 4.3874219021523886e-05,
       "loss": 0.0004,
-      "step": 166375
     },
     {
-      "epoch": 12.2,
-      "learning_rate": 4.331854222739507e-05,
-      "loss": 0.0004,
-      "step": 167750
     },
     {
-      "epoch": 12.3,
-      "learning_rate": 4.276286543326625e-05,
-      "loss": 0.0004,
-      "step": 169125
     },
     {
-      "epoch": 12.4,
-      "learning_rate": 4.220718863913743e-05,
-      "loss": 0.0004,
-      "step": 170500
     },
     {
-      "epoch": 12.5,
-      "learning_rate": 4.165151184500861e-05,
-      "loss": 0.0004,
-      "step": 171875
     },
     {
-      "epoch": 12.6,
-      "learning_rate": 4.109583505087979e-05,
-      "loss": 0.0004,
-      "step": 173250
     },
     {
-      "epoch": 12.7,
-      "learning_rate": 4.0540158256750974e-05,
       "loss": 0.0004,
-      "step": 174625
     },
     {
-      "epoch": 12.8,
-      "learning_rate": 3.9984481462622146e-05,
-      "loss": 0.0004,
-      "step": 176000
     },
     {
-      "epoch": 12.9,
-      "learning_rate": 3.942880466849333e-05,
       "loss": 0.0004,
-      "step": 177375
     },
     {
       "epoch": 13.0,
-      "eval_loss": 0.01684817485511303,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.8959,
-      "eval_samples_per_second": 16.86,
-      "eval_steps_per_second": 1.132,
-      "step": 178711
     },
     {
-      "epoch": 13.0,
-      "learning_rate": 3.887312787436451e-05,
       "loss": 0.0004,
-      "step": 178750
     },
     {
-      "epoch": 13.1,
-      "learning_rate": 3.831745108023569e-05,
       "loss": 0.0004,
-      "step": 180125
     },
     {
-      "epoch": 13.2,
-      "learning_rate": 3.776177428610687e-05,
-      "loss": 0.0003,
-      "step": 181500
     },
     {
-      "epoch": 13.3,
-      "learning_rate": 3.720609749197805e-05,
-      "loss": 0.0004,
-      "step": 182875
     },
     {
-      "epoch": 13.4,
-      "learning_rate": 3.665042069784923e-05,
       "loss": 0.0003,
-      "step": 184250
     },
     {
-      "epoch": 13.5,
-      "learning_rate": 3.6094743903720406e-05,
-      "loss": 0.0005,
-      "step": 185625
     },
     {
-      "epoch": 13.6,
-      "learning_rate": 3.553906710959159e-05,
-      "loss": 0.0004,
-      "step": 187000
     },
     {
-      "epoch": 13.7,
-      "learning_rate": 3.498339031546277e-05,
       "loss": 0.0004,
-      "step": 188375
     },
     {
-      "epoch": 13.8,
-      "learning_rate": 3.442771352133395e-05,
       "loss": 0.0003,
-      "step": 189750
     },
     {
-      "epoch": 13.9,
-      "learning_rate": 3.387203672720513e-05,
-      "loss": 0.0004,
-      "step": 191125
     },
     {
       "epoch": 14.0,
-      "eval_loss": 0.01621120423078537,
-      "eval_max_distance": 2,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.9061,
-      "eval_samples_per_second": 16.849,
-      "eval_steps_per_second": 1.132,
-      "step": 192458
     },
     {
-      "epoch": 14.0,
-      "learning_rate": 3.331635993307631e-05,
       "loss": 0.0004,
-      "step": 192500
     },
     {
-      "epoch": 14.1,
-      "learning_rate": 3.276068313894749e-05,
       "loss": 0.0003,
-      "step": 193875
     },
     {
-      "epoch": 14.2,
-      "learning_rate": 3.220500634481867e-05,
-      "loss": 0.0004,
-      "step": 195250
     },
     {
-      "epoch": 14.3,
-      "learning_rate": 3.1649329550689846e-05,
       "loss": 0.0003,
-      "step": 196625
     },
     {
-      "epoch": 14.4,
-      "learning_rate": 3.109365275656103e-05,
-      "loss": 0.0004,
-      "step": 198000
     },
     {
-      "epoch": 14.5,
-      "learning_rate": 3.053797596243221e-05,
       "loss": 0.0003,
-      "step": 199375
     },
     {
-      "epoch": 14.6,
-      "learning_rate": 2.998229916830339e-05,
-      "loss": 0.0004,
-      "step": 200750
     },
     {
-      "epoch": 14.7,
-      "learning_rate": 2.942662237417457e-05,
       "loss": 0.0003,
-      "step": 202125
     },
     {
-      "epoch": 14.8,
-      "learning_rate": 2.8870945580045748e-05,
       "loss": 0.0004,
-      "step": 203500
     },
     {
-      "epoch": 14.9,
-      "learning_rate": 2.8315268785916927e-05,
-      "loss": 0.0004,
-      "step": 204875
     },
     {
       "epoch": 15.0,
-      "eval_loss": 0.016450826078653336,
-      "eval_max_distance": 2,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.843,
-      "eval_samples_per_second": 16.916,
-      "eval_steps_per_second": 1.136,
-      "step": 206205
     },
     {
-      "epoch": 15.0,
-      "learning_rate": 2.775959199178811e-05,
       "loss": 0.0003,
-      "step": 206250
     },
     {
-      "epoch": 15.1,
-      "learning_rate": 2.7203915197659292e-05,
       "loss": 0.0003,
-      "step": 207625
     },
     {
-      "epoch": 15.2,
-      "learning_rate": 2.6648238403530468e-05,
       "loss": 0.0003,
-      "step": 209000
     },
     {
-      "epoch": 15.3,
-      "learning_rate": 2.609256160940165e-05,
       "loss": 0.0003,
-      "step": 210375
     },
     {
-      "epoch": 15.4,
-      "learning_rate": 2.5536884815272826e-05,
       "loss": 0.0003,
-      "step": 211750
     },
     {
-      "epoch": 15.5,
-      "learning_rate": 2.4981208021144008e-05,
-      "loss": 0.0004,
-      "step": 213125
     },
     {
-      "epoch": 15.6,
-      "learning_rate": 2.4425531227015187e-05,
-      "loss": 0.0004,
-      "step": 214500
     },
     {
-      "epoch": 15.7,
-      "learning_rate": 2.386985443288637e-05,
-      "loss": 0.0004,
-      "step": 215875
     },
     {
-      "epoch": 15.8,
-      "learning_rate": 2.331417763875755e-05,
       "loss": 0.0003,
-      "step": 217250
     },
     {
-      "epoch": 15.9,
-      "learning_rate": 2.2758500844628728e-05,
       "loss": 0.0003,
-      "step": 218625
     },
     {
       "epoch": 16.0,
-      "eval_loss": 0.015056570991873741,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.5877,
-      "eval_samples_per_second": 17.193,
-      "eval_steps_per_second": 1.155,
-      "step": 219952
     },
     {
-      "epoch": 16.0,
-      "learning_rate": 2.2202824050499907e-05,
       "loss": 0.0003,
-      "step": 220000
     },
     {
-      "epoch": 16.1,
-      "learning_rate": 2.164714725637109e-05,
-      "loss": 0.0004,
-      "step": 221375
     },
     {
-      "epoch": 16.2,
-      "learning_rate": 2.109147046224227e-05,
-      "loss": 0.0004,
-      "step": 222750
     },
     {
-      "epoch": 16.3,
-      "learning_rate": 2.0535793668113448e-05,
       "loss": 0.0003,
-      "step": 224125
     },
     {
-      "epoch": 16.4,
-      "learning_rate": 1.9980116873984627e-05,
       "loss": 0.0003,
-      "step": 225500
     },
     {
-      "epoch": 16.5,
-      "learning_rate": 1.9424440079855806e-05,
-      "loss": 0.0004,
-      "step": 226875
     },
     {
-      "epoch": 16.6,
-      "learning_rate": 1.8868763285726988e-05,
       "loss": 0.0003,
-      "step": 228250
     },
     {
-      "epoch": 16.7,
-      "learning_rate": 1.8313086491598167e-05,
       "loss": 0.0003,
-      "step": 229625
     },
     {
-      "epoch": 16.8,
-      "learning_rate": 1.775740969746935e-05,
       "loss": 0.0003,
-      "step": 231000
     },
     {
-      "epoch": 16.9,
-      "learning_rate": 1.720173290334053e-05,
-      "loss": 0.0004,
-      "step": 232375
     },
     {
       "epoch": 17.0,
-      "eval_loss": 0.01368328370153904,
-      "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.9295,
-      "eval_samples_per_second": 16.824,
-      "eval_steps_per_second": 1.13,
-      "step": 233699
     },
     {
-      "epoch": 17.0,
-      "learning_rate": 1.6646056109211708e-05,
-      "loss": 0.0004,
-      "step": 233750
     },
     {
-      "epoch": 17.1,
-      "learning_rate": 1.6090379315082887e-05,
       "loss": 0.0003,
-      "step": 235125
     },
     {
-      "epoch": 17.2,
-      "learning_rate": 1.5534702520954066e-05,
       "loss": 0.0003,
-      "step": 236500
     },
     {
-      "epoch": 17.3,
-      "learning_rate": 1.4979025726825247e-05,
       "loss": 0.0003,
-      "step": 237875
     },
     {
-      "epoch": 17.4,
-      "learning_rate": 1.4423348932696426e-05,
       "loss": 0.0003,
-      "step": 239250
     },
     {
-      "epoch": 17.5,
-      "learning_rate": 1.3867672138567608e-05,
       "loss": 0.0003,
-      "step": 240625
     },
     {
-      "epoch": 17.6,
-      "learning_rate": 1.3311995344438787e-05,
       "loss": 0.0003,
-      "step": 242000
     },
     {
-      "epoch": 17.7,
-      "learning_rate": 1.2756318550309968e-05,
       "loss": 0.0003,
-      "step": 243375
     },
     {
-      "epoch": 17.8,
-      "learning_rate": 1.2200641756181147e-05,
       "loss": 0.0003,
-      "step": 244750
     },
     {
-      "epoch": 17.9,
-      "learning_rate": 1.1644964962052326e-05,
       "loss": 0.0003,
-      "step": 246125
     },
     {
       "epoch": 18.0,
-      "eval_loss": 0.014638499356806278,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.7143,
-      "eval_samples_per_second": 17.054,
-      "eval_steps_per_second": 1.145,
-      "step": 247446
     },
     {
-      "epoch": 18.0,
-      "learning_rate": 1.1089288167923507e-05,
       "loss": 0.0003,
-      "step": 247500
     },
     {
-      "epoch": 18.1,
-      "learning_rate": 1.0533611373794686e-05,
       "loss": 0.0003,
-      "step": 248875
     },
     {
-      "epoch": 18.2,
-      "learning_rate": 9.977934579665867e-06,
       "loss": 0.0003,
-      "step": 250250
     },
     {
-      "epoch": 18.3,
-      "learning_rate": 9.422257785537048e-06,
       "loss": 0.0003,
-      "step": 251625
     },
     {
-      "epoch": 18.4,
-      "learning_rate": 8.866580991408227e-06,
-      "loss": 0.0003,
-      "step": 253000
     },
     {
-      "epoch": 18.5,
-      "learning_rate": 8.310904197279406e-06,
       "loss": 0.0003,
-      "step": 254375
     },
     {
-      "epoch": 18.6,
-      "learning_rate": 7.755227403150587e-06,
-      "loss": 0.0004,
-      "step": 255750
     },
     {
-      "epoch": 18.7,
-      "learning_rate": 7.199550609021767e-06,
       "loss": 0.0003,
-      "step": 257125
     },
     {
-      "epoch": 18.8,
-      "learning_rate": 6.6438738148929465e-06,
-      "loss": 0.0003,
-      "step": 258500
     },
     {
-      "epoch": 18.9,
-      "learning_rate": 6.088197020764127e-06,
       "loss": 0.0003,
-      "step": 259875
     },
     {
       "epoch": 19.0,
-      "eval_loss": 0.015229469165205956,
-      "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.6105,
-      "eval_samples_per_second": 17.168,
-      "eval_steps_per_second": 1.153,
-      "step": 261193
     },
     {
-      "epoch": 19.0,
-      "learning_rate": 5.532520226635306e-06,
-      "loss": 0.0003,
-      "step": 261250
     },
     {
-      "epoch": 19.1,
-      "learning_rate": 4.976843432506486e-06,
-      "loss": 0.0003,
-      "step": 262625
     },
     {
-      "epoch": 19.2,
-      "learning_rate": 4.421166638377666e-06,
       "loss": 0.0003,
-      "step": 264000
     },
     {
-      "epoch": 19.3,
-      "learning_rate": 3.865489844248846e-06,
       "loss": 0.0003,
-      "step": 265375
     },
     {
-      "epoch": 19.4,
-      "learning_rate": 3.309813050120027e-06,
       "loss": 0.0003,
-      "step": 266750
     },
     {
-      "epoch": 19.5,
-      "learning_rate": 2.7541362559912064e-06,
       "loss": 0.0003,
-      "step": 268125
     },
     {
-      "epoch": 19.6,
-      "learning_rate": 2.1984594618623863e-06,
-      "loss": 0.0003,
-      "step": 269500
     },
     {
-      "epoch": 19.7,
-      "learning_rate": 1.6427826677335664e-06,
       "loss": 0.0003,
-      "step": 270875
     },
     {
-      "epoch": 19.8,
-      "learning_rate": 1.0871058736047461e-06,
       "loss": 0.0003,
-      "step": 272250
     },
     {
-      "epoch": 19.9,
-      "learning_rate": 5.31429079475926e-07,
       "loss": 0.0003,
-      "step": 273625
     },
     {
       "epoch": 20.0,
-      "eval_loss": 0.015233452431857586,
-      "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.6363,
-      "eval_samples_per_second": 17.14,
-      "eval_steps_per_second": 1.151,
-      "step": 274940
     },
     {
       "epoch": 20.0,
-      "step": 274940,
-      "total_flos": 7.20387481955881e+16,
-      "train_loss": 0.00045419663040463374,
-      "train_runtime": 19389.5827,
-      "train_samples_per_second": 212.682,
-      "train_steps_per_second": 14.18
     }
   ],
-  "logging_steps": 1375,
-  "max_steps": 274940,
   "num_train_epochs": 20,
-  "save_steps": 2750,
-  "total_flos": 7.20387481955881e+16,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 20.0,
   "eval_steps": 500,
+  "global_step": 279640,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 3.576026319553712e-09,
       "loss": 0.0,
       "step": 1
     },
     {
       "epoch": 0.1,
+      "learning_rate": 5.002860821055643e-06,
+      "loss": 0.0011,
+      "step": 1399
     },
     {
       "epoch": 0.2,
+      "learning_rate": 1.0005721642111287e-05,
+      "loss": 0.0008,
+      "step": 2798
     },
     {
       "epoch": 0.3,
+      "learning_rate": 1.500858246316693e-05,
+      "loss": 0.0008,
+      "step": 4197
     },
     {
       "epoch": 0.4,
+      "learning_rate": 2.0011443284222573e-05,
       "loss": 0.0004,
+      "step": 5596
     },
     {
       "epoch": 0.5,
+      "learning_rate": 2.5014304105278213e-05,
+      "loss": 0.0004,
+      "step": 6995
     },
     {
       "epoch": 0.6,
+      "learning_rate": 3.001716492633386e-05,
       "loss": 0.0004,
+      "step": 8394
     },
     {
       "epoch": 0.7,
+      "learning_rate": 3.5020025747389504e-05,
+      "loss": 0.0005,
+      "step": 9793
     },
     {
       "epoch": 0.8,
+      "learning_rate": 4.002288656844515e-05,
+      "loss": 0.0003,
+      "step": 11192
     },
     {
       "epoch": 0.9,
+      "learning_rate": 4.502574738950079e-05,
+      "loss": 0.0004,
+      "step": 12591
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.01447892002761364,
+      "eval_max_distance": 4,
       "eval_mean_distance": 0,
+      "eval_runtime": 16.1519,
+      "eval_samples_per_second": 16.593,
+      "eval_steps_per_second": 1.114,
+      "step": 13982
     },
     {
       "epoch": 1.0,
+      "learning_rate": 5.0028608210556425e-05,
+      "loss": 0.0004,
+      "step": 13990
     },
     {
       "epoch": 1.1,
+      "learning_rate": 5.503146903161207e-05,
+      "loss": 0.0004,
+      "step": 15389
     },
     {
       "epoch": 1.2,
+      "learning_rate": 6.003432985266772e-05,
+      "loss": 0.0004,
+      "step": 16788
     },
     {
       "epoch": 1.3,
+      "learning_rate": 6.503719067372336e-05,
+      "loss": 0.0004,
+      "step": 18187
     },
     {
       "epoch": 1.4,
+      "learning_rate": 7.004005149477901e-05,
+      "loss": 0.0004,
+      "step": 19586
     },
     {
       "epoch": 1.5,
+      "learning_rate": 7.504291231583464e-05,
+      "loss": 0.0004,
+      "step": 20985
     },
     {
       "epoch": 1.6,
+      "learning_rate": 8.00457731368903e-05,
       "loss": 0.0005,
+      "step": 22384
     },
     {
       "epoch": 1.7,
+      "learning_rate": 8.504863395794593e-05,
+      "loss": 0.0004,
+      "step": 23783
     },
     {
       "epoch": 1.8,
+      "learning_rate": 9.005149477900158e-05,
+      "loss": 0.0004,
+      "step": 25182
     },
     {
       "epoch": 1.9,
+      "learning_rate": 9.505435560005721e-05,
       "loss": 0.0005,
+      "step": 26581
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.01644507423043251,
+      "eval_max_distance": 4,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.8804,
+      "eval_samples_per_second": 18.01,
+      "eval_steps_per_second": 1.21,
+      "step": 27964
     },
     {
       "epoch": 2.0,
+      "learning_rate": 9.999364261987636e-05,
+      "loss": 0.0004,
+      "step": 27980
     },
     {
       "epoch": 2.1,
+      "learning_rate": 9.943776919531461e-05,
       "loss": 0.0005,
+      "step": 29379
     },
     {
       "epoch": 2.2,
+      "learning_rate": 9.888189577075288e-05,
+      "loss": 0.0005,
+      "step": 30778
     },
     {
       "epoch": 2.3,
+      "learning_rate": 9.832602234619113e-05,
+      "loss": 0.0005,
+      "step": 32177
     },
     {
       "epoch": 2.4,
+      "learning_rate": 9.77701489216294e-05,
+      "loss": 0.0005,
+      "step": 33576
     },
     {
       "epoch": 2.5,
+      "learning_rate": 9.721427549706766e-05,
+      "loss": 0.0005,
+      "step": 34975
     },
     {
       "epoch": 2.6,
+      "learning_rate": 9.665840207250593e-05,
+      "loss": 0.0006,
+      "step": 36374
     },
     {
       "epoch": 2.7,
+      "learning_rate": 9.61025286479442e-05,
       "loss": 0.0006,
+      "step": 37773
     },
     {
       "epoch": 2.8,
+      "learning_rate": 9.554665522338245e-05,
+      "loss": 0.0005,
+      "step": 39172
     },
     {
       "epoch": 2.9,
+      "learning_rate": 9.499078179882072e-05,
+      "loss": 0.0005,
+      "step": 40571
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.016705745831131935,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.6064,
+      "eval_samples_per_second": 18.348,
+      "eval_steps_per_second": 1.232,
+      "step": 41946
     },
     {
       "epoch": 3.0,
+      "learning_rate": 9.443490837425897e-05,
       "loss": 0.0006,
+      "step": 41970
     },
     {
       "epoch": 3.1,
+      "learning_rate": 9.387903494969723e-05,
+      "loss": 0.0005,
+      "step": 43369
     },
     {
       "epoch": 3.2,
+      "learning_rate": 9.33231615251355e-05,
       "loss": 0.0005,
+      "step": 44768
     },
     {
       "epoch": 3.3,
+      "learning_rate": 9.276728810057375e-05,
       "loss": 0.0006,
+      "step": 46167
     },
     {
       "epoch": 3.4,
+      "learning_rate": 9.221141467601202e-05,
+      "loss": 0.0005,
+      "step": 47566
     },
     {
       "epoch": 3.5,
+      "learning_rate": 9.165554125145028e-05,
+      "loss": 0.0006,
+      "step": 48965
     },
     {
       "epoch": 3.6,
+      "learning_rate": 9.109966782688855e-05,
+      "loss": 0.0005,
+      "step": 50364
     },
     {
       "epoch": 3.7,
+      "learning_rate": 9.054379440232682e-05,
+      "loss": 0.0005,
+      "step": 51763
     },
     {
       "epoch": 3.8,
+      "learning_rate": 8.998792097776507e-05,
+      "loss": 0.0005,
+      "step": 53162
     },
     {
       "epoch": 3.9,
+      "learning_rate": 8.943204755320333e-05,
+      "loss": 0.0005,
+      "step": 54561
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.012466676533222198,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.6723,
+      "eval_samples_per_second": 18.266,
+      "eval_steps_per_second": 1.227,
+      "step": 55928
     },
     {
       "epoch": 4.0,
+      "learning_rate": 8.887617412864158e-05,
       "loss": 0.0006,
+      "step": 55960
     },
     {
       "epoch": 4.1,
+      "learning_rate": 8.832030070407985e-05,
+      "loss": 0.0005,
+      "step": 57359
     },
     {
       "epoch": 4.2,
+      "learning_rate": 8.776442727951812e-05,
+      "loss": 0.0005,
+      "step": 58758
     },
     {
       "epoch": 4.3,
+      "learning_rate": 8.720855385495637e-05,
       "loss": 0.0005,
+      "step": 60157
     },
     {
       "epoch": 4.4,
+      "learning_rate": 8.665268043039464e-05,
+      "loss": 0.0005,
+      "step": 61556
     },
     {
       "epoch": 4.5,
+      "learning_rate": 8.60968070058329e-05,
       "loss": 0.0005,
+      "step": 62955
     },
     {
       "epoch": 4.6,
+      "learning_rate": 8.554093358127117e-05,
+      "loss": 0.0005,
+      "step": 64354
     },
     {
       "epoch": 4.7,
+      "learning_rate": 8.498506015670943e-05,
+      "loss": 0.0006,
+      "step": 65753
     },
     {
       "epoch": 4.8,
+      "learning_rate": 8.442918673214769e-05,
+      "loss": 0.0005,
+      "step": 67152
     },
     {
       "epoch": 4.9,
+      "learning_rate": 8.387331330758594e-05,
+      "loss": 0.0005,
+      "step": 68551
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.018481934443116188,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.7593,
+      "eval_samples_per_second": 18.158,
+      "eval_steps_per_second": 1.22,
+      "step": 69910
     },
     {
       "epoch": 5.0,
+      "learning_rate": 8.33174398830242e-05,
+      "loss": 0.0005,
+      "step": 69950
     },
     {
       "epoch": 5.1,
+      "learning_rate": 8.276156645846247e-05,
+      "loss": 0.0005,
+      "step": 71349
     },
     {
       "epoch": 5.2,
+      "learning_rate": 8.220569303390074e-05,
+      "loss": 0.0005,
+      "step": 72748
     },
     {
       "epoch": 5.3,
+      "learning_rate": 8.164981960933899e-05,
+      "loss": 0.0005,
+      "step": 74147
     },
     {
       "epoch": 5.4,
+      "learning_rate": 8.109394618477726e-05,
+      "loss": 0.0005,
+      "step": 75546
     },
     {
       "epoch": 5.5,
+      "learning_rate": 8.053807276021552e-05,
+      "loss": 0.0005,
+      "step": 76945
     },
     {
       "epoch": 5.6,
+      "learning_rate": 7.998219933565379e-05,
+      "loss": 0.0005,
+      "step": 78344
     },
     {
       "epoch": 5.7,
+      "learning_rate": 7.942632591109205e-05,
+      "loss": 0.0004,
+      "step": 79743
     },
     {
       "epoch": 5.8,
+      "learning_rate": 7.88704524865303e-05,
+      "loss": 0.0005,
+      "step": 81142
     },
     {
       "epoch": 5.9,
+      "learning_rate": 7.831457906196856e-05,
       "loss": 0.0005,
+      "step": 82541
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.017317254096269608,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.4763,
+      "eval_samples_per_second": 18.513,
+      "eval_steps_per_second": 1.243,
+      "step": 83892
     },
     {
       "epoch": 6.0,
+      "learning_rate": 7.775870563740682e-05,
+      "loss": 0.0005,
+      "step": 83940
     },
     {
       "epoch": 6.1,
+      "learning_rate": 7.720283221284509e-05,
+      "loss": 0.0004,
+      "step": 85339
     },
     {
       "epoch": 6.2,
+      "learning_rate": 7.664695878828336e-05,
+      "loss": 0.0006,
+      "step": 86738
     },
     {
       "epoch": 6.3,
+      "learning_rate": 7.609108536372161e-05,
+      "loss": 0.0004,
+      "step": 88137
     },
     {
       "epoch": 6.4,
+      "learning_rate": 7.553521193915988e-05,
+      "loss": 0.0005,
+      "step": 89536
     },
     {
       "epoch": 6.5,
+      "learning_rate": 7.497933851459814e-05,
+      "loss": 0.0004,
+      "step": 90935
     },
     {
       "epoch": 6.6,
+      "learning_rate": 7.44234650900364e-05,
+      "loss": 0.0004,
+      "step": 92334
     },
     {
       "epoch": 6.7,
+      "learning_rate": 7.386759166547467e-05,
       "loss": 0.0005,
+      "step": 93733
     },
     {
       "epoch": 6.8,
+      "learning_rate": 7.331171824091292e-05,
+      "loss": 0.0004,
+      "step": 95132
     },
     {
       "epoch": 6.9,
+      "learning_rate": 7.275584481635118e-05,
       "loss": 0.0005,
+      "step": 96531
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.016764231026172638,
+      "eval_max_distance": 5,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.4483,
+      "eval_samples_per_second": 18.549,
+      "eval_steps_per_second": 1.246,
+      "step": 97874
     },
     {
       "epoch": 7.0,
+      "learning_rate": 7.219997139178944e-05,
       "loss": 0.0005,
+      "step": 97930
     },
     {
       "epoch": 7.1,
+      "learning_rate": 7.164409796722771e-05,
       "loss": 0.0005,
+      "step": 99329
     },
     {
       "epoch": 7.2,
+      "learning_rate": 7.108822454266598e-05,
       "loss": 0.0005,
+      "step": 100728
     },
     {
       "epoch": 7.3,
+      "learning_rate": 7.053235111810423e-05,
+      "loss": 0.0005,
+      "step": 102127
     },
     {
       "epoch": 7.4,
+      "learning_rate": 6.99764776935425e-05,
       "loss": 0.0005,
+      "step": 103526
     },
     {
       "epoch": 7.5,
+      "learning_rate": 6.942060426898076e-05,
+      "loss": 0.0005,
+      "step": 104925
     },
     {
       "epoch": 7.6,
+      "learning_rate": 6.886473084441902e-05,
+      "loss": 0.0004,
+      "step": 106324
     },
     {
       "epoch": 7.7,
+      "learning_rate": 6.830885741985728e-05,
+      "loss": 0.0005,
+      "step": 107723
     },
     {
       "epoch": 7.8,
+      "learning_rate": 6.775298399529553e-05,
+      "loss": 0.0004,
+      "step": 109122
     },
     {
       "epoch": 7.9,
+      "learning_rate": 6.71971105707338e-05,
+      "loss": 0.0004,
+      "step": 110521
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.020108750090003014,
+      "eval_max_distance": 5,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.4845,
+      "eval_samples_per_second": 18.503,
+      "eval_steps_per_second": 1.243,
+      "step": 111856
     },
     {
       "epoch": 8.0,
+      "learning_rate": 6.664123714617206e-05,
+      "loss": 0.0004,
+      "step": 111920
     },
     {
       "epoch": 8.1,
+      "learning_rate": 6.608536372161033e-05,
       "loss": 0.0005,
+      "step": 113319
     },
     {
       "epoch": 8.2,
+      "learning_rate": 6.55294902970486e-05,
+      "loss": 0.0004,
+      "step": 114718
     },
     {
       "epoch": 8.3,
+      "learning_rate": 6.497361687248685e-05,
       "loss": 0.0005,
+      "step": 116117
     },
     {
       "epoch": 8.4,
+      "learning_rate": 6.441774344792512e-05,
       "loss": 0.0005,
+      "step": 117516
     },
     {
       "epoch": 8.5,
+      "learning_rate": 6.386187002336337e-05,
       "loss": 0.0005,
+      "step": 118915
     },
     {
       "epoch": 8.6,
+      "learning_rate": 6.330599659880164e-05,
+      "loss": 0.0004,
+      "step": 120314
     },
     {
       "epoch": 8.7,
+      "learning_rate": 6.27501231742399e-05,
+      "loss": 0.0004,
+      "step": 121713
     },
     {
+      "epoch": 8.81,
+      "learning_rate": 6.219424974967815e-05,
+      "loss": 0.0004,
+      "step": 123112
     },
     {
+      "epoch": 8.91,
+      "learning_rate": 6.163837632511642e-05,
+      "loss": 0.0004,
+      "step": 124511
     },
     {
       "epoch": 9.0,
+      "eval_loss": 0.021496200934052467,
+      "eval_max_distance": 2,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.5428,
+      "eval_samples_per_second": 18.428,
+      "eval_steps_per_second": 1.238,
+      "step": 125838
     },
     {
+      "epoch": 9.01,
+      "learning_rate": 6.108250290055468e-05,
       "loss": 0.0004,
+      "step": 125910
     },
     {
+      "epoch": 9.11,
+      "learning_rate": 6.0526629475992947e-05,
       "loss": 0.0004,
+      "step": 127309
     },
     {
+      "epoch": 9.21,
+      "learning_rate": 5.997075605143121e-05,
+      "loss": 0.0004,
+      "step": 128708
     },
     {
+      "epoch": 9.31,
+      "learning_rate": 5.941488262686947e-05,
+      "loss": 0.0004,
+      "step": 130107
     },
     {
+      "epoch": 9.41,
+      "learning_rate": 5.885900920230773e-05,
+      "loss": 0.0004,
+      "step": 131506
     },
     {
+      "epoch": 9.51,
+      "learning_rate": 5.8303135777746e-05,
+      "loss": 0.0004,
+      "step": 132905
     },
     {
+      "epoch": 9.61,
+      "learning_rate": 5.774726235318425e-05,
+      "loss": 0.0004,
+      "step": 134304
     },
     {
+      "epoch": 9.71,
+      "learning_rate": 5.719138892862251e-05,
       "loss": 0.0005,
+      "step": 135703
     },
     {
+      "epoch": 9.81,
+      "learning_rate": 5.663551550406077e-05,
+      "loss": 0.0004,
+      "step": 137102
     },
     {
+      "epoch": 9.91,
+      "learning_rate": 5.607964207949904e-05,
+      "loss": 0.0004,
+      "step": 138501
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.0225870031863451,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 15.0837,
+      "eval_samples_per_second": 17.768,
+      "eval_steps_per_second": 1.193,
+      "step": 139820
     },
     {
+      "epoch": 10.01,
+      "learning_rate": 5.5523768654937304e-05,
+      "loss": 0.0004,
+      "step": 139900
     },
     {
+      "epoch": 10.11,
+      "learning_rate": 5.4967895230375566e-05,
+      "loss": 0.0004,
+      "step": 141299
     },
     {
+      "epoch": 10.21,
+      "learning_rate": 5.441202180581383e-05,
+      "loss": 0.0004,
+      "step": 142698
     },
     {
+      "epoch": 10.31,
+      "learning_rate": 5.385614838125209e-05,
+      "loss": 0.0004,
+      "step": 144097
     },
     {
+      "epoch": 10.41,
+      "learning_rate": 5.330027495669035e-05,
+      "loss": 0.0004,
+      "step": 145496
     },
     {
+      "epoch": 10.51,
+      "learning_rate": 5.274440153212862e-05,
+      "loss": 0.0004,
+      "step": 146895
     },
     {
+      "epoch": 10.61,
+      "learning_rate": 5.218852810756687e-05,
       "loss": 0.0004,
+      "step": 148294
     },
     {
+      "epoch": 10.71,
+      "learning_rate": 5.163265468300513e-05,
       "loss": 0.0004,
+      "step": 149693
     },
     {
+      "epoch": 10.81,
+      "learning_rate": 5.107678125844339e-05,
+      "loss": 0.0004,
+      "step": 151092
     },
     {
+      "epoch": 10.91,
+      "learning_rate": 5.052090783388166e-05,
       "loss": 0.0004,
+      "step": 152491
     },
     {
       "epoch": 11.0,
+      "eval_loss": 0.019947679713368416,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.3656,
+      "eval_samples_per_second": 18.656,
+      "eval_steps_per_second": 1.253,
+      "step": 153802
     },
     {
+      "epoch": 11.01,
+      "learning_rate": 4.9965034409319923e-05,
+      "loss": 0.0004,
+      "step": 153890
     },
     {
+      "epoch": 11.11,
+      "learning_rate": 4.9409160984758185e-05,
+      "loss": 0.0003,
+      "step": 155289
     },
     {
+      "epoch": 11.21,
+      "learning_rate": 4.885328756019645e-05,
       "loss": 0.0004,
+      "step": 156688
     },
     {
+      "epoch": 11.31,
+      "learning_rate": 4.82974141356347e-05,
       "loss": 0.0004,
+      "step": 158087
     },
     {
+      "epoch": 11.41,
+      "learning_rate": 4.774154071107297e-05,
       "loss": 0.0004,
+      "step": 159486
     },
     {
+      "epoch": 11.51,
+      "learning_rate": 4.718566728651123e-05,
       "loss": 0.0004,
+      "step": 160885
     },
     {
+      "epoch": 11.61,
+      "learning_rate": 4.6629793861949495e-05,
       "loss": 0.0004,
+      "step": 162284
     },
     {
+      "epoch": 11.71,
+      "learning_rate": 4.607392043738775e-05,
       "loss": 0.0004,
+      "step": 163683
     },
     {
+      "epoch": 11.81,
+      "learning_rate": 4.551804701282601e-05,
       "loss": 0.0004,
+      "step": 165082
     },
     {
+      "epoch": 11.91,
+      "learning_rate": 4.496217358826428e-05,
+      "loss": 0.0003,
+      "step": 166481
     },
     {
       "epoch": 12.0,
+      "eval_loss": 0.018351813778281212,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.3946,
+      "eval_samples_per_second": 18.618,
+      "eval_steps_per_second": 1.25,
+      "step": 167784
     },
     {
+      "epoch": 12.01,
+      "learning_rate": 4.440630016370254e-05,
+      "loss": 0.0003,
+      "step": 167880
     },
     {
+      "epoch": 12.11,
+      "learning_rate": 4.3850426739140805e-05,
       "loss": 0.0004,
+      "step": 169279
     },
     {
+      "epoch": 12.21,
+      "learning_rate": 4.329455331457906e-05,
+      "loss": 0.0003,
+      "step": 170678
     },
     {
+      "epoch": 12.31,
+      "learning_rate": 4.273867989001732e-05,
+      "loss": 0.0003,
+      "step": 172077
     },
     {
+      "epoch": 12.41,
+      "learning_rate": 4.218280646545559e-05,
+      "loss": 0.0003,
+      "step": 173476
     },
     {
+      "epoch": 12.51,
+      "learning_rate": 4.162693304089385e-05,
+      "loss": 0.0003,
+      "step": 174875
     },
     {
+      "epoch": 12.61,
+      "learning_rate": 4.1071059616332115e-05,
+      "loss": 0.0003,
+      "step": 176274
     },
     {
+      "epoch": 12.71,
+      "learning_rate": 4.051518619177037e-05,
       "loss": 0.0004,
+      "step": 177673
     },
     {
+      "epoch": 12.81,
+      "learning_rate": 3.995931276720863e-05,
+      "loss": 0.0003,
+      "step": 179072
     },
     {
+      "epoch": 12.91,
+      "learning_rate": 3.94034393426469e-05,
       "loss": 0.0004,
+      "step": 180471
     },
     {
       "epoch": 13.0,
+      "eval_loss": 0.019636347889900208,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.3221,
+      "eval_samples_per_second": 18.712,
+      "eval_steps_per_second": 1.257,
+      "step": 181766
     },
     {
+      "epoch": 13.01,
+      "learning_rate": 3.884756591808516e-05,
       "loss": 0.0004,
+      "step": 181870
     },
     {
+      "epoch": 13.11,
+      "learning_rate": 3.8291692493523424e-05,
       "loss": 0.0004,
+      "step": 183269
     },
     {
+      "epoch": 13.21,
+      "learning_rate": 3.773581906896168e-05,
+      "loss": 0.0004,
+      "step": 184668
     },
     {
+      "epoch": 13.31,
+      "learning_rate": 3.717994564439994e-05,
+      "loss": 0.0003,
+      "step": 186067
     },
     {
+      "epoch": 13.41,
+      "learning_rate": 3.662407221983821e-05,
       "loss": 0.0003,
+      "step": 187466
     },
     {
+      "epoch": 13.51,
+      "learning_rate": 3.606819879527647e-05,
+      "loss": 0.0003,
+      "step": 188865
     },
     {
+      "epoch": 13.61,
+      "learning_rate": 3.551232537071473e-05,
+      "loss": 0.0003,
+      "step": 190264
     },
     {
+      "epoch": 13.71,
+      "learning_rate": 3.495645194615299e-05,
       "loss": 0.0004,
+      "step": 191663
     },
     {
+      "epoch": 13.81,
+      "learning_rate": 3.440057852159125e-05,
       "loss": 0.0003,
+      "step": 193062
     },
     {
+      "epoch": 13.91,
+      "learning_rate": 3.384470509702952e-05,
+      "loss": 0.0003,
+      "step": 194461
     },
     {
       "epoch": 14.0,
+      "eval_loss": 0.01673734560608864,
+      "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.3426,
+      "eval_samples_per_second": 18.686,
+      "eval_steps_per_second": 1.255,
+      "step": 195748
     },
     {
+      "epoch": 14.01,
+      "learning_rate": 3.328883167246778e-05,
       "loss": 0.0004,
+      "step": 195860
     },
     {
+      "epoch": 14.11,
+      "learning_rate": 3.273295824790604e-05,
       "loss": 0.0003,
+      "step": 197259
     },
     {
+      "epoch": 14.21,
+      "learning_rate": 3.21770848233443e-05,
+      "loss": 0.0003,
+      "step": 198658
     },
     {
+      "epoch": 14.31,
+      "learning_rate": 3.162121139878256e-05,
       "loss": 0.0003,
+      "step": 200057
     },
     {
+      "epoch": 14.41,
+      "learning_rate": 3.106533797422082e-05,
+      "loss": 0.0003,
+      "step": 201456
     },
     {
+      "epoch": 14.51,
+      "learning_rate": 3.0509464549659088e-05,
       "loss": 0.0003,
+      "step": 202855
     },
     {
+      "epoch": 14.61,
+      "learning_rate": 2.9953591125097347e-05,
+      "loss": 0.0003,
+      "step": 204254
     },
     {
+      "epoch": 14.71,
+      "learning_rate": 2.939771770053561e-05,
       "loss": 0.0003,
+      "step": 205653
     },
     {
+      "epoch": 14.81,
+      "learning_rate": 2.8841844275973874e-05,
       "loss": 0.0004,
+      "step": 207052
     },
     {
+      "epoch": 14.91,
+      "learning_rate": 2.8285970851412136e-05,
+      "loss": 0.0003,
+      "step": 208451
     },
     {
       "epoch": 15.0,
+      "eval_loss": 0.017744125798344612,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.4379,
+      "eval_samples_per_second": 18.562,
+      "eval_steps_per_second": 1.247,
+      "step": 209730
     },
     {
+      "epoch": 15.01,
+      "learning_rate": 2.7730097426850398e-05,
       "loss": 0.0003,
+      "step": 209850
     },
     {
+      "epoch": 15.11,
+      "learning_rate": 2.7174224002288656e-05,
       "loss": 0.0003,
+      "step": 211249
     },
     {
+      "epoch": 15.21,
+      "learning_rate": 2.661835057772692e-05,
       "loss": 0.0003,
+      "step": 212648
     },
     {
+      "epoch": 15.31,
+      "learning_rate": 2.6062477153165184e-05,
       "loss": 0.0003,
+      "step": 214047
     },
     {
+      "epoch": 15.41,
+      "learning_rate": 2.5506603728603446e-05,
       "loss": 0.0003,
+      "step": 215446
     },
     {
+      "epoch": 15.51,
+      "learning_rate": 2.4950730304041704e-05,
+      "loss": 0.0003,
+      "step": 216845
     },
     {
+      "epoch": 15.61,
+      "learning_rate": 2.439485687947997e-05,
+      "loss": 0.0003,
+      "step": 218244
     },
     {
+      "epoch": 15.71,
+      "learning_rate": 2.3838983454918228e-05,
+      "loss": 0.0003,
+      "step": 219643
     },
     {
+      "epoch": 15.81,
+      "learning_rate": 2.3283110030356493e-05,
       "loss": 0.0003,
+      "step": 221042
     },
     {
+      "epoch": 15.91,
+      "learning_rate": 2.2727236605794752e-05,
       "loss": 0.0003,
+      "step": 222441
     },
     {
       "epoch": 16.0,
+      "eval_loss": 0.01732315868139267,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.4573,
+      "eval_samples_per_second": 18.537,
+      "eval_steps_per_second": 1.245,
+      "step": 223712
     },
     {
+      "epoch": 16.01,
+      "learning_rate": 2.2171363181233014e-05,
       "loss": 0.0003,
+      "step": 223840
     },
     {
+      "epoch": 16.11,
+      "learning_rate": 2.1615489756671276e-05,
+      "loss": 0.0003,
+      "step": 225239
     },
     {
+      "epoch": 16.21,
+      "learning_rate": 2.1059616332109538e-05,
+      "loss": 0.0003,
+      "step": 226638
     },
     {
+      "epoch": 16.31,
+      "learning_rate": 2.0503742907547803e-05,
       "loss": 0.0003,
+      "step": 228037
     },
     {
+      "epoch": 16.41,
+      "learning_rate": 1.994786948298606e-05,
       "loss": 0.0003,
+      "step": 229436
     },
     {
+      "epoch": 16.51,
+      "learning_rate": 1.9391996058424324e-05,
+      "loss": 0.0003,
+      "step": 230835
     },
     {
+      "epoch": 16.61,
+      "learning_rate": 1.8836122633862586e-05,
       "loss": 0.0003,
+      "step": 232234
     },
     {
+      "epoch": 16.71,
+      "learning_rate": 1.8280249209300847e-05,
       "loss": 0.0003,
+      "step": 233633
     },
     {
+      "epoch": 16.81,
+      "learning_rate": 1.7724375784739113e-05,
       "loss": 0.0003,
+      "step": 235032
     },
     {
+      "epoch": 16.91,
+      "learning_rate": 1.716850236017737e-05,
+      "loss": 0.0003,
+      "step": 236431
     },
     {
       "epoch": 17.0,
+      "eval_loss": 0.01732039824128151,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.4615,
+      "eval_samples_per_second": 18.532,
+      "eval_steps_per_second": 1.245,
+      "step": 237694
     },
     {
+      "epoch": 17.01,
+      "learning_rate": 1.6612628935615633e-05,
+      "loss": 0.0003,
+      "step": 237830
     },
     {
+      "epoch": 17.11,
+      "learning_rate": 1.6056755511053895e-05,
       "loss": 0.0003,
+      "step": 239229
     },
     {
+      "epoch": 17.21,
+      "learning_rate": 1.5500882086492157e-05,
       "loss": 0.0003,
+      "step": 240628
     },
     {
+      "epoch": 17.31,
+      "learning_rate": 1.4945008661930417e-05,
       "loss": 0.0003,
+      "step": 242027
     },
     {
+      "epoch": 17.41,
+      "learning_rate": 1.4389135237368681e-05,
       "loss": 0.0003,
+      "step": 243426
     },
     {
+      "epoch": 17.51,
+      "learning_rate": 1.3833261812806945e-05,
       "loss": 0.0003,
+      "step": 244825
     },
     {
+      "epoch": 17.61,
+      "learning_rate": 1.3277388388245205e-05,
       "loss": 0.0003,
+      "step": 246224
     },
     {
+      "epoch": 17.71,
+      "learning_rate": 1.2721514963683467e-05,
       "loss": 0.0003,
+      "step": 247623
     },
     {
+      "epoch": 17.81,
+      "learning_rate": 1.2165641539121729e-05,
       "loss": 0.0003,
+      "step": 249022
     },
     {
+      "epoch": 17.91,
+      "learning_rate": 1.160976811455999e-05,
       "loss": 0.0003,
+      "step": 250421
     },
     {
       "epoch": 18.0,
+      "eval_loss": 0.016897281631827354,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.4833,
+      "eval_samples_per_second": 18.504,
+      "eval_steps_per_second": 1.243,
+      "step": 251676
     },
     {
+      "epoch": 18.01,
+      "learning_rate": 1.1053894689998253e-05,
       "loss": 0.0003,
+      "step": 251820
     },
     {
+      "epoch": 18.11,
+      "learning_rate": 1.0498021265436515e-05,
       "loss": 0.0003,
+      "step": 253219
     },
     {
+      "epoch": 18.21,
+      "learning_rate": 9.942147840874775e-06,
       "loss": 0.0003,
+      "step": 254618
     },
     {
+      "epoch": 18.31,
+      "learning_rate": 9.386274416313037e-06,
       "loss": 0.0003,
+      "step": 256017
     },
     {
+      "epoch": 18.41,
+      "learning_rate": 8.8304009917513e-06,
+      "loss": 0.0002,
+      "step": 257416
     },
     {
+      "epoch": 18.51,
+      "learning_rate": 8.274527567189562e-06,
       "loss": 0.0003,
+      "step": 258815
     },
     {
+      "epoch": 18.61,
+      "learning_rate": 7.718654142627824e-06,
+      "loss": 0.0003,
+      "step": 260214
     },
     {
+      "epoch": 18.71,
+      "learning_rate": 7.1627807180660855e-06,
       "loss": 0.0003,
+      "step": 261613
     },
     {
+      "epoch": 18.81,
+      "learning_rate": 6.606907293504347e-06,
+      "loss": 0.0002,
+      "step": 263012
     },
     {
+      "epoch": 18.91,
+      "learning_rate": 6.051033868942609e-06,
       "loss": 0.0003,
+      "step": 264411
     },
     {
       "epoch": 19.0,
+      "eval_loss": 0.016652461141347885,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.4508,
+      "eval_samples_per_second": 18.546,
+      "eval_steps_per_second": 1.246,
+      "step": 265658
     },
     {
+      "epoch": 19.01,
+      "learning_rate": 5.4951604443808705e-06,
+      "loss": 0.0002,
+      "step": 265810
     },
     {
+      "epoch": 19.11,
+      "learning_rate": 4.9392870198191324e-06,
+      "loss": 0.0002,
+      "step": 267209
     },
     {
+      "epoch": 19.21,
+      "learning_rate": 4.383413595257395e-06,
       "loss": 0.0003,
+      "step": 268608
     },
     {
+      "epoch": 19.31,
+      "learning_rate": 3.827540170695656e-06,
       "loss": 0.0003,
+      "step": 270007
     },
     {
+      "epoch": 19.41,
+      "learning_rate": 3.2716667461339183e-06,
       "loss": 0.0003,
+      "step": 271406
     },
     {
+      "epoch": 19.51,
+      "learning_rate": 2.71579332157218e-06,
       "loss": 0.0003,
+      "step": 272805
     },
     {
+      "epoch": 19.61,
+      "learning_rate": 2.159919897010442e-06,
+      "loss": 0.0002,
+      "step": 274204
     },
     {
+      "epoch": 19.71,
+      "learning_rate": 1.604046472448704e-06,
       "loss": 0.0003,
+      "step": 275603
     },
     {
+      "epoch": 19.81,
+      "learning_rate": 1.0481730478869658e-06,
       "loss": 0.0003,
+      "step": 277002
     },
     {
+      "epoch": 19.91,
+      "learning_rate": 4.922996233252277e-07,
       "loss": 0.0003,
+      "step": 278401
     },
     {
       "epoch": 20.0,
+      "eval_loss": 0.017029350623488426,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.4724,
+      "eval_samples_per_second": 18.518,
+      "eval_steps_per_second": 1.244,
+      "step": 279640
     },
     {
       "epoch": 20.0,
+      "step": 279640,
+      "total_flos": 7.310805087246336e+16,
+      "train_loss": 0.00039881850996483783,
+      "train_runtime": 20247.2262,
+      "train_samples_per_second": 207.164,
+      "train_steps_per_second": 13.811
     }
   ],
+  "logging_steps": 1399,
+  "max_steps": 279640,
   "num_train_epochs": 20,
+  "save_steps": 2797,
+  "total_flos": 7.310805087246336e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11404ac3fc96ba698fa232f738237fb864a527c9cdcf006042014fef3b60a4aa
 size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d8a3d0207b71233d440dfc4ea0e1be195fbf0ff77bc164bd8950b614fbebbd5
 size 4091