alexue4
/

text-normalization-ru-new

@@ -15,9 +15,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [alexue4/text-normalization-ru-new](https://huggingface.co/alexue4/text-normalization-ru-new) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0480
 - Mean Distance: 0
-- Max Distance: 40
 ## Model description
@@ -43,22 +43,32 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 10
 ### Training results
-| Training Loss | Epoch | Step   | Validation Loss | Mean Distance | Max Distance |
-|:-------------:|:-----:|:------:|:---------------:|:-------------:|:------------:|
-| 0.0163        | 1.0   | 23701  | 0.0428          | 0             | 43           |
-| 0.0132        | 2.0   | 47402  | 0.0420          | 0             | 44           |
-| 0.0111        | 3.0   | 71103  | 0.0444          | 0             | 35           |
-| 0.0095        | 4.0   | 94804  | 0.0449          | 0             | 43           |
-| 0.0088        | 5.0   | 118505 | 0.0446          | 0             | 40           |
-| 0.0076        | 6.0   | 142206 | 0.0462          | 0             | 33           |
-| 0.0074        | 7.0   | 165907 | 0.0466          | 0             | 38           |
-| 0.0068        | 8.0   | 189608 | 0.0478          | 0             | 39           |
-| 0.0069        | 9.0   | 213309 | 0.0489          | 0             | 39           |
-| 0.0061        | 10.0  | 237010 | 0.0480          | 0             | 40           |
 ### Framework versions

 This model is a fine-tuned version of [alexue4/text-normalization-ru-new](https://huggingface.co/alexue4/text-normalization-ru-new) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0405
 - Mean Distance: 0
+- Max Distance: 6
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 20
 ### Training results
+| Training Loss | Epoch | Step   | Validation Loss | Max Distance | Mean Distance |
+|:-------------:|:-----:|:------:|:---------------:|:------------:|:-------------:|
+| 0.0052        | 1.0   | 14041  | 0.0272          | 9            | 0             |
+| 0.0045        | 2.0   | 28088  | 0.0327          | 0            | 9             |
+| 0.0043        | 3.0   | 42132  | 0.0317          | 0            | 6             |
+| 0.0042        | 4.0   | 56176  | 0.0316          | 0            | 6             |
+| 0.0035        | 5.0   | 70220  | 0.0357          | 0            | 6             |
+| 0.0032        | 6.0   | 84264  | 0.0365          | 0            | 6             |
+| 0.0027        | 7.0   | 98308  | 0.0403          | 0            | 6             |
+| 0.0027        | 8.0   | 112352 | 0.0398          | 0            | 6             |
+| 0.0023        | 9.0   | 126396 | 0.0404          | 0            | 6             |
+| 0.0023        | 10.0  | 140440 | 0.0385          | 0            | 6             |
+| 0.002         | 11.0  | 154484 | 0.0407          | 0            | 6             |
+| 0.0018        | 12.0  | 168528 | 0.0426          | 0            | 9             |
+| 0.0018        | 13.0  | 182572 | 0.0422          | 0            | 6             |
+| 0.0016        | 14.0  | 196616 | 0.0421          | 0            | 6             |
+| 0.0016        | 15.0  | 210660 | 0.0402          | 0            | 6             |
+| 0.0014        | 16.0  | 224704 | 0.0407          | 0            | 6             |
+| 0.0014        | 17.0  | 238748 | 0.0427          | 0            | 6             |
+| 0.0014        | 18.0  | 252792 | 0.0411          | 0            | 6             |
+| 0.0013        | 19.0  | 266836 | 0.0406          | 0            | 6             |
+| 0.0013        | 20.0  | 280880 | 0.0405          | 0            | 6             |
 ### Framework versions

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62d9ab81d1f15680b1091a69a3fcb0d3aa6dd8840f3113d83f54bc29fa9fec0a
 size 258643461

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5969f5d1763ec4c33ef6b8b477385b4628340069265990d31d83adc01ff3d90
 size 258643461

trainer_state.json CHANGED Viewed

@@ -1,1328 +1,1428 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 237010,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 4.219231256065145e-09,
-      "loss": 0.0425,
       "step": 1
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 5.004008269693263e-06,
-      "loss": 0.1718,
-      "step": 1186
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 1.0008016539386525e-05,
-      "loss": 0.0835,
-      "step": 2372
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 1.5012024809079786e-05,
-      "loss": 0.0432,
-      "step": 3558
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 2.001603307877305e-05,
-      "loss": 0.0324,
-      "step": 4744
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 2.5020041348466312e-05,
-      "loss": 0.03,
-      "step": 5930
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 3.0024049618159573e-05,
-      "loss": 0.0266,
-      "step": 7116
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 3.5028057887852834e-05,
-      "loss": 0.0236,
-      "step": 8302
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 4.00320661575461e-05,
-      "loss": 0.0219,
-      "step": 9488
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 4.503607442723936e-05,
-      "loss": 0.0202,
-      "step": 10674
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 5.0040082696932624e-05,
-      "loss": 0.0196,
-      "step": 11860
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 5.5044090966625885e-05,
-      "loss": 0.0195,
-      "step": 13046
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 6.0048099236319146e-05,
-      "loss": 0.0183,
-      "step": 14232
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 6.50521075060124e-05,
-      "loss": 0.0181,
-      "step": 15418
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 7.005611577570567e-05,
-      "loss": 0.0174,
-      "step": 16604
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 7.506012404539893e-05,
-      "loss": 0.0175,
-      "step": 17790
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 8.00641323150922e-05,
-      "loss": 0.0159,
-      "step": 18976
     },
     {
-      "epoch": 0.85,
-      "learning_rate": 8.506814058478546e-05,
-      "loss": 0.0165,
-      "step": 20162
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 9.007214885447873e-05,
-      "loss": 0.0164,
-      "step": 21348
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 9.507615712417199e-05,
-      "loss": 0.0163,
-      "step": 22534
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.04283371567726135,
-      "eval_max_distance": 43,
       "eval_mean_distance": 0,
-      "eval_runtime": 16.0673,
-      "eval_samples_per_second": 15.56,
-      "eval_steps_per_second": 1.058,
-      "step": 23701
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 9.999109273401498e-05,
-      "loss": 0.0161,
-      "step": 23720
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 9.943509181516017e-05,
-      "loss": 0.0146,
-      "step": 24906
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 9.887909089630536e-05,
-      "loss": 0.0151,
-      "step": 26092
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 9.832308997745055e-05,
-      "loss": 0.0144,
-      "step": 27278
     },
     {
-      "epoch": 1.2,
-      "learning_rate": 9.776708905859574e-05,
-      "loss": 0.0135,
-      "step": 28464
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 9.721108813974095e-05,
-      "loss": 0.0146,
-      "step": 29650
     },
     {
-      "epoch": 1.3,
-      "learning_rate": 9.665508722088614e-05,
-      "loss": 0.0139,
-      "step": 30836
     },
     {
-      "epoch": 1.35,
-      "learning_rate": 9.609908630203133e-05,
-      "loss": 0.0135,
-      "step": 32022
     },
     {
-      "epoch": 1.4,
-      "learning_rate": 9.554308538317653e-05,
-      "loss": 0.0137,
-      "step": 33208
     },
     {
-      "epoch": 1.45,
-      "learning_rate": 9.498708446432172e-05,
-      "loss": 0.0137,
-      "step": 34394
     },
     {
-      "epoch": 1.5,
-      "learning_rate": 9.443108354546691e-05,
-      "loss": 0.0141,
-      "step": 35580
     },
     {
-      "epoch": 1.55,
-      "learning_rate": 9.38750826266121e-05,
-      "loss": 0.0126,
-      "step": 36766
     },
     {
-      "epoch": 1.6,
-      "learning_rate": 9.331908170775729e-05,
-      "loss": 0.014,
-      "step": 37952
     },
     {
-      "epoch": 1.65,
-      "learning_rate": 9.276308078890248e-05,
-      "loss": 0.0133,
-      "step": 39138
     },
     {
-      "epoch": 1.7,
-      "learning_rate": 9.220707987004769e-05,
-      "loss": 0.0134,
-      "step": 40324
     },
     {
-      "epoch": 1.75,
-      "learning_rate": 9.165107895119287e-05,
-      "loss": 0.0126,
-      "step": 41510
     },
     {
-      "epoch": 1.8,
-      "learning_rate": 9.109507803233807e-05,
-      "loss": 0.0137,
-      "step": 42696
     },
     {
-      "epoch": 1.85,
-      "learning_rate": 9.053907711348326e-05,
-      "loss": 0.0145,
-      "step": 43882
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 8.998307619462846e-05,
-      "loss": 0.0126,
-      "step": 45068
     },
     {
-      "epoch": 1.95,
-      "learning_rate": 8.942707527577365e-05,
-      "loss": 0.0132,
-      "step": 46254
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.042018186300992966,
-      "eval_max_distance": 44,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.8905,
-      "eval_samples_per_second": 15.733,
-      "eval_steps_per_second": 1.07,
-      "step": 47402
     },
     {
-      "epoch": 2.0,
-      "learning_rate": 8.887107435691884e-05,
-      "loss": 0.0132,
-      "step": 47440
     },
     {
-      "epoch": 2.05,
-      "learning_rate": 8.831507343806403e-05,
-      "loss": 0.0107,
-      "step": 48626
     },
     {
-      "epoch": 2.1,
-      "learning_rate": 8.775907251920922e-05,
-      "loss": 0.0108,
-      "step": 49812
     },
     {
-      "epoch": 2.15,
-      "learning_rate": 8.720307160035443e-05,
-      "loss": 0.0115,
-      "step": 50998
     },
     {
-      "epoch": 2.2,
-      "learning_rate": 8.66470706814996e-05,
-      "loss": 0.0107,
-      "step": 52184
     },
     {
-      "epoch": 2.25,
-      "learning_rate": 8.609106976264481e-05,
-      "loss": 0.0113,
-      "step": 53370
     },
     {
-      "epoch": 2.3,
-      "learning_rate": 8.553506884379e-05,
-      "loss": 0.011,
-      "step": 54556
     },
     {
-      "epoch": 2.35,
-      "learning_rate": 8.49790679249352e-05,
-      "loss": 0.0119,
-      "step": 55742
     },
     {
-      "epoch": 2.4,
-      "learning_rate": 8.442306700608039e-05,
-      "loss": 0.0106,
-      "step": 56928
     },
     {
-      "epoch": 2.45,
-      "learning_rate": 8.386706608722558e-05,
-      "loss": 0.0118,
-      "step": 58114
     },
     {
-      "epoch": 2.5,
-      "learning_rate": 8.331106516837077e-05,
-      "loss": 0.0116,
-      "step": 59300
     },
     {
-      "epoch": 2.55,
-      "learning_rate": 8.275506424951596e-05,
-      "loss": 0.0111,
-      "step": 60486
     },
     {
-      "epoch": 2.6,
-      "learning_rate": 8.219906333066115e-05,
-      "loss": 0.0112,
-      "step": 61672
     },
     {
-      "epoch": 2.65,
-      "learning_rate": 8.164306241180635e-05,
-      "loss": 0.0111,
-      "step": 62858
     },
     {
-      "epoch": 2.7,
-      "learning_rate": 8.108706149295155e-05,
-      "loss": 0.0109,
-      "step": 64044
     },
     {
-      "epoch": 2.75,
-      "learning_rate": 8.053106057409674e-05,
-      "loss": 0.0113,
-      "step": 65230
     },
     {
-      "epoch": 2.8,
-      "learning_rate": 7.997505965524193e-05,
-      "loss": 0.0117,
-      "step": 66416
     },
     {
-      "epoch": 2.85,
-      "learning_rate": 7.941905873638713e-05,
-      "loss": 0.0108,
-      "step": 67602
     },
     {
-      "epoch": 2.9,
-      "learning_rate": 7.886305781753232e-05,
-      "loss": 0.011,
-      "step": 68788
     },
     {
-      "epoch": 2.95,
-      "learning_rate": 7.830705689867751e-05,
-      "loss": 0.0111,
-      "step": 69974
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 0.04441571980714798,
-      "eval_max_distance": 35,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.9553,
-      "eval_samples_per_second": 15.669,
-      "eval_steps_per_second": 1.065,
-      "step": 71103
     },
     {
-      "epoch": 3.0,
-      "learning_rate": 7.77510559798227e-05,
-      "loss": 0.0115,
-      "step": 71160
     },
     {
-      "epoch": 3.05,
-      "learning_rate": 7.719505506096789e-05,
-      "loss": 0.0101,
-      "step": 72346
     },
     {
-      "epoch": 3.1,
-      "learning_rate": 7.663905414211308e-05,
-      "loss": 0.0093,
-      "step": 73532
     },
     {
-      "epoch": 3.15,
-      "learning_rate": 7.608305322325828e-05,
-      "loss": 0.0091,
-      "step": 74718
     },
     {
-      "epoch": 3.2,
-      "learning_rate": 7.552705230440348e-05,
-      "loss": 0.0094,
-      "step": 75904
     },
     {
-      "epoch": 3.25,
-      "learning_rate": 7.497105138554866e-05,
-      "loss": 0.0099,
-      "step": 77090
     },
     {
-      "epoch": 3.3,
-      "learning_rate": 7.441505046669386e-05,
-      "loss": 0.01,
-      "step": 78276
     },
     {
-      "epoch": 3.35,
-      "learning_rate": 7.385904954783906e-05,
-      "loss": 0.0097,
-      "step": 79462
     },
     {
-      "epoch": 3.4,
-      "learning_rate": 7.330304862898425e-05,
-      "loss": 0.0099,
-      "step": 80648
     },
     {
-      "epoch": 3.45,
-      "learning_rate": 7.274704771012944e-05,
-      "loss": 0.0098,
-      "step": 81834
     },
     {
-      "epoch": 3.5,
-      "learning_rate": 7.219104679127463e-05,
-      "loss": 0.0095,
-      "step": 83020
     },
     {
-      "epoch": 3.55,
-      "learning_rate": 7.163504587241982e-05,
-      "loss": 0.0097,
-      "step": 84206
     },
     {
-      "epoch": 3.6,
-      "learning_rate": 7.107904495356501e-05,
-      "loss": 0.0094,
-      "step": 85392
     },
     {
-      "epoch": 3.65,
-      "learning_rate": 7.052304403471022e-05,
-      "loss": 0.0093,
-      "step": 86578
     },
     {
-      "epoch": 3.7,
-      "learning_rate": 6.99670431158554e-05,
-      "loss": 0.0103,
-      "step": 87764
     },
     {
-      "epoch": 3.75,
-      "learning_rate": 6.94110421970006e-05,
-      "loss": 0.0091,
-      "step": 88950
     },
     {
-      "epoch": 3.8,
-      "learning_rate": 6.88550412781458e-05,
-      "loss": 0.0094,
-      "step": 90136
     },
     {
-      "epoch": 3.85,
-      "learning_rate": 6.829904035929099e-05,
-      "loss": 0.0099,
-      "step": 91322
     },
     {
-      "epoch": 3.9,
-      "learning_rate": 6.774303944043618e-05,
-      "loss": 0.0095,
-      "step": 92508
     },
     {
-      "epoch": 3.95,
-      "learning_rate": 6.718703852158137e-05,
-      "loss": 0.0095,
-      "step": 93694
     },
     {
-      "epoch": 4.0,
-      "eval_loss": 0.04494529217481613,
-      "eval_max_distance": 43,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.8606,
-      "eval_samples_per_second": 15.762,
-      "eval_steps_per_second": 1.072,
-      "step": 94804
     },
     {
-      "epoch": 4.0,
-      "learning_rate": 6.663103760272656e-05,
-      "loss": 0.0102,
-      "step": 94880
     },
     {
-      "epoch": 4.05,
-      "learning_rate": 6.607503668387175e-05,
-      "loss": 0.0085,
-      "step": 96066
     },
     {
-      "epoch": 4.1,
-      "learning_rate": 6.551903576501695e-05,
-      "loss": 0.0084,
-      "step": 97252
     },
     {
-      "epoch": 4.15,
-      "learning_rate": 6.496303484616214e-05,
-      "loss": 0.0086,
-      "step": 98438
     },
     {
-      "epoch": 4.2,
-      "learning_rate": 6.440703392730734e-05,
-      "loss": 0.008,
-      "step": 99624
     },
     {
-      "epoch": 4.25,
-      "learning_rate": 6.385103300845253e-05,
-      "loss": 0.0084,
-      "step": 100810
     },
     {
-      "epoch": 4.3,
-      "learning_rate": 6.329503208959773e-05,
-      "loss": 0.0088,
-      "step": 101996
     },
     {
-      "epoch": 4.35,
-      "learning_rate": 6.273903117074292e-05,
-      "loss": 0.0087,
-      "step": 103182
     },
     {
-      "epoch": 4.4,
-      "learning_rate": 6.218303025188811e-05,
-      "loss": 0.0086,
-      "step": 104368
     },
     {
-      "epoch": 4.45,
-      "learning_rate": 6.16270293330333e-05,
-      "loss": 0.0087,
-      "step": 105554
     },
     {
-      "epoch": 4.5,
-      "learning_rate": 6.107102841417849e-05,
-      "loss": 0.0086,
-      "step": 106740
     },
     {
-      "epoch": 4.55,
-      "learning_rate": 6.0515027495323685e-05,
-      "loss": 0.0092,
-      "step": 107926
     },
     {
-      "epoch": 4.6,
-      "learning_rate": 5.9959026576468876e-05,
-      "loss": 0.0087,
-      "step": 109112
     },
     {
-      "epoch": 4.65,
-      "learning_rate": 5.9403025657614075e-05,
-      "loss": 0.0091,
-      "step": 110298
     },
     {
-      "epoch": 4.7,
-      "learning_rate": 5.884702473875927e-05,
-      "loss": 0.0084,
-      "step": 111484
     },
     {
-      "epoch": 4.75,
-      "learning_rate": 5.829102381990446e-05,
-      "loss": 0.0083,
-      "step": 112670
     },
     {
-      "epoch": 4.8,
-      "learning_rate": 5.773502290104965e-05,
-      "loss": 0.0085,
-      "step": 113856
     },
     {
-      "epoch": 4.85,
-      "learning_rate": 5.717902198219485e-05,
-      "loss": 0.0092,
-      "step": 115042
     },
     {
-      "epoch": 4.9,
-      "learning_rate": 5.662302106334004e-05,
-      "loss": 0.0083,
-      "step": 116228
     },
     {
-      "epoch": 4.95,
-      "learning_rate": 5.606702014448524e-05,
-      "loss": 0.0088,
-      "step": 117414
     },
     {
-      "epoch": 5.0,
-      "eval_loss": 0.0445968434214592,
-      "eval_max_distance": 40,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.8709,
-      "eval_samples_per_second": 15.752,
-      "eval_steps_per_second": 1.071,
-      "step": 118505
     },
     {
-      "epoch": 5.0,
-      "learning_rate": 5.5511019225630424e-05,
-      "loss": 0.0084,
-      "step": 118600
     },
     {
-      "epoch": 5.05,
-      "learning_rate": 5.4955018306775615e-05,
-      "loss": 0.0072,
-      "step": 119786
     },
     {
-      "epoch": 5.1,
-      "learning_rate": 5.4399017387920814e-05,
-      "loss": 0.0078,
-      "step": 120972
     },
     {
-      "epoch": 5.15,
-      "learning_rate": 5.384301646906601e-05,
-      "loss": 0.0082,
-      "step": 122158
     },
     {
-      "epoch": 5.2,
-      "learning_rate": 5.32870155502112e-05,
-      "loss": 0.0079,
-      "step": 123344
     },
     {
-      "epoch": 5.25,
-      "learning_rate": 5.273101463135639e-05,
-      "loss": 0.008,
-      "step": 124530
     },
     {
-      "epoch": 5.3,
-      "learning_rate": 5.217501371250159e-05,
-      "loss": 0.008,
-      "step": 125716
     },
     {
-      "epoch": 5.35,
-      "learning_rate": 5.161901279364678e-05,
-      "loss": 0.0081,
-      "step": 126902
     },
     {
-      "epoch": 5.4,
-      "learning_rate": 5.1063011874791964e-05,
-      "loss": 0.0078,
-      "step": 128088
     },
     {
-      "epoch": 5.45,
-      "learning_rate": 5.050701095593716e-05,
-      "loss": 0.0076,
-      "step": 129274
     },
     {
-      "epoch": 5.5,
-      "learning_rate": 4.9951010037082354e-05,
-      "loss": 0.0079,
-      "step": 130460
     },
     {
-      "epoch": 5.55,
-      "learning_rate": 4.9395009118227546e-05,
-      "loss": 0.0074,
-      "step": 131646
     },
     {
-      "epoch": 5.6,
-      "learning_rate": 4.8839008199372745e-05,
-      "loss": 0.0077,
-      "step": 132832
     },
     {
-      "epoch": 5.65,
-      "learning_rate": 4.8283007280517936e-05,
-      "loss": 0.0079,
-      "step": 134018
     },
     {
-      "epoch": 5.7,
-      "learning_rate": 4.772700636166313e-05,
-      "loss": 0.0077,
-      "step": 135204
     },
     {
-      "epoch": 5.75,
-      "learning_rate": 4.7171005442808326e-05,
-      "loss": 0.0078,
-      "step": 136390
     },
     {
-      "epoch": 5.8,
-      "learning_rate": 4.661500452395352e-05,
-      "loss": 0.0081,
-      "step": 137576
     },
     {
-      "epoch": 5.85,
-      "learning_rate": 4.605900360509871e-05,
-      "loss": 0.0077,
-      "step": 138762
     },
     {
-      "epoch": 5.9,
-      "learning_rate": 4.55030026862439e-05,
-      "loss": 0.0075,
-      "step": 139948
     },
     {
-      "epoch": 5.95,
-      "learning_rate": 4.494700176738909e-05,
-      "loss": 0.0076,
-      "step": 141134
     },
     {
-      "epoch": 6.0,
-      "eval_loss": 0.046243954449892044,
-      "eval_max_distance": 33,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.8654,
-      "eval_samples_per_second": 15.758,
-      "eval_steps_per_second": 1.072,
-      "step": 142206
     },
     {
-      "epoch": 6.0,
-      "learning_rate": 4.4391000848534285e-05,
-      "loss": 0.0079,
-      "step": 142320
     },
     {
-      "epoch": 6.05,
-      "learning_rate": 4.3834999929679484e-05,
-      "loss": 0.0073,
-      "step": 143506
     },
     {
-      "epoch": 6.1,
-      "learning_rate": 4.3278999010824675e-05,
-      "loss": 0.007,
-      "step": 144692
     },
     {
-      "epoch": 6.15,
-      "learning_rate": 4.272299809196987e-05,
-      "loss": 0.0076,
-      "step": 145878
     },
     {
-      "epoch": 6.2,
-      "learning_rate": 4.216699717311506e-05,
-      "loss": 0.0072,
-      "step": 147064
     },
     {
-      "epoch": 6.26,
-      "learning_rate": 4.161099625426026e-05,
-      "loss": 0.007,
-      "step": 148250
     },
     {
-      "epoch": 6.31,
-      "learning_rate": 4.105499533540544e-05,
-      "loss": 0.0073,
-      "step": 149436
     },
     {
-      "epoch": 6.36,
-      "learning_rate": 4.049899441655064e-05,
-      "loss": 0.0073,
-      "step": 150622
     },
     {
-      "epoch": 6.41,
-      "learning_rate": 3.994299349769583e-05,
-      "loss": 0.0072,
-      "step": 151808
     },
     {
-      "epoch": 6.46,
-      "learning_rate": 3.9386992578841024e-05,
-      "loss": 0.0073,
-      "step": 152994
     },
     {
-      "epoch": 6.51,
-      "learning_rate": 3.883099165998622e-05,
-      "loss": 0.007,
-      "step": 154180
     },
     {
-      "epoch": 6.56,
-      "learning_rate": 3.8274990741131414e-05,
-      "loss": 0.0073,
-      "step": 155366
     },
     {
-      "epoch": 6.61,
-      "learning_rate": 3.7718989822276606e-05,
-      "loss": 0.0074,
-      "step": 156552
     },
     {
-      "epoch": 6.66,
-      "learning_rate": 3.71629889034218e-05,
-      "loss": 0.0071,
-      "step": 157738
     },
     {
-      "epoch": 6.71,
-      "learning_rate": 3.660698798456699e-05,
-      "loss": 0.0077,
-      "step": 158924
     },
     {
-      "epoch": 6.76,
-      "learning_rate": 3.605098706571218e-05,
-      "loss": 0.0072,
-      "step": 160110
     },
     {
-      "epoch": 6.81,
-      "learning_rate": 3.549498614685738e-05,
-      "loss": 0.0069,
-      "step": 161296
     },
     {
-      "epoch": 6.86,
-      "learning_rate": 3.493898522800257e-05,
-      "loss": 0.0074,
-      "step": 162482
     },
     {
-      "epoch": 6.91,
-      "learning_rate": 3.438298430914776e-05,
-      "loss": 0.0072,
-      "step": 163668
     },
     {
-      "epoch": 6.96,
-      "learning_rate": 3.3826983390292955e-05,
-      "loss": 0.0074,
-      "step": 164854
     },
     {
-      "epoch": 7.0,
-      "eval_loss": 0.046568483114242554,
-      "eval_max_distance": 38,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.7578,
-      "eval_samples_per_second": 15.865,
-      "eval_steps_per_second": 1.079,
-      "step": 165907
     },
     {
-      "epoch": 7.01,
-      "learning_rate": 3.327098247143815e-05,
-      "loss": 0.0071,
-      "step": 166040
     },
     {
-      "epoch": 7.06,
-      "learning_rate": 3.2714981552583345e-05,
-      "loss": 0.0065,
-      "step": 167226
     },
     {
-      "epoch": 7.11,
-      "learning_rate": 3.215898063372854e-05,
-      "loss": 0.0066,
-      "step": 168412
     },
     {
-      "epoch": 7.16,
-      "learning_rate": 3.160297971487373e-05,
-      "loss": 0.0067,
-      "step": 169598
     },
     {
-      "epoch": 7.21,
-      "learning_rate": 3.104697879601892e-05,
-      "loss": 0.0067,
-      "step": 170784
     },
     {
-      "epoch": 7.26,
-      "learning_rate": 3.049097787716412e-05,
-      "loss": 0.0066,
-      "step": 171970
     },
     {
-      "epoch": 7.31,
-      "learning_rate": 2.9934976958309307e-05,
-      "loss": 0.0071,
-      "step": 173156
     },
     {
-      "epoch": 7.36,
-      "learning_rate": 2.9378976039454502e-05,
-      "loss": 0.0067,
-      "step": 174342
     },
     {
-      "epoch": 7.41,
-      "learning_rate": 2.8822975120599694e-05,
-      "loss": 0.0064,
-      "step": 175528
     },
     {
-      "epoch": 7.46,
-      "learning_rate": 2.826697420174489e-05,
-      "loss": 0.0064,
-      "step": 176714
     },
     {
-      "epoch": 7.51,
-      "learning_rate": 2.771097328289008e-05,
-      "loss": 0.0067,
-      "step": 177900
     },
     {
-      "epoch": 7.56,
-      "learning_rate": 2.7154972364035276e-05,
-      "loss": 0.0068,
-      "step": 179086
     },
     {
-      "epoch": 7.61,
-      "learning_rate": 2.6598971445180464e-05,
-      "loss": 0.0071,
-      "step": 180272
     },
     {
-      "epoch": 7.66,
-      "learning_rate": 2.604297052632566e-05,
-      "loss": 0.0065,
-      "step": 181458
     },
     {
-      "epoch": 7.71,
-      "learning_rate": 2.548696960747085e-05,
-      "loss": 0.0065,
-      "step": 182644
     },
     {
-      "epoch": 7.76,
-      "learning_rate": 2.4930968688616046e-05,
-      "loss": 0.007,
-      "step": 183830
     },
     {
-      "epoch": 7.81,
-      "learning_rate": 2.437496776976124e-05,
-      "loss": 0.007,
-      "step": 185016
     },
     {
-      "epoch": 7.86,
-      "learning_rate": 2.3818966850906433e-05,
-      "loss": 0.007,
-      "step": 186202
     },
     {
-      "epoch": 7.91,
-      "learning_rate": 2.3262965932051624e-05,
-      "loss": 0.0069,
-      "step": 187388
     },
     {
-      "epoch": 7.96,
-      "learning_rate": 2.270696501319682e-05,
-      "loss": 0.0068,
-      "step": 188574
     },
     {
-      "epoch": 8.0,
-      "eval_loss": 0.04775545746088028,
-      "eval_max_distance": 39,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.8132,
-      "eval_samples_per_second": 15.81,
-      "eval_steps_per_second": 1.075,
-      "step": 189608
     },
     {
-      "epoch": 8.01,
-      "learning_rate": 2.215096409434201e-05,
-      "loss": 0.0067,
-      "step": 189760
     },
     {
-      "epoch": 8.06,
-      "learning_rate": 2.1594963175487203e-05,
-      "loss": 0.0062,
-      "step": 190946
     },
     {
-      "epoch": 8.11,
-      "learning_rate": 2.1038962256632398e-05,
-      "loss": 0.0066,
-      "step": 192132
     },
     {
-      "epoch": 8.16,
-      "learning_rate": 2.0482961337777593e-05,
-      "loss": 0.0062,
-      "step": 193318
     },
     {
-      "epoch": 8.21,
-      "learning_rate": 1.9926960418922785e-05,
-      "loss": 0.0064,
-      "step": 194504
     },
     {
-      "epoch": 8.26,
-      "learning_rate": 1.9370959500067977e-05,
-      "loss": 0.0062,
-      "step": 195690
     },
     {
-      "epoch": 8.31,
-      "learning_rate": 1.8814958581213172e-05,
-      "loss": 0.0063,
-      "step": 196876
     },
     {
-      "epoch": 8.36,
-      "learning_rate": 1.8258957662358363e-05,
-      "loss": 0.0068,
-      "step": 198062
     },
     {
-      "epoch": 8.41,
-      "learning_rate": 1.770295674350356e-05,
-      "loss": 0.0064,
-      "step": 199248
     },
     {
-      "epoch": 8.46,
-      "learning_rate": 1.714695582464875e-05,
-      "loss": 0.0066,
-      "step": 200434
     },
     {
-      "epoch": 8.51,
-      "learning_rate": 1.6590954905793942e-05,
-      "loss": 0.0062,
-      "step": 201620
     },
     {
-      "epoch": 8.56,
-      "learning_rate": 1.6034953986939137e-05,
-      "loss": 0.0068,
-      "step": 202806
     },
     {
-      "epoch": 8.61,
-      "learning_rate": 1.547895306808433e-05,
-      "loss": 0.0065,
-      "step": 203992
     },
     {
-      "epoch": 8.66,
-      "learning_rate": 1.4922952149229522e-05,
-      "loss": 0.0062,
-      "step": 205178
     },
     {
-      "epoch": 8.71,
-      "learning_rate": 1.4366951230374714e-05,
-      "loss": 0.0065,
-      "step": 206364
     },
     {
-      "epoch": 8.76,
-      "learning_rate": 1.3810950311519907e-05,
-      "loss": 0.0064,
-      "step": 207550
     },
     {
-      "epoch": 8.81,
-      "learning_rate": 1.32549493926651e-05,
-      "loss": 0.0066,
-      "step": 208736
     },
     {
-      "epoch": 8.86,
-      "learning_rate": 1.2698948473810296e-05,
-      "loss": 0.0064,
-      "step": 209922
     },
     {
-      "epoch": 8.91,
-      "learning_rate": 1.2142947554955488e-05,
-      "loss": 0.0061,
-      "step": 211108
     },
     {
-      "epoch": 8.96,
-      "learning_rate": 1.1586946636100681e-05,
-      "loss": 0.0069,
-      "step": 212294
     },
     {
-      "epoch": 9.0,
-      "eval_loss": 0.04885172098875046,
-      "eval_max_distance": 39,
       "eval_mean_distance": 0,
-      "eval_runtime": 15.685,
-      "eval_samples_per_second": 15.939,
-      "eval_steps_per_second": 1.084,
-      "step": 213309
     },
     {
-      "epoch": 9.01,
-      "learning_rate": 1.1030945717245873e-05,
-      "loss": 0.0062,
-      "step": 213480
     },
     {
-      "epoch": 9.06,
-      "learning_rate": 1.0474944798391068e-05,
-      "loss": 0.006,
-      "step": 214666
     },
     {
-      "epoch": 9.11,
-      "learning_rate": 9.918943879536261e-06,
-      "loss": 0.0059,
-      "step": 215852
     },
     {
-      "epoch": 9.16,
-      "learning_rate": 9.362942960681453e-06,
-      "loss": 0.0059,
-      "step": 217038
     },
     {
-      "epoch": 9.21,
-      "learning_rate": 8.806942041826646e-06,
-      "loss": 0.0062,
-      "step": 218224
     },
     {
-      "epoch": 9.26,
-      "learning_rate": 8.25094112297184e-06,
-      "loss": 0.006,
-      "step": 219410
     },
     {
-      "epoch": 9.31,
-      "learning_rate": 7.694940204117032e-06,
-      "loss": 0.0062,
-      "step": 220596
     },
     {
-      "epoch": 9.36,
-      "learning_rate": 7.138939285262225e-06,
-      "loss": 0.0062,
-      "step": 221782
     },
     {
-      "epoch": 9.41,
-      "learning_rate": 6.582938366407419e-06,
-      "loss": 0.0064,
-      "step": 222968
     },
     {
-      "epoch": 9.46,
-      "learning_rate": 6.026937447552612e-06,
-      "loss": 0.0063,
-      "step": 224154
     },
     {
-      "epoch": 9.51,
-      "learning_rate": 5.470936528697805e-06,
-      "loss": 0.0064,
-      "step": 225340
     },
     {
-      "epoch": 9.56,
-      "learning_rate": 4.914935609842998e-06,
-      "loss": 0.0057,
-      "step": 226526
     },
     {
-      "epoch": 9.61,
-      "learning_rate": 4.358934690988191e-06,
-      "loss": 0.0065,
-      "step": 227712
     },
     {
-      "epoch": 9.66,
-      "learning_rate": 3.8029337721333837e-06,
-      "loss": 0.0062,
-      "step": 228898
     },
     {
-      "epoch": 9.71,
-      "learning_rate": 3.2469328532785775e-06,
-      "loss": 0.006,
-      "step": 230084
     },
     {
-      "epoch": 9.76,
-      "learning_rate": 2.69093193442377e-06,
-      "loss": 0.0062,
-      "step": 231270
     },
     {
-      "epoch": 9.81,
-      "learning_rate": 2.1349310155689635e-06,
-      "loss": 0.006,
-      "step": 232456
     },
     {
-      "epoch": 9.86,
-      "learning_rate": 1.5789300967141565e-06,
-      "loss": 0.0062,
-      "step": 233642
     },
     {
-      "epoch": 9.91,
-      "learning_rate": 1.0229291778593495e-06,
-      "loss": 0.0058,
-      "step": 234828
     },
     {
-      "epoch": 9.96,
-      "learning_rate": 4.669282590045427e-07,
-      "loss": 0.0061,
-      "step": 236014
     },
     {
-      "epoch": 10.0,
-      "eval_loss": 0.04803793504834175,
-      "eval_max_distance": 40,
-      "eval_mean_distance": 0,
-      "eval_runtime": 15.7597,
-      "eval_samples_per_second": 15.863,
-      "eval_steps_per_second": 1.079,
-      "step": 237010
     },
     {
-      "epoch": 10.0,
-      "step": 237010,
-      "total_flos": 5.639707743740928e+16,
-      "train_loss": 0.010972068954725507,
-      "train_runtime": 17115.447,
-      "train_samples_per_second": 207.713,
-      "train_steps_per_second": 13.848
     }
   ],
-  "logging_steps": 1186,
-  "max_steps": 237010,
-  "num_train_epochs": 10,
-  "save_steps": 2371,
-  "total_flos": 5.639707743740928e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 20.0,
   "eval_steps": 500,
+  "global_step": 280880,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 3.5609999287800016e-09,
+      "loss": 0.0011,
       "step": 1
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 5.003204899935903e-06,
+      "loss": 0.0046,
+      "step": 1405
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 1.0006409799871805e-05,
+      "loss": 0.005,
+      "step": 2810
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 1.5009614699807706e-05,
+      "loss": 0.0052,
+      "step": 4215
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 2.001281959974361e-05,
+      "loss": 0.005,
+      "step": 5620
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 2.5016024499679513e-05,
+      "loss": 0.0048,
+      "step": 7025
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 3.001922939961541e-05,
+      "loss": 0.0045,
+      "step": 8430
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 3.5022434299551316e-05,
+      "loss": 0.0049,
+      "step": 9835
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 4.002563919948722e-05,
+      "loss": 0.0051,
+      "step": 11240
     },
     {
+      "epoch": 0.9,
+      "learning_rate": 4.502884409942312e-05,
+      "loss": 0.0052,
+      "step": 12645
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 0.027173755690455437,
+      "eval_max_distance": 9,
+      "eval_mean_distance": 0,
+      "eval_runtime": 13.945,
+      "eval_samples_per_second": 17.928,
+      "eval_steps_per_second": 1.219,
+      "step": 14041
     },
     {
+      "epoch": 1.0,
+      "learning_rate": 5.0032048999359025e-05,
+      "loss": 0.0045,
+      "step": 14050
     },
     {
+      "epoch": 1.1,
+      "learning_rate": 5.5035253899294924e-05,
+      "loss": 0.0047,
+      "step": 15455
     },
     {
+      "epoch": 1.2,
+      "learning_rate": 6.003845879923082e-05,
+      "loss": 0.0044,
+      "step": 16860
     },
     {
+      "epoch": 1.3,
+      "learning_rate": 6.504166369916673e-05,
+      "loss": 0.0045,
+      "step": 18265
     },
     {
+      "epoch": 1.4,
+      "learning_rate": 7.002990600968385e-05,
+      "loss": 0.0046,
+      "step": 19670
     },
     {
+      "epoch": 1.5,
+      "learning_rate": 7.50320421532327e-05,
+      "loss": 0.0043,
+      "step": 21075
     },
     {
+      "epoch": 1.6,
+      "learning_rate": 8.003417829678155e-05,
+      "loss": 0.0042,
+      "step": 22480
     },
     {
+      "epoch": 1.7,
+      "learning_rate": 8.503631444033039e-05,
+      "loss": 0.0046,
+      "step": 23885
     },
     {
+      "epoch": 1.8,
+      "learning_rate": 9.003845058387924e-05,
+      "loss": 0.0043,
+      "step": 25290
     },
     {
+      "epoch": 1.9,
+      "learning_rate": 9.504058672742809e-05,
+      "loss": 0.0045,
+      "step": 26695
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.03272660821676254,
+      "eval_max_distance": 9,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.7866,
+      "eval_samples_per_second": 19.552,
+      "eval_steps_per_second": 1.33,
+      "step": 28088
     },
     {
+      "epoch": 2.0,
+      "learning_rate": 9.99952530143359e-05,
+      "loss": 0.0046,
+      "step": 28100
     },
     {
+      "epoch": 2.1,
+      "learning_rate": 9.943946010949714e-05,
+      "loss": 0.0042,
+      "step": 29505
     },
     {
+      "epoch": 2.2,
+      "learning_rate": 9.888366720465838e-05,
+      "loss": 0.0043,
+      "step": 30910
     },
     {
+      "epoch": 2.3,
+      "learning_rate": 9.832787429981962e-05,
+      "loss": 0.0044,
+      "step": 32315
     },
     {
+      "epoch": 2.4,
+      "learning_rate": 9.777208139498087e-05,
+      "loss": 0.0045,
+      "step": 33720
     },
     {
+      "epoch": 2.5,
+      "learning_rate": 9.721628849014209e-05,
+      "loss": 0.0041,
+      "step": 35125
     },
     {
+      "epoch": 2.6,
+      "learning_rate": 9.666049558530333e-05,
+      "loss": 0.0043,
+      "step": 36530
     },
     {
+      "epoch": 2.7,
+      "learning_rate": 9.610470268046457e-05,
+      "loss": 0.0046,
+      "step": 37935
     },
     {
+      "epoch": 2.8,
+      "learning_rate": 9.554890977562582e-05,
+      "loss": 0.0043,
+      "step": 39340
     },
     {
+      "epoch": 2.9,
+      "learning_rate": 9.499311687078706e-05,
+      "loss": 0.0043,
+      "step": 40745
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 0.03169206902384758,
+      "eval_max_distance": 6,
+      "eval_mean_distance": 0,
+      "eval_runtime": 12.3553,
+      "eval_samples_per_second": 20.234,
+      "eval_steps_per_second": 1.376,
+      "step": 42132
     },
     {
+      "epoch": 3.0,
+      "learning_rate": 9.44373239659483e-05,
+      "loss": 0.0048,
+      "step": 42150
     },
     {
+      "epoch": 3.1,
+      "learning_rate": 9.388153106110953e-05,
+      "loss": 0.0034,
+      "step": 43555
     },
     {
+      "epoch": 3.2,
+      "learning_rate": 9.332573815627077e-05,
+      "loss": 0.0036,
+      "step": 44960
     },
     {
+      "epoch": 3.3,
+      "learning_rate": 9.276994525143201e-05,
+      "loss": 0.0037,
+      "step": 46365
     },
     {
+      "epoch": 3.4,
+      "learning_rate": 9.221415234659325e-05,
+      "loss": 0.004,
+      "step": 47770
     },
     {
+      "epoch": 3.5,
+      "learning_rate": 9.16583594417545e-05,
+      "loss": 0.0041,
+      "step": 49175
     },
     {
+      "epoch": 3.6,
+      "learning_rate": 9.110256653691574e-05,
+      "loss": 0.0039,
+      "step": 50580
     },
     {
+      "epoch": 3.7,
+      "learning_rate": 9.054677363207696e-05,
+      "loss": 0.0039,
+      "step": 51985
     },
     {
+      "epoch": 3.8,
+      "learning_rate": 8.99909807272382e-05,
+      "loss": 0.0039,
+      "step": 53390
     },
     {
+      "epoch": 3.9,
+      "learning_rate": 8.943518782239945e-05,
+      "loss": 0.0042,
+      "step": 54795
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.031554438173770905,
+      "eval_max_distance": 6,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.1943,
+      "eval_samples_per_second": 20.501,
+      "eval_steps_per_second": 1.394,
+      "step": 56176
     },
     {
+      "epoch": 4.0,
+      "learning_rate": 8.887939491756069e-05,
+      "loss": 0.004,
+      "step": 56200
     },
     {
+      "epoch": 4.1,
+      "learning_rate": 8.832360201272193e-05,
+      "loss": 0.0034,
+      "step": 57605
     },
     {
+      "epoch": 4.2,
+      "learning_rate": 8.776780910788317e-05,
+      "loss": 0.0033,
+      "step": 59010
     },
     {
+      "epoch": 4.3,
+      "learning_rate": 8.72120162030444e-05,
+      "loss": 0.0034,
+      "step": 60415
     },
     {
+      "epoch": 4.4,
+      "learning_rate": 8.665622329820564e-05,
+      "loss": 0.0034,
+      "step": 61820
     },
     {
+      "epoch": 4.5,
+      "learning_rate": 8.610043039336688e-05,
+      "loss": 0.0032,
+      "step": 63225
     },
     {
+      "epoch": 4.6,
+      "learning_rate": 8.554463748852812e-05,
+      "loss": 0.0035,
+      "step": 64630
     },
     {
+      "epoch": 4.7,
+      "learning_rate": 8.498884458368937e-05,
+      "loss": 0.0035,
+      "step": 66035
     },
     {
+      "epoch": 4.8,
+      "learning_rate": 8.443305167885061e-05,
+      "loss": 0.0035,
+      "step": 67440
     },
     {
+      "epoch": 4.9,
+      "learning_rate": 8.387725877401183e-05,
+      "loss": 0.0035,
+      "step": 68845
     },
     {
+      "epoch": 5.0,
+      "eval_loss": 0.03568544238805771,
+      "eval_max_distance": 6,
+      "eval_mean_distance": 0,
+      "eval_runtime": 12.3273,
+      "eval_samples_per_second": 20.28,
+      "eval_steps_per_second": 1.379,
+      "step": 70220
     },
     {
+      "epoch": 5.0,
+      "learning_rate": 8.332146586917307e-05,
+      "loss": 0.0037,
+      "step": 70250
     },
     {
+      "epoch": 5.1,
+      "learning_rate": 8.276567296433432e-05,
+      "loss": 0.0028,
+      "step": 71655
     },
     {
+      "epoch": 5.2,
+      "learning_rate": 8.220988005949556e-05,
+      "loss": 0.0029,
+      "step": 73060
     },
     {
+      "epoch": 5.3,
+      "learning_rate": 8.16540871546568e-05,
+      "loss": 0.003,
+      "step": 74465
     },
     {
+      "epoch": 5.4,
+      "learning_rate": 8.109829424981804e-05,
+      "loss": 0.0031,
+      "step": 75870
     },
     {
+      "epoch": 5.5,
+      "learning_rate": 8.054250134497927e-05,
+      "loss": 0.0032,
+      "step": 77275
     },
     {
+      "epoch": 5.6,
+      "learning_rate": 7.998670844014051e-05,
+      "loss": 0.003,
+      "step": 78680
     },
     {
+      "epoch": 5.7,
+      "learning_rate": 7.943091553530175e-05,
+      "loss": 0.0032,
+      "step": 80085
     },
     {
+      "epoch": 5.8,
+      "learning_rate": 7.8875122630463e-05,
+      "loss": 0.0031,
+      "step": 81490
     },
     {
+      "epoch": 5.9,
+      "learning_rate": 7.831932972562424e-05,
+      "loss": 0.0032,
+      "step": 82895
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.03648597374558449,
+      "eval_max_distance": 6,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.1121,
+      "eval_samples_per_second": 20.641,
+      "eval_steps_per_second": 1.404,
+      "step": 84264
     },
     {
+      "epoch": 6.0,
+      "learning_rate": 7.776353682078548e-05,
+      "loss": 0.0032,
+      "step": 84300
     },
     {
+      "epoch": 6.1,
+      "learning_rate": 7.72077439159467e-05,
+      "loss": 0.0027,
+      "step": 85705
     },
     {
+      "epoch": 6.2,
+      "learning_rate": 7.665195101110795e-05,
+      "loss": 0.0026,
+      "step": 87110
     },
     {
+      "epoch": 6.3,
+      "learning_rate": 7.609615810626919e-05,
+      "loss": 0.0028,
+      "step": 88515
     },
     {
+      "epoch": 6.4,
+      "learning_rate": 7.554036520143043e-05,
+      "loss": 0.0029,
+      "step": 89920
     },
     {
+      "epoch": 6.5,
+      "learning_rate": 7.498457229659167e-05,
+      "loss": 0.0026,
+      "step": 91325
     },
     {
+      "epoch": 6.6,
+      "learning_rate": 7.442877939175292e-05,
+      "loss": 0.0028,
+      "step": 92730
     },
     {
+      "epoch": 6.7,
+      "learning_rate": 7.387298648691414e-05,
+      "loss": 0.0031,
+      "step": 94135
     },
     {
+      "epoch": 6.8,
+      "learning_rate": 7.331719358207538e-05,
+      "loss": 0.0027,
+      "step": 95540
     },
     {
+      "epoch": 6.9,
+      "learning_rate": 7.276140067723662e-05,
+      "loss": 0.0027,
+      "step": 96945
     },
     {
+      "epoch": 7.0,
+      "eval_loss": 0.04028007388114929,
+      "eval_max_distance": 6,
+      "eval_mean_distance": 0,
+      "eval_runtime": 12.1827,
+      "eval_samples_per_second": 20.521,
+      "eval_steps_per_second": 1.395,
+      "step": 98308
     },
     {
+      "epoch": 7.0,
+      "learning_rate": 7.220560777239787e-05,
+      "loss": 0.0028,
+      "step": 98350
     },
     {
+      "epoch": 7.1,
+      "learning_rate": 7.164981486755911e-05,
+      "loss": 0.0027,
+      "step": 99755
     },
     {
+      "epoch": 7.2,
+      "learning_rate": 7.109402196272035e-05,
+      "loss": 0.0025,
+      "step": 101160
     },
     {
+      "epoch": 7.3,
+      "learning_rate": 7.053822905788158e-05,
+      "loss": 0.0025,
+      "step": 102565
     },
     {
+      "epoch": 7.4,
+      "learning_rate": 6.998243615304282e-05,
+      "loss": 0.0024,
+      "step": 103970
     },
     {
+      "epoch": 7.5,
+      "learning_rate": 6.942664324820406e-05,
+      "loss": 0.0026,
+      "step": 105375
     },
     {
+      "epoch": 7.6,
+      "learning_rate": 6.88708503433653e-05,
+      "loss": 0.0026,
+      "step": 106780
     },
     {
+      "epoch": 7.7,
+      "learning_rate": 6.831505743852654e-05,
+      "loss": 0.0026,
+      "step": 108185
     },
     {
+      "epoch": 7.8,
+      "learning_rate": 6.775926453368779e-05,
+      "loss": 0.0025,
+      "step": 109590
     },
     {
+      "epoch": 7.9,
+      "learning_rate": 6.720347162884901e-05,
+      "loss": 0.0027,
+      "step": 110995
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.03977961093187332,
+      "eval_max_distance": 6,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.1864,
+      "eval_samples_per_second": 20.515,
+      "eval_steps_per_second": 1.395,
+      "step": 112352
     },
     {
+      "epoch": 8.0,
+      "learning_rate": 6.664767872401025e-05,
+      "loss": 0.0028,
+      "step": 112400
     },
     {
+      "epoch": 8.1,
+      "learning_rate": 6.60918858191715e-05,
+      "loss": 0.0023,
+      "step": 113805
     },
     {
+      "epoch": 8.2,
+      "learning_rate": 6.553609291433274e-05,
+      "loss": 0.0023,
+      "step": 115210
     },
     {
+      "epoch": 8.3,
+      "learning_rate": 6.498030000949398e-05,
+      "loss": 0.0022,
+      "step": 116615
     },
     {
+      "epoch": 8.4,
+      "learning_rate": 6.442450710465522e-05,
+      "loss": 0.0023,
+      "step": 118020
     },
     {
+      "epoch": 8.5,
+      "learning_rate": 6.386871419981645e-05,
+      "loss": 0.0024,
+      "step": 119425
     },
     {
+      "epoch": 8.6,
+      "learning_rate": 6.331292129497769e-05,
+      "loss": 0.0025,
+      "step": 120830
     },
     {
+      "epoch": 8.7,
+      "learning_rate": 6.275712839013893e-05,
+      "loss": 0.0024,
+      "step": 122235
     },
     {
+      "epoch": 8.8,
+      "learning_rate": 6.220133548530017e-05,
+      "loss": 0.0022,
+      "step": 123640
     },
     {
+      "epoch": 8.9,
+      "learning_rate": 6.164554258046142e-05,
+      "loss": 0.0023,
+      "step": 125045
     },
     {
+      "epoch": 9.0,
+      "eval_loss": 0.040445487946271896,
+      "eval_max_distance": 6,
+      "eval_mean_distance": 0,
+      "eval_runtime": 12.3201,
+      "eval_samples_per_second": 20.292,
+      "eval_steps_per_second": 1.38,
+      "step": 126396
     },
     {
+      "epoch": 9.0,
+      "learning_rate": 6.108974967562266e-05,
+      "loss": 0.0024,
+      "step": 126450
     },
     {
+      "epoch": 9.1,
+      "learning_rate": 6.053395677078388e-05,
+      "loss": 0.002,
+      "step": 127855
     },
     {
+      "epoch": 9.2,
+      "learning_rate": 5.9978163865945126e-05,
+      "loss": 0.0021,
+      "step": 129260
     },
     {
+      "epoch": 9.3,
+      "learning_rate": 5.9422370961106364e-05,
+      "loss": 0.0022,
+      "step": 130665
     },
     {
+      "epoch": 9.4,
+      "learning_rate": 5.886657805626761e-05,
+      "loss": 0.0023,
+      "step": 132070
     },
     {
+      "epoch": 9.5,
+      "learning_rate": 5.831078515142885e-05,
+      "loss": 0.0022,
+      "step": 133475
     },
     {
+      "epoch": 9.6,
+      "learning_rate": 5.775499224659009e-05,
+      "loss": 0.0021,
+      "step": 134880
     },
     {
+      "epoch": 9.7,
+      "learning_rate": 5.719919934175132e-05,
+      "loss": 0.0021,
+      "step": 136285
     },
     {
+      "epoch": 9.8,
+      "learning_rate": 5.664340643691256e-05,
+      "loss": 0.0021,
+      "step": 137690
     },
     {
+      "epoch": 9.9,
+      "learning_rate": 5.60876135320738e-05,
+      "loss": 0.0023,
+      "step": 139095
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.03852245956659317,
+      "eval_max_distance": 6,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.131,
+      "eval_samples_per_second": 20.608,
+      "eval_steps_per_second": 1.401,
+      "step": 140440
     },
     {
+      "epoch": 10.0,
+      "learning_rate": 5.5531820627235044e-05,
+      "loss": 0.0023,
+      "step": 140500
     },
     {
+      "epoch": 10.1,
+      "learning_rate": 5.497602772239628e-05,
+      "loss": 0.0018,
+      "step": 141905
     },
     {
+      "epoch": 10.2,
+      "learning_rate": 5.4420234817557526e-05,
+      "loss": 0.0021,
+      "step": 143310
     },
     {
+      "epoch": 10.3,
+      "learning_rate": 5.386444191271876e-05,
+      "loss": 0.0021,
+      "step": 144715
     },
     {
+      "epoch": 10.4,
+      "learning_rate": 5.3308649007879995e-05,
+      "loss": 0.0021,
+      "step": 146120
     },
     {
+      "epoch": 10.5,
+      "learning_rate": 5.275285610304124e-05,
+      "loss": 0.0021,
+      "step": 147525
     },
     {
+      "epoch": 10.6,
+      "learning_rate": 5.219706319820248e-05,
+      "loss": 0.002,
+      "step": 148930
     },
     {
+      "epoch": 10.7,
+      "learning_rate": 5.1641270293363716e-05,
+      "loss": 0.002,
+      "step": 150335
     },
     {
+      "epoch": 10.8,
+      "learning_rate": 5.108547738852496e-05,
+      "loss": 0.0019,
+      "step": 151740
     },
     {
+      "epoch": 10.9,
+      "learning_rate": 5.052968448368619e-05,
+      "loss": 0.002,
+      "step": 153145
     },
     {
+      "epoch": 11.0,
+      "eval_loss": 0.040671207010746,
+      "eval_max_distance": 6,
+      "eval_mean_distance": 0,
+      "eval_runtime": 12.2718,
+      "eval_samples_per_second": 20.372,
+      "eval_steps_per_second": 1.385,
+      "step": 154484
     },
     {
+      "epoch": 11.0,
+      "learning_rate": 4.997389157884743e-05,
+      "loss": 0.0018,
+      "step": 154550
     },
     {
+      "epoch": 11.1,
+      "learning_rate": 4.9418098674008675e-05,
+      "loss": 0.002,
+      "step": 155955
     },
     {
+      "epoch": 11.2,
+      "learning_rate": 4.886230576916991e-05,
+      "loss": 0.0019,
+      "step": 157360
     },
     {
+      "epoch": 11.3,
+      "learning_rate": 4.830651286433115e-05,
+      "loss": 0.0018,
+      "step": 158765
     },
     {
+      "epoch": 11.4,
+      "learning_rate": 4.775071995949239e-05,
+      "loss": 0.0018,
+      "step": 160170
     },
     {
+      "epoch": 11.5,
+      "learning_rate": 4.7194927054653634e-05,
+      "loss": 0.002,
+      "step": 161575
     },
     {
+      "epoch": 11.6,
+      "learning_rate": 4.6639134149814865e-05,
+      "loss": 0.0019,
+      "step": 162980
     },
     {
+      "epoch": 11.7,
+      "learning_rate": 4.608334124497611e-05,
+      "loss": 0.0017,
+      "step": 164385
     },
     {
+      "epoch": 11.81,
+      "learning_rate": 4.552754834013735e-05,
+      "loss": 0.002,
+      "step": 165790
     },
     {
+      "epoch": 11.91,
+      "learning_rate": 4.4971755435298586e-05,
+      "loss": 0.0018,
+      "step": 167195
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.04258317872881889,
+      "eval_max_distance": 9,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.8224,
+      "eval_samples_per_second": 19.497,
+      "eval_steps_per_second": 1.326,
+      "step": 168528
     },
     {
+      "epoch": 12.01,
+      "learning_rate": 4.4415962530459824e-05,
+      "loss": 0.0017,
+      "step": 168600
     },
     {
+      "epoch": 12.11,
+      "learning_rate": 4.386016962562107e-05,
+      "loss": 0.0016,
+      "step": 170005
     },
     {
+      "epoch": 12.21,
+      "learning_rate": 4.33043767207823e-05,
+      "loss": 0.0018,
+      "step": 171410
     },
     {
+      "epoch": 12.31,
+      "learning_rate": 4.2748583815943544e-05,
+      "loss": 0.0016,
+      "step": 172815
     },
     {
+      "epoch": 12.41,
+      "learning_rate": 4.219279091110478e-05,
+      "loss": 0.0018,
+      "step": 174220
     },
     {
+      "epoch": 12.51,
+      "learning_rate": 4.163699800626602e-05,
+      "loss": 0.0018,
+      "step": 175625
     },
     {
+      "epoch": 12.61,
+      "learning_rate": 4.108120510142726e-05,
+      "loss": 0.0018,
+      "step": 177030
     },
     {
+      "epoch": 12.71,
+      "learning_rate": 4.05254121965885e-05,
+      "loss": 0.0016,
+      "step": 178435
     },
     {
+      "epoch": 12.81,
+      "learning_rate": 3.996961929174974e-05,
+      "loss": 0.002,
+      "step": 179840
     },
     {
+      "epoch": 12.91,
+      "learning_rate": 3.941382638691098e-05,
+      "loss": 0.0018,
+      "step": 181245
     },
     {
+      "epoch": 13.0,
+      "eval_loss": 0.042234089225530624,
+      "eval_max_distance": 6,
+      "eval_mean_distance": 0,
+      "eval_runtime": 13.9619,
+      "eval_samples_per_second": 17.906,
+      "eval_steps_per_second": 1.218,
+      "step": 182572
     },
     {
+      "epoch": 13.01,
+      "learning_rate": 3.885803348207222e-05,
+      "loss": 0.0018,
+      "step": 182650
     },
     {
+      "epoch": 13.11,
+      "learning_rate": 3.8302240577233455e-05,
+      "loss": 0.0017,
+      "step": 184055
     },
     {
+      "epoch": 13.21,
+      "learning_rate": 3.77464476723947e-05,
+      "loss": 0.0017,
+      "step": 185460
     },
     {
+      "epoch": 13.31,
+      "learning_rate": 3.719065476755594e-05,
+      "loss": 0.0016,
+      "step": 186865
     },
     {
+      "epoch": 13.41,
+      "learning_rate": 3.6634861862717176e-05,
+      "loss": 0.0016,
+      "step": 188270
     },
     {
+      "epoch": 13.51,
+      "learning_rate": 3.6079068957878414e-05,
+      "loss": 0.0016,
+      "step": 189675
     },
     {
+      "epoch": 13.61,
+      "learning_rate": 3.552327605303966e-05,
+      "loss": 0.0017,
+      "step": 191080
     },
     {
+      "epoch": 13.71,
+      "learning_rate": 3.4967483148200896e-05,
+      "loss": 0.0017,
+      "step": 192485
     },
     {
+      "epoch": 13.81,
+      "learning_rate": 3.4411690243362134e-05,
+      "loss": 0.0015,
+      "step": 193890
     },
     {
+      "epoch": 13.91,
+      "learning_rate": 3.385589733852337e-05,
+      "loss": 0.0016,
+      "step": 195295
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.04207869619131088,
+      "eval_max_distance": 6,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.3358,
+      "eval_samples_per_second": 20.266,
+      "eval_steps_per_second": 1.378,
+      "step": 196616
     },
     {
+      "epoch": 14.01,
+      "learning_rate": 3.330010443368462e-05,
+      "loss": 0.0016,
+      "step": 196700
     },
     {
+      "epoch": 14.11,
+      "learning_rate": 3.274431152884585e-05,
+      "loss": 0.0016,
+      "step": 198105
     },
     {
+      "epoch": 14.21,
+      "learning_rate": 3.218851862400709e-05,
+      "loss": 0.0015,
+      "step": 199510
     },
     {
+      "epoch": 14.31,
+      "learning_rate": 3.163272571916833e-05,
+      "loss": 0.0016,
+      "step": 200915
     },
     {
+      "epoch": 14.41,
+      "learning_rate": 3.107693281432957e-05,
+      "loss": 0.0016,
+      "step": 202320
     },
     {
+      "epoch": 14.51,
+      "learning_rate": 3.052113990949081e-05,
+      "loss": 0.0016,
+      "step": 203725
     },
     {
+      "epoch": 14.61,
+      "learning_rate": 2.9965347004652052e-05,
+      "loss": 0.0016,
+      "step": 205130
     },
     {
+      "epoch": 14.71,
+      "learning_rate": 2.9409554099813286e-05,
+      "loss": 0.0015,
+      "step": 206535
     },
     {
+      "epoch": 14.81,
+      "learning_rate": 2.8853761194974528e-05,
+      "loss": 0.0016,
+      "step": 207940
     },
     {
+      "epoch": 14.91,
+      "learning_rate": 2.829796829013577e-05,
+      "loss": 0.0016,
+      "step": 209345
     },
     {
+      "epoch": 15.0,
+      "eval_loss": 0.04015611857175827,
+      "eval_max_distance": 6,
+      "eval_mean_distance": 0,
+      "eval_runtime": 12.1736,
+      "eval_samples_per_second": 20.536,
+      "eval_steps_per_second": 1.396,
+      "step": 210660
     },
     {
+      "epoch": 15.01,
+      "learning_rate": 2.7742175385297004e-05,
+      "loss": 0.0015,
+      "step": 210750
     },
     {
+      "epoch": 15.11,
+      "learning_rate": 2.7186382480458245e-05,
+      "loss": 0.0015,
+      "step": 212155
     },
     {
+      "epoch": 15.21,
+      "learning_rate": 2.6630589575619486e-05,
+      "loss": 0.0014,
+      "step": 213560
     },
     {
+      "epoch": 15.31,
+      "learning_rate": 2.607479667078072e-05,
+      "loss": 0.0016,
+      "step": 214965
     },
     {
+      "epoch": 15.41,
+      "learning_rate": 2.5519003765941962e-05,
+      "loss": 0.0014,
+      "step": 216370
     },
     {
+      "epoch": 15.51,
+      "learning_rate": 2.49632108611032e-05,
+      "loss": 0.0016,
+      "step": 217775
     },
     {
+      "epoch": 15.61,
+      "learning_rate": 2.440741795626444e-05,
+      "loss": 0.0014,
+      "step": 219180
     },
     {
+      "epoch": 15.71,
+      "learning_rate": 2.385162505142568e-05,
+      "loss": 0.0015,
+      "step": 220585
     },
     {
+      "epoch": 15.81,
+      "learning_rate": 2.3295832146586918e-05,
+      "loss": 0.0015,
+      "step": 221990
     },
     {
+      "epoch": 15.91,
+      "learning_rate": 2.2740039241748156e-05,
+      "loss": 0.0014,
+      "step": 223395
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 0.04069029539823532,
+      "eval_max_distance": 6,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.2719,
+      "eval_samples_per_second": 20.372,
+      "eval_steps_per_second": 1.385,
+      "step": 224704
+    },
+    {
+      "epoch": 16.01,
+      "learning_rate": 2.2184246336909397e-05,
+      "loss": 0.0015,
+      "step": 224800
     },
     {
+      "epoch": 16.11,
+      "learning_rate": 2.1628453432070635e-05,
+      "loss": 0.0013,
+      "step": 226205
     },
     {
+      "epoch": 16.21,
+      "learning_rate": 2.1072660527231873e-05,
+      "loss": 0.0014,
+      "step": 227610
     },
     {
+      "epoch": 16.31,
+      "learning_rate": 2.0516867622393114e-05,
+      "loss": 0.0014,
+      "step": 229015
     },
     {
+      "epoch": 16.41,
+      "learning_rate": 1.9961074717554352e-05,
+      "loss": 0.0015,
+      "step": 230420
     },
     {
+      "epoch": 16.51,
+      "learning_rate": 1.9405281812715594e-05,
+      "loss": 0.0016,
+      "step": 231825
     },
     {
+      "epoch": 16.61,
+      "learning_rate": 1.8849488907876832e-05,
+      "loss": 0.0015,
+      "step": 233230
     },
     {
+      "epoch": 16.71,
+      "learning_rate": 1.8293696003038073e-05,
+      "loss": 0.0014,
+      "step": 234635
     },
     {
+      "epoch": 16.81,
+      "learning_rate": 1.773790309819931e-05,
+      "loss": 0.0013,
+      "step": 236040
     },
     {
+      "epoch": 16.91,
+      "learning_rate": 1.7182110193360553e-05,
+      "loss": 0.0014,
+      "step": 237445
     },
     {
+      "epoch": 17.0,
+      "eval_loss": 0.042702946811914444,
+      "eval_max_distance": 6,
+      "eval_mean_distance": 0,
+      "eval_runtime": 12.1336,
+      "eval_samples_per_second": 20.604,
+      "eval_steps_per_second": 1.401,
+      "step": 238748
     },
     {
+      "epoch": 17.01,
+      "learning_rate": 1.662631728852179e-05,
+      "loss": 0.0013,
+      "step": 238850
     },
     {
+      "epoch": 17.11,
+      "learning_rate": 1.607052438368303e-05,
+      "loss": 0.0014,
+      "step": 240255
     },
     {
+      "epoch": 17.21,
+      "learning_rate": 1.551473147884427e-05,
+      "loss": 0.0014,
+      "step": 241660
     },
     {
+      "epoch": 17.31,
+      "learning_rate": 1.4958938574005508e-05,
+      "loss": 0.0013,
+      "step": 243065
     },
     {
+      "epoch": 17.41,
+      "learning_rate": 1.4403145669166746e-05,
+      "loss": 0.0014,
+      "step": 244470
     },
     {
+      "epoch": 17.51,
+      "learning_rate": 1.3847352764327987e-05,
+      "loss": 0.0013,
+      "step": 245875
     },
     {
+      "epoch": 17.61,
+      "learning_rate": 1.3291559859489225e-05,
+      "loss": 0.0013,
+      "step": 247280
     },
     {
+      "epoch": 17.71,
+      "learning_rate": 1.2735766954650463e-05,
+      "loss": 0.0014,
+      "step": 248685
     },
     {
+      "epoch": 17.81,
+      "learning_rate": 1.2179974049811703e-05,
+      "loss": 0.0014,
+      "step": 250090
     },
     {
+      "epoch": 17.91,
+      "learning_rate": 1.1624181144972943e-05,
+      "loss": 0.0014,
+      "step": 251495
     },
     {
+      "epoch": 18.0,
+      "eval_loss": 0.04110053926706314,
+      "eval_max_distance": 6,
       "eval_mean_distance": 0,
+      "eval_runtime": 12.0446,
+      "eval_samples_per_second": 20.756,
+      "eval_steps_per_second": 1.411,
+      "step": 252792
     },
     {
+      "epoch": 18.01,
+      "learning_rate": 1.1068388240134182e-05,
+      "loss": 0.0014,
+      "step": 252900
     },
     {
+      "epoch": 18.11,
+      "learning_rate": 1.051259533529542e-05,
+      "loss": 0.0014,
+      "step": 254305
     },
     {
+      "epoch": 18.21,
+      "learning_rate": 9.95680243045666e-06,
+      "loss": 0.0012,
+      "step": 255710
     },
     {
+      "epoch": 18.31,
+      "learning_rate": 9.4010095256179e-06,
+      "loss": 0.0012,
+      "step": 257115
     },
     {
+      "epoch": 18.41,
+      "learning_rate": 8.84521662077914e-06,
+      "loss": 0.0014,
+      "step": 258520
     },
     {
+      "epoch": 18.51,
+      "learning_rate": 8.289423715940379e-06,
+      "loss": 0.0012,
+      "step": 259925
     },
     {
+      "epoch": 18.61,
+      "learning_rate": 7.733630811101619e-06,
+      "loss": 0.0013,
+      "step": 261330
     },
     {
+      "epoch": 18.71,
+      "learning_rate": 7.1778379062628565e-06,
+      "loss": 0.0014,
+      "step": 262735
     },
     {
+      "epoch": 18.81,
+      "learning_rate": 6.622045001424096e-06,
+      "loss": 0.0012,
+      "step": 264140
     },
     {
+      "epoch": 18.91,
+      "learning_rate": 6.066252096585336e-06,
+      "loss": 0.0013,
+      "step": 265545
     },
     {
+      "epoch": 19.0,
+      "eval_loss": 0.040625352412462234,
+      "eval_max_distance": 6,
+      "eval_mean_distance": 0,
+      "eval_runtime": 12.0757,
+      "eval_samples_per_second": 20.703,
+      "eval_steps_per_second": 1.408,
+      "step": 266836
     },
     {
+      "epoch": 19.01,
+      "learning_rate": 5.510459191746575e-06,
+      "loss": 0.0013,
+      "step": 266950
     },
     {
+      "epoch": 19.11,
+      "learning_rate": 4.9546662869078136e-06,
+      "loss": 0.0014,
+      "step": 268355
     },
     {
+      "epoch": 19.21,
+      "learning_rate": 4.398873382069053e-06,
+      "loss": 0.0013,
+      "step": 269760
     },
     {
+      "epoch": 19.31,
+      "learning_rate": 3.843080477230292e-06,
+      "loss": 0.0013,
+      "step": 271165
     },
     {
+      "epoch": 19.41,
+      "learning_rate": 3.2872875723915313e-06,
+      "loss": 0.0013,
+      "step": 272570
     },
     {
+      "epoch": 19.51,
+      "learning_rate": 2.7314946675527706e-06,
+      "loss": 0.0012,
+      "step": 273975
     },
     {
+      "epoch": 19.61,
+      "learning_rate": 2.1757017627140103e-06,
+      "loss": 0.0012,
+      "step": 275380
     },
     {
+      "epoch": 19.71,
+      "learning_rate": 1.619908857875249e-06,
+      "loss": 0.0013,
+      "step": 276785
     },
     {
+      "epoch": 19.81,
+      "learning_rate": 1.0641159530364886e-06,
+      "loss": 0.0014,
+      "step": 278190
     },
     {
+      "epoch": 19.91,
+      "learning_rate": 5.083230481977278e-07,
+      "loss": 0.0013,
+      "step": 279595
     },
     {
+      "epoch": 20.0,
+      "eval_loss": 0.040508754551410675,
+      "eval_max_distance": 6,
+      "eval_mean_distance": 0,
+      "eval_runtime": 12.1336,
+      "eval_samples_per_second": 20.604,
+      "eval_steps_per_second": 1.401,
+      "step": 280880
+    },
+    {
+      "epoch": 20.0,
+      "step": 280880,
+      "total_flos": 7.269950341627085e+16,
+      "train_loss": 0.0021448437322240947,
+      "train_runtime": 20054.4611,
+      "train_samples_per_second": 210.084,
+      "train_steps_per_second": 14.006
     }
   ],
+  "logging_steps": 1405,
+  "max_steps": 280880,
+  "num_train_epochs": 20,
+  "save_steps": 2809,
+  "total_flos": 7.269950341627085e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a3764d1b8a8fe63d5a87771d5f5e5731bd1ffe973ccd8860bfcb988f646825c
 size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:768220270743ed53ef0cb8a00d97f4eba8645c310d633cf26655e6848b4b3523
 size 4091