alexue4
/

text-normalization-ru-new

@@ -15,9 +15,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [alexue4/text-normalization-ru-new](https://huggingface.co/alexue4/text-normalization-ru-new) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0405
 - Mean Distance: 0
-- Max Distance: 6
 ## Model description
@@ -43,32 +43,27 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 20
 ### Training results
-| Training Loss | Epoch | Step   | Validation Loss | Max Distance | Mean Distance |
-|:-------------:|:-----:|:------:|:---------------:|:------------:|:-------------:|
-| 0.0052        | 1.0   | 14041  | 0.0272          | 9            | 0             |
-| 0.0045        | 2.0   | 28088  | 0.0327          | 0            | 9             |
-| 0.0043        | 3.0   | 42132  | 0.0317          | 0            | 6             |
-| 0.0042        | 4.0   | 56176  | 0.0316          | 0            | 6             |
-| 0.0035        | 5.0   | 70220  | 0.0357          | 0            | 6             |
-| 0.0032        | 6.0   | 84264  | 0.0365          | 0            | 6             |
-| 0.0027        | 7.0   | 98308  | 0.0403          | 0            | 6             |
-| 0.0027        | 8.0   | 112352 | 0.0398          | 0            | 6             |
-| 0.0023        | 9.0   | 126396 | 0.0404          | 0            | 6             |
-| 0.0023        | 10.0  | 140440 | 0.0385          | 0            | 6             |
-| 0.002         | 11.0  | 154484 | 0.0407          | 0            | 6             |
-| 0.0018        | 12.0  | 168528 | 0.0426          | 0            | 9             |
-| 0.0018        | 13.0  | 182572 | 0.0422          | 0            | 6             |
-| 0.0016        | 14.0  | 196616 | 0.0421          | 0            | 6             |
-| 0.0016        | 15.0  | 210660 | 0.0402          | 0            | 6             |
-| 0.0014        | 16.0  | 224704 | 0.0407          | 0            | 6             |
-| 0.0014        | 17.0  | 238748 | 0.0427          | 0            | 6             |
-| 0.0014        | 18.0  | 252792 | 0.0411          | 0            | 6             |
-| 0.0013        | 19.0  | 266836 | 0.0406          | 0            | 6             |
-| 0.0013        | 20.0  | 280880 | 0.0405          | 0            | 6             |
 ### Framework versions

 This model is a fine-tuned version of [alexue4/text-normalization-ru-new](https://huggingface.co/alexue4/text-normalization-ru-new) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0366
 - Mean Distance: 0
+- Max Distance: 8
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 15
 ### Training results
+| Training Loss | Epoch | Step   | Validation Loss | Mean Distance | Max Distance |
+|:-------------:|:-----:|:------:|:---------------:|:-------------:|:------------:|
+| 0.0052        | 1.0   | 22916  | 0.0271          | 0             | 9            |
+| 0.0051        | 2.0   | 45832  | 0.0261          | 0             | 8            |
+| 0.0043        | 3.0   | 68748  | 0.0313          | 0             | 8            |
+| 0.0041        | 4.0   | 91664  | 0.0278          | 0             | 10           |
+| 0.0037        | 5.0   | 114580 | 0.0280          | 0             | 8            |
+| 0.0032        | 6.0   | 137496 | 0.0288          | 0             | 8            |
+| 0.003         | 7.0   | 160412 | 0.0308          | 0             | 8            |
+| 0.0025        | 8.0   | 183328 | 0.0305          | 0             | 8            |
+| 0.0025        | 9.0   | 206244 | 0.0303          | 0             | 8            |
+| 0.0023        | 10.0  | 229160 | 0.0341          | 0             | 8            |
+| 0.0022        | 11.0  | 252076 | 0.0329          | 0             | 8            |
+| 0.0019        | 12.0  | 274992 | 0.0336          | 0             | 8            |
+| 0.002         | 13.0  | 297908 | 0.0358          | 0             | 8            |
+| 0.0018        | 14.0  | 320824 | 0.0355          | 0             | 8            |
+| 0.0019        | 15.0  | 343740 | 0.0366          | 0             | 8            |
 ### Framework versions

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5969f5d1763ec4c33ef6b8b477385b4628340069265990d31d83adc01ff3d90
 size 258643461

 version https://git-lfs.github.com/spec/v1
+oid sha256:f02dda551ed1f056d9fed08e40df3447ff8597cf88883f5f1ca2067d54133a61
 size 258643461

trainer_state.json CHANGED Viewed

@@ -1,1428 +1,1378 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 20.0,
   "eval_steps": 500,
-  "global_step": 280880,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 3.5609999287800016e-09,
-      "loss": 0.0011,
       "step": 1
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 5.003204899935903e-06,
-      "loss": 0.0046,
-      "step": 1405
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 1.0006409799871805e-05,
-      "loss": 0.005,
-      "step": 2810
     },
     {
       "epoch": 0.3,
-      "learning_rate": 1.5009614699807706e-05,
       "loss": 0.0052,
-      "step": 4215
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 2.001281959974361e-05,
-      "loss": 0.005,
-      "step": 5620
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 2.5016024499679513e-05,
-      "loss": 0.0048,
-      "step": 7025
     },
     {
       "epoch": 0.6,
-      "learning_rate": 3.001922939961541e-05,
-      "loss": 0.0045,
-      "step": 8430
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 3.5022434299551316e-05,
-      "loss": 0.0049,
-      "step": 9835
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 4.002563919948722e-05,
       "loss": 0.0051,
-      "step": 11240
     },
     {
       "epoch": 0.9,
-      "learning_rate": 4.502884409942312e-05,
       "loss": 0.0052,
-      "step": 12645
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.027173755690455437,
       "eval_max_distance": 9,
       "eval_mean_distance": 0,
-      "eval_runtime": 13.945,
-      "eval_samples_per_second": 17.928,
-      "eval_steps_per_second": 1.219,
-      "step": 14041
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 5.0032048999359025e-05,
       "loss": 0.0045,
-      "step": 14050
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 5.5035253899294924e-05,
-      "loss": 0.0047,
-      "step": 15455
     },
     {
       "epoch": 1.2,
-      "learning_rate": 6.003845879923082e-05,
-      "loss": 0.0044,
-      "step": 16860
     },
     {
-      "epoch": 1.3,
-      "learning_rate": 6.504166369916673e-05,
       "loss": 0.0045,
-      "step": 18265
     },
     {
-      "epoch": 1.4,
-      "learning_rate": 7.002990600968385e-05,
-      "loss": 0.0046,
-      "step": 19670
     },
     {
       "epoch": 1.5,
-      "learning_rate": 7.50320421532327e-05,
-      "loss": 0.0043,
-      "step": 21075
     },
     {
-      "epoch": 1.6,
-      "learning_rate": 8.003417829678155e-05,
-      "loss": 0.0042,
-      "step": 22480
     },
     {
-      "epoch": 1.7,
-      "learning_rate": 8.503631444033039e-05,
-      "loss": 0.0046,
-      "step": 23885
     },
     {
       "epoch": 1.8,
-      "learning_rate": 9.003845058387924e-05,
-      "loss": 0.0043,
-      "step": 25290
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 9.504058672742809e-05,
-      "loss": 0.0045,
-      "step": 26695
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.03272660821676254,
-      "eval_max_distance": 9,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.7866,
-      "eval_samples_per_second": 19.552,
-      "eval_steps_per_second": 1.33,
-      "step": 28088
     },
     {
-      "epoch": 2.0,
-      "learning_rate": 9.99952530143359e-05,
-      "loss": 0.0046,
-      "step": 28100
     },
     {
       "epoch": 2.1,
-      "learning_rate": 9.943946010949714e-05,
-      "loss": 0.0042,
-      "step": 29505
     },
     {
-      "epoch": 2.2,
-      "learning_rate": 9.888366720465838e-05,
-      "loss": 0.0043,
-      "step": 30910
     },
     {
-      "epoch": 2.3,
-      "learning_rate": 9.832787429981962e-05,
-      "loss": 0.0044,
-      "step": 32315
     },
     {
       "epoch": 2.4,
-      "learning_rate": 9.777208139498087e-05,
-      "loss": 0.0045,
-      "step": 33720
     },
     {
-      "epoch": 2.5,
-      "learning_rate": 9.721628849014209e-05,
-      "loss": 0.0041,
-      "step": 35125
     },
     {
-      "epoch": 2.6,
-      "learning_rate": 9.666049558530333e-05,
-      "loss": 0.0043,
-      "step": 36530
     },
     {
       "epoch": 2.7,
-      "learning_rate": 9.610470268046457e-05,
-      "loss": 0.0046,
-      "step": 37935
     },
     {
-      "epoch": 2.8,
-      "learning_rate": 9.554890977562582e-05,
-      "loss": 0.0043,
-      "step": 39340
     },
     {
-      "epoch": 2.9,
-      "learning_rate": 9.499311687078706e-05,
       "loss": 0.0043,
-      "step": 40745
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.03169206902384758,
-      "eval_max_distance": 6,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.3553,
-      "eval_samples_per_second": 20.234,
-      "eval_steps_per_second": 1.376,
-      "step": 42132
     },
     {
       "epoch": 3.0,
-      "learning_rate": 9.44373239659483e-05,
-      "loss": 0.0048,
-      "step": 42150
     },
     {
-      "epoch": 3.1,
-      "learning_rate": 9.388153106110953e-05,
-      "loss": 0.0034,
-      "step": 43555
     },
     {
-      "epoch": 3.2,
-      "learning_rate": 9.332573815627077e-05,
       "loss": 0.0036,
-      "step": 44960
     },
     {
       "epoch": 3.3,
-      "learning_rate": 9.276994525143201e-05,
-      "loss": 0.0037,
-      "step": 46365
     },
     {
-      "epoch": 3.4,
-      "learning_rate": 9.221415234659325e-05,
-      "loss": 0.004,
-      "step": 47770
     },
     {
-      "epoch": 3.5,
-      "learning_rate": 9.16583594417545e-05,
-      "loss": 0.0041,
-      "step": 49175
     },
     {
       "epoch": 3.6,
-      "learning_rate": 9.110256653691574e-05,
-      "loss": 0.0039,
-      "step": 50580
     },
     {
-      "epoch": 3.7,
-      "learning_rate": 9.054677363207696e-05,
-      "loss": 0.0039,
-      "step": 51985
     },
     {
-      "epoch": 3.8,
-      "learning_rate": 8.99909807272382e-05,
       "loss": 0.0039,
-      "step": 53390
     },
     {
       "epoch": 3.9,
-      "learning_rate": 8.943518782239945e-05,
-      "loss": 0.0042,
-      "step": 54795
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.031554438173770905,
-      "eval_max_distance": 6,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.1943,
-      "eval_samples_per_second": 20.501,
-      "eval_steps_per_second": 1.394,
-      "step": 56176
     },
     {
-      "epoch": 4.0,
-      "learning_rate": 8.887939491756069e-05,
-      "loss": 0.004,
-      "step": 56200
     },
     {
-      "epoch": 4.1,
-      "learning_rate": 8.832360201272193e-05,
-      "loss": 0.0034,
-      "step": 57605
     },
     {
       "epoch": 4.2,
-      "learning_rate": 8.776780910788317e-05,
-      "loss": 0.0033,
-      "step": 59010
     },
     {
-      "epoch": 4.3,
-      "learning_rate": 8.72120162030444e-05,
       "loss": 0.0034,
-      "step": 60415
     },
     {
-      "epoch": 4.4,
-      "learning_rate": 8.665622329820564e-05,
       "loss": 0.0034,
-      "step": 61820
     },
     {
       "epoch": 4.5,
-      "learning_rate": 8.610043039336688e-05,
-      "loss": 0.0032,
-      "step": 63225
     },
     {
-      "epoch": 4.6,
-      "learning_rate": 8.554463748852812e-05,
       "loss": 0.0035,
-      "step": 64630
     },
     {
-      "epoch": 4.7,
-      "learning_rate": 8.498884458368937e-05,
-      "loss": 0.0035,
-      "step": 66035
     },
     {
       "epoch": 4.8,
-      "learning_rate": 8.443305167885061e-05,
-      "loss": 0.0035,
-      "step": 67440
     },
     {
-      "epoch": 4.9,
-      "learning_rate": 8.387725877401183e-05,
-      "loss": 0.0035,
-      "step": 68845
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.03568544238805771,
-      "eval_max_distance": 6,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.3273,
-      "eval_samples_per_second": 20.28,
-      "eval_steps_per_second": 1.379,
-      "step": 70220
     },
     {
-      "epoch": 5.0,
-      "learning_rate": 8.332146586917307e-05,
-      "loss": 0.0037,
-      "step": 70250
     },
     {
       "epoch": 5.1,
-      "learning_rate": 8.276567296433432e-05,
-      "loss": 0.0028,
-      "step": 71655
     },
     {
-      "epoch": 5.2,
-      "learning_rate": 8.220988005949556e-05,
-      "loss": 0.0029,
-      "step": 73060
     },
     {
-      "epoch": 5.3,
-      "learning_rate": 8.16540871546568e-05,
-      "loss": 0.003,
-      "step": 74465
     },
     {
       "epoch": 5.4,
-      "learning_rate": 8.109829424981804e-05,
       "loss": 0.0031,
-      "step": 75870
     },
     {
-      "epoch": 5.5,
-      "learning_rate": 8.054250134497927e-05,
       "loss": 0.0032,
-      "step": 77275
     },
     {
-      "epoch": 5.6,
-      "learning_rate": 7.998670844014051e-05,
-      "loss": 0.003,
-      "step": 78680
     },
     {
       "epoch": 5.7,
-      "learning_rate": 7.943091553530175e-05,
       "loss": 0.0032,
-      "step": 80085
     },
     {
-      "epoch": 5.8,
-      "learning_rate": 7.8875122630463e-05,
       "loss": 0.0031,
-      "step": 81490
     },
     {
-      "epoch": 5.9,
-      "learning_rate": 7.831932972562424e-05,
       "loss": 0.0032,
-      "step": 82895
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.03648597374558449,
-      "eval_max_distance": 6,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.1121,
-      "eval_samples_per_second": 20.641,
-      "eval_steps_per_second": 1.404,
-      "step": 84264
     },
     {
       "epoch": 6.0,
-      "learning_rate": 7.776353682078548e-05,
-      "loss": 0.0032,
-      "step": 84300
     },
     {
-      "epoch": 6.1,
-      "learning_rate": 7.72077439159467e-05,
-      "loss": 0.0027,
-      "step": 85705
     },
     {
-      "epoch": 6.2,
-      "learning_rate": 7.665195101110795e-05,
       "loss": 0.0026,
-      "step": 87110
     },
     {
       "epoch": 6.3,
-      "learning_rate": 7.609615810626919e-05,
-      "loss": 0.0028,
-      "step": 88515
     },
     {
-      "epoch": 6.4,
-      "learning_rate": 7.554036520143043e-05,
       "loss": 0.0029,
-      "step": 89920
     },
     {
-      "epoch": 6.5,
-      "learning_rate": 7.498457229659167e-05,
-      "loss": 0.0026,
-      "step": 91325
     },
     {
-      "epoch": 6.6,
-      "learning_rate": 7.442877939175292e-05,
       "loss": 0.0028,
-      "step": 92730
     },
     {
-      "epoch": 6.7,
-      "learning_rate": 7.387298648691414e-05,
-      "loss": 0.0031,
-      "step": 94135
     },
     {
-      "epoch": 6.8,
-      "learning_rate": 7.331719358207538e-05,
-      "loss": 0.0027,
-      "step": 95540
     },
     {
       "epoch": 6.9,
-      "learning_rate": 7.276140067723662e-05,
-      "loss": 0.0027,
-      "step": 96945
     },
     {
-      "epoch": 7.0,
-      "eval_loss": 0.04028007388114929,
-      "eval_max_distance": 6,
-      "eval_mean_distance": 0,
-      "eval_runtime": 12.1827,
-      "eval_samples_per_second": 20.521,
-      "eval_steps_per_second": 1.395,
-      "step": 98308
     },
     {
       "epoch": 7.0,
-      "learning_rate": 7.220560777239787e-05,
-      "loss": 0.0028,
-      "step": 98350
     },
     {
-      "epoch": 7.1,
-      "learning_rate": 7.164981486755911e-05,
       "loss": 0.0027,
-      "step": 99755
     },
     {
-      "epoch": 7.2,
-      "learning_rate": 7.109402196272035e-05,
       "loss": 0.0025,
-      "step": 101160
     },
     {
-      "epoch": 7.3,
-      "learning_rate": 7.053822905788158e-05,
       "loss": 0.0025,
-      "step": 102565
     },
     {
-      "epoch": 7.4,
-      "learning_rate": 6.998243615304282e-05,
-      "loss": 0.0024,
-      "step": 103970
     },
     {
       "epoch": 7.5,
-      "learning_rate": 6.942664324820406e-05,
       "loss": 0.0026,
-      "step": 105375
     },
     {
-      "epoch": 7.6,
-      "learning_rate": 6.88708503433653e-05,
       "loss": 0.0026,
-      "step": 106780
     },
     {
-      "epoch": 7.7,
-      "learning_rate": 6.831505743852654e-05,
       "loss": 0.0026,
-      "step": 108185
     },
     {
-      "epoch": 7.8,
-      "learning_rate": 6.775926453368779e-05,
       "loss": 0.0025,
-      "step": 109590
     },
     {
-      "epoch": 7.9,
-      "learning_rate": 6.720347162884901e-05,
       "loss": 0.0027,
-      "step": 110995
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.03977961093187332,
-      "eval_max_distance": 6,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.1864,
-      "eval_samples_per_second": 20.515,
-      "eval_steps_per_second": 1.395,
-      "step": 112352
     },
     {
-      "epoch": 8.0,
-      "learning_rate": 6.664767872401025e-05,
-      "loss": 0.0028,
-      "step": 112400
     },
     {
       "epoch": 8.1,
-      "learning_rate": 6.60918858191715e-05,
       "loss": 0.0023,
-      "step": 113805
     },
     {
-      "epoch": 8.2,
-      "learning_rate": 6.553609291433274e-05,
-      "loss": 0.0023,
-      "step": 115210
     },
     {
-      "epoch": 8.3,
-      "learning_rate": 6.498030000949398e-05,
-      "loss": 0.0022,
-      "step": 116615
     },
     {
-      "epoch": 8.4,
-      "learning_rate": 6.442450710465522e-05,
-      "loss": 0.0023,
-      "step": 118020
     },
     {
-      "epoch": 8.5,
-      "learning_rate": 6.386871419981645e-05,
       "loss": 0.0024,
-      "step": 119425
     },
     {
-      "epoch": 8.6,
-      "learning_rate": 6.331292129497769e-05,
       "loss": 0.0025,
-      "step": 120830
     },
     {
-      "epoch": 8.7,
-      "learning_rate": 6.275712839013893e-05,
       "loss": 0.0024,
-      "step": 122235
     },
     {
-      "epoch": 8.8,
-      "learning_rate": 6.220133548530017e-05,
-      "loss": 0.0022,
-      "step": 123640
     },
     {
-      "epoch": 8.9,
-      "learning_rate": 6.164554258046142e-05,
       "loss": 0.0023,
-      "step": 125045
     },
     {
-      "epoch": 9.0,
-      "eval_loss": 0.040445487946271896,
-      "eval_max_distance": 6,
-      "eval_mean_distance": 0,
-      "eval_runtime": 12.3201,
-      "eval_samples_per_second": 20.292,
-      "eval_steps_per_second": 1.38,
-      "step": 126396
     },
     {
-      "epoch": 9.0,
-      "learning_rate": 6.108974967562266e-05,
       "loss": 0.0024,
-      "step": 126450
     },
     {
-      "epoch": 9.1,
-      "learning_rate": 6.053395677078388e-05,
-      "loss": 0.002,
-      "step": 127855
     },
     {
-      "epoch": 9.2,
-      "learning_rate": 5.9978163865945126e-05,
-      "loss": 0.0021,
-      "step": 129260
     },
     {
-      "epoch": 9.3,
-      "learning_rate": 5.9422370961106364e-05,
-      "loss": 0.0022,
-      "step": 130665
     },
     {
-      "epoch": 9.4,
-      "learning_rate": 5.886657805626761e-05,
-      "loss": 0.0023,
-      "step": 132070
     },
     {
-      "epoch": 9.5,
-      "learning_rate": 5.831078515142885e-05,
       "loss": 0.0022,
-      "step": 133475
-    },
-    {
-      "epoch": 9.6,
-      "learning_rate": 5.775499224659009e-05,
-      "loss": 0.0021,
-      "step": 134880
     },
     {
-      "epoch": 9.7,
-      "learning_rate": 5.719919934175132e-05,
-      "loss": 0.0021,
-      "step": 136285
     },
     {
-      "epoch": 9.8,
-      "learning_rate": 5.664340643691256e-05,
-      "loss": 0.0021,
-      "step": 137690
     },
     {
-      "epoch": 9.9,
-      "learning_rate": 5.60876135320738e-05,
       "loss": 0.0023,
-      "step": 139095
     },
     {
-      "epoch": 10.0,
-      "eval_loss": 0.03852245956659317,
-      "eval_max_distance": 6,
-      "eval_mean_distance": 0,
-      "eval_runtime": 12.131,
-      "eval_samples_per_second": 20.608,
-      "eval_steps_per_second": 1.401,
-      "step": 140440
     },
     {
-      "epoch": 10.0,
-      "learning_rate": 5.5531820627235044e-05,
       "loss": 0.0023,
-      "step": 140500
     },
     {
-      "epoch": 10.1,
-      "learning_rate": 5.497602772239628e-05,
-      "loss": 0.0018,
-      "step": 141905
     },
     {
-      "epoch": 10.2,
-      "learning_rate": 5.4420234817557526e-05,
-      "loss": 0.0021,
-      "step": 143310
     },
     {
-      "epoch": 10.3,
-      "learning_rate": 5.386444191271876e-05,
-      "loss": 0.0021,
-      "step": 144715
     },
     {
-      "epoch": 10.4,
-      "learning_rate": 5.3308649007879995e-05,
-      "loss": 0.0021,
-      "step": 146120
     },
     {
-      "epoch": 10.5,
-      "learning_rate": 5.275285610304124e-05,
-      "loss": 0.0021,
-      "step": 147525
     },
     {
-      "epoch": 10.6,
-      "learning_rate": 5.219706319820248e-05,
-      "loss": 0.002,
-      "step": 148930
     },
     {
-      "epoch": 10.7,
-      "learning_rate": 5.1641270293363716e-05,
-      "loss": 0.002,
-      "step": 150335
     },
     {
-      "epoch": 10.8,
-      "learning_rate": 5.108547738852496e-05,
-      "loss": 0.0019,
-      "step": 151740
     },
     {
-      "epoch": 10.9,
-      "learning_rate": 5.052968448368619e-05,
-      "loss": 0.002,
-      "step": 153145
     },
     {
-      "epoch": 11.0,
-      "eval_loss": 0.040671207010746,
-      "eval_max_distance": 6,
-      "eval_mean_distance": 0,
-      "eval_runtime": 12.2718,
-      "eval_samples_per_second": 20.372,
-      "eval_steps_per_second": 1.385,
-      "step": 154484
     },
     {
-      "epoch": 11.0,
-      "learning_rate": 4.997389157884743e-05,
-      "loss": 0.0018,
-      "step": 154550
     },
     {
-      "epoch": 11.1,
-      "learning_rate": 4.9418098674008675e-05,
-      "loss": 0.002,
-      "step": 155955
     },
     {
-      "epoch": 11.2,
-      "learning_rate": 4.886230576916991e-05,
-      "loss": 0.0019,
-      "step": 157360
     },
     {
-      "epoch": 11.3,
-      "learning_rate": 4.830651286433115e-05,
-      "loss": 0.0018,
-      "step": 158765
     },
     {
-      "epoch": 11.4,
-      "learning_rate": 4.775071995949239e-05,
-      "loss": 0.0018,
-      "step": 160170
     },
     {
-      "epoch": 11.5,
-      "learning_rate": 4.7194927054653634e-05,
-      "loss": 0.002,
-      "step": 161575
     },
     {
-      "epoch": 11.6,
-      "learning_rate": 4.6639134149814865e-05,
-      "loss": 0.0019,
-      "step": 162980
     },
     {
-      "epoch": 11.7,
-      "learning_rate": 4.608334124497611e-05,
-      "loss": 0.0017,
-      "step": 164385
     },
     {
-      "epoch": 11.81,
-      "learning_rate": 4.552754834013735e-05,
       "loss": 0.002,
-      "step": 165790
     },
     {
-      "epoch": 11.91,
-      "learning_rate": 4.4971755435298586e-05,
-      "loss": 0.0018,
-      "step": 167195
     },
     {
-      "epoch": 12.0,
-      "eval_loss": 0.04258317872881889,
-      "eval_max_distance": 9,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.8224,
-      "eval_samples_per_second": 19.497,
-      "eval_steps_per_second": 1.326,
-      "step": 168528
-    },
-    {
-      "epoch": 12.01,
-      "learning_rate": 4.4415962530459824e-05,
-      "loss": 0.0017,
-      "step": 168600
-    },
-    {
-      "epoch": 12.11,
-      "learning_rate": 4.386016962562107e-05,
-      "loss": 0.0016,
-      "step": 170005
-    },
-    {
-      "epoch": 12.21,
-      "learning_rate": 4.33043767207823e-05,
-      "loss": 0.0018,
-      "step": 171410
     },
     {
-      "epoch": 12.31,
-      "learning_rate": 4.2748583815943544e-05,
-      "loss": 0.0016,
-      "step": 172815
-    },
-    {
-      "epoch": 12.41,
-      "learning_rate": 4.219279091110478e-05,
-      "loss": 0.0018,
-      "step": 174220
-    },
-    {
-      "epoch": 12.51,
-      "learning_rate": 4.163699800626602e-05,
-      "loss": 0.0018,
-      "step": 175625
-    },
-    {
-      "epoch": 12.61,
-      "learning_rate": 4.108120510142726e-05,
-      "loss": 0.0018,
-      "step": 177030
-    },
-    {
-      "epoch": 12.71,
-      "learning_rate": 4.05254121965885e-05,
-      "loss": 0.0016,
-      "step": 178435
     },
     {
-      "epoch": 12.81,
-      "learning_rate": 3.996961929174974e-05,
       "loss": 0.002,
-      "step": 179840
     },
     {
-      "epoch": 12.91,
-      "learning_rate": 3.941382638691098e-05,
-      "loss": 0.0018,
-      "step": 181245
-    },
-    {
-      "epoch": 13.0,
-      "eval_loss": 0.042234089225530624,
-      "eval_max_distance": 6,
-      "eval_mean_distance": 0,
-      "eval_runtime": 13.9619,
-      "eval_samples_per_second": 17.906,
-      "eval_steps_per_second": 1.218,
-      "step": 182572
     },
     {
-      "epoch": 13.01,
-      "learning_rate": 3.885803348207222e-05,
-      "loss": 0.0018,
-      "step": 182650
     },
     {
-      "epoch": 13.11,
-      "learning_rate": 3.8302240577233455e-05,
-      "loss": 0.0017,
-      "step": 184055
     },
     {
-      "epoch": 13.21,
-      "learning_rate": 3.77464476723947e-05,
-      "loss": 0.0017,
-      "step": 185460
     },
     {
-      "epoch": 13.31,
-      "learning_rate": 3.719065476755594e-05,
-      "loss": 0.0016,
-      "step": 186865
     },
     {
-      "epoch": 13.41,
-      "learning_rate": 3.6634861862717176e-05,
-      "loss": 0.0016,
-      "step": 188270
     },
     {
-      "epoch": 13.51,
-      "learning_rate": 3.6079068957878414e-05,
-      "loss": 0.0016,
-      "step": 189675
     },
     {
-      "epoch": 13.61,
-      "learning_rate": 3.552327605303966e-05,
-      "loss": 0.0017,
-      "step": 191080
     },
     {
-      "epoch": 13.71,
-      "learning_rate": 3.4967483148200896e-05,
-      "loss": 0.0017,
-      "step": 192485
     },
     {
-      "epoch": 13.81,
-      "learning_rate": 3.4411690243362134e-05,
-      "loss": 0.0015,
-      "step": 193890
     },
     {
-      "epoch": 13.91,
-      "learning_rate": 3.385589733852337e-05,
-      "loss": 0.0016,
-      "step": 195295
     },
     {
-      "epoch": 14.0,
-      "eval_loss": 0.04207869619131088,
-      "eval_max_distance": 6,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.3358,
-      "eval_samples_per_second": 20.266,
-      "eval_steps_per_second": 1.378,
-      "step": 196616
-    },
-    {
-      "epoch": 14.01,
-      "learning_rate": 3.330010443368462e-05,
-      "loss": 0.0016,
-      "step": 196700
     },
     {
-      "epoch": 14.11,
-      "learning_rate": 3.274431152884585e-05,
-      "loss": 0.0016,
-      "step": 198105
-    },
-    {
-      "epoch": 14.21,
-      "learning_rate": 3.218851862400709e-05,
-      "loss": 0.0015,
-      "step": 199510
-    },
-    {
-      "epoch": 14.31,
-      "learning_rate": 3.163272571916833e-05,
-      "loss": 0.0016,
-      "step": 200915
-    },
-    {
-      "epoch": 14.41,
-      "learning_rate": 3.107693281432957e-05,
-      "loss": 0.0016,
-      "step": 202320
-    },
-    {
-      "epoch": 14.51,
-      "learning_rate": 3.052113990949081e-05,
-      "loss": 0.0016,
-      "step": 203725
-    },
-    {
-      "epoch": 14.61,
-      "learning_rate": 2.9965347004652052e-05,
-      "loss": 0.0016,
-      "step": 205130
-    },
-    {
-      "epoch": 14.71,
-      "learning_rate": 2.9409554099813286e-05,
-      "loss": 0.0015,
-      "step": 206535
     },
     {
-      "epoch": 14.81,
-      "learning_rate": 2.8853761194974528e-05,
-      "loss": 0.0016,
-      "step": 207940
     },
     {
-      "epoch": 14.91,
-      "learning_rate": 2.829796829013577e-05,
-      "loss": 0.0016,
-      "step": 209345
     },
     {
-      "epoch": 15.0,
-      "eval_loss": 0.04015611857175827,
-      "eval_max_distance": 6,
-      "eval_mean_distance": 0,
-      "eval_runtime": 12.1736,
-      "eval_samples_per_second": 20.536,
-      "eval_steps_per_second": 1.396,
-      "step": 210660
     },
     {
-      "epoch": 15.01,
-      "learning_rate": 2.7742175385297004e-05,
-      "loss": 0.0015,
-      "step": 210750
     },
     {
-      "epoch": 15.11,
-      "learning_rate": 2.7186382480458245e-05,
-      "loss": 0.0015,
-      "step": 212155
     },
     {
-      "epoch": 15.21,
-      "learning_rate": 2.6630589575619486e-05,
-      "loss": 0.0014,
-      "step": 213560
     },
     {
-      "epoch": 15.31,
-      "learning_rate": 2.607479667078072e-05,
-      "loss": 0.0016,
-      "step": 214965
     },
     {
-      "epoch": 15.41,
-      "learning_rate": 2.5519003765941962e-05,
-      "loss": 0.0014,
-      "step": 216370
     },
     {
-      "epoch": 15.51,
-      "learning_rate": 2.49632108611032e-05,
-      "loss": 0.0016,
-      "step": 217775
     },
     {
-      "epoch": 15.61,
-      "learning_rate": 2.440741795626444e-05,
-      "loss": 0.0014,
-      "step": 219180
     },
     {
-      "epoch": 15.71,
-      "learning_rate": 2.385162505142568e-05,
-      "loss": 0.0015,
-      "step": 220585
     },
     {
-      "epoch": 15.81,
-      "learning_rate": 2.3295832146586918e-05,
-      "loss": 0.0015,
-      "step": 221990
     },
     {
-      "epoch": 15.91,
-      "learning_rate": 2.2740039241748156e-05,
-      "loss": 0.0014,
-      "step": 223395
     },
     {
-      "epoch": 16.0,
-      "eval_loss": 0.04069029539823532,
-      "eval_max_distance": 6,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.2719,
-      "eval_samples_per_second": 20.372,
-      "eval_steps_per_second": 1.385,
-      "step": 224704
-    },
-    {
-      "epoch": 16.01,
-      "learning_rate": 2.2184246336909397e-05,
-      "loss": 0.0015,
-      "step": 224800
-    },
-    {
-      "epoch": 16.11,
-      "learning_rate": 2.1628453432070635e-05,
-      "loss": 0.0013,
-      "step": 226205
-    },
-    {
-      "epoch": 16.21,
-      "learning_rate": 2.1072660527231873e-05,
-      "loss": 0.0014,
-      "step": 227610
-    },
-    {
-      "epoch": 16.31,
-      "learning_rate": 2.0516867622393114e-05,
-      "loss": 0.0014,
-      "step": 229015
-    },
-    {
-      "epoch": 16.41,
-      "learning_rate": 1.9961074717554352e-05,
-      "loss": 0.0015,
-      "step": 230420
     },
     {
-      "epoch": 16.51,
-      "learning_rate": 1.9405281812715594e-05,
-      "loss": 0.0016,
-      "step": 231825
-    },
-    {
-      "epoch": 16.61,
-      "learning_rate": 1.8849488907876832e-05,
-      "loss": 0.0015,
-      "step": 233230
-    },
-    {
-      "epoch": 16.71,
-      "learning_rate": 1.8293696003038073e-05,
-      "loss": 0.0014,
-      "step": 234635
-    },
-    {
-      "epoch": 16.81,
-      "learning_rate": 1.773790309819931e-05,
-      "loss": 0.0013,
-      "step": 236040
     },
     {
-      "epoch": 16.91,
-      "learning_rate": 1.7182110193360553e-05,
-      "loss": 0.0014,
-      "step": 237445
     },
     {
-      "epoch": 17.0,
-      "eval_loss": 0.042702946811914444,
-      "eval_max_distance": 6,
-      "eval_mean_distance": 0,
-      "eval_runtime": 12.1336,
-      "eval_samples_per_second": 20.604,
-      "eval_steps_per_second": 1.401,
-      "step": 238748
     },
     {
-      "epoch": 17.01,
-      "learning_rate": 1.662631728852179e-05,
-      "loss": 0.0013,
-      "step": 238850
     },
     {
-      "epoch": 17.11,
-      "learning_rate": 1.607052438368303e-05,
-      "loss": 0.0014,
-      "step": 240255
     },
     {
-      "epoch": 17.21,
-      "learning_rate": 1.551473147884427e-05,
-      "loss": 0.0014,
-      "step": 241660
     },
     {
-      "epoch": 17.31,
-      "learning_rate": 1.4958938574005508e-05,
-      "loss": 0.0013,
-      "step": 243065
     },
     {
-      "epoch": 17.41,
-      "learning_rate": 1.4403145669166746e-05,
-      "loss": 0.0014,
-      "step": 244470
     },
     {
-      "epoch": 17.51,
-      "learning_rate": 1.3847352764327987e-05,
-      "loss": 0.0013,
-      "step": 245875
     },
     {
-      "epoch": 17.61,
-      "learning_rate": 1.3291559859489225e-05,
-      "loss": 0.0013,
-      "step": 247280
     },
     {
-      "epoch": 17.71,
-      "learning_rate": 1.2735766954650463e-05,
-      "loss": 0.0014,
-      "step": 248685
     },
     {
-      "epoch": 17.81,
-      "learning_rate": 1.2179974049811703e-05,
-      "loss": 0.0014,
-      "step": 250090
     },
     {
-      "epoch": 17.91,
-      "learning_rate": 1.1624181144972943e-05,
-      "loss": 0.0014,
-      "step": 251495
     },
     {
-      "epoch": 18.0,
-      "eval_loss": 0.04110053926706314,
-      "eval_max_distance": 6,
       "eval_mean_distance": 0,
-      "eval_runtime": 12.0446,
-      "eval_samples_per_second": 20.756,
-      "eval_steps_per_second": 1.411,
-      "step": 252792
-    },
-    {
-      "epoch": 18.01,
-      "learning_rate": 1.1068388240134182e-05,
-      "loss": 0.0014,
-      "step": 252900
-    },
-    {
-      "epoch": 18.11,
-      "learning_rate": 1.051259533529542e-05,
-      "loss": 0.0014,
-      "step": 254305
-    },
-    {
-      "epoch": 18.21,
-      "learning_rate": 9.95680243045666e-06,
-      "loss": 0.0012,
-      "step": 255710
     },
     {
-      "epoch": 18.31,
-      "learning_rate": 9.4010095256179e-06,
-      "loss": 0.0012,
-      "step": 257115
-    },
-    {
-      "epoch": 18.41,
-      "learning_rate": 8.84521662077914e-06,
-      "loss": 0.0014,
-      "step": 258520
-    },
-    {
-      "epoch": 18.51,
-      "learning_rate": 8.289423715940379e-06,
-      "loss": 0.0012,
-      "step": 259925
-    },
-    {
-      "epoch": 18.61,
-      "learning_rate": 7.733630811101619e-06,
-      "loss": 0.0013,
-      "step": 261330
-    },
-    {
-      "epoch": 18.71,
-      "learning_rate": 7.1778379062628565e-06,
-      "loss": 0.0014,
-      "step": 262735
     },
     {
-      "epoch": 18.81,
-      "learning_rate": 6.622045001424096e-06,
-      "loss": 0.0012,
-      "step": 264140
     },
     {
-      "epoch": 18.91,
-      "learning_rate": 6.066252096585336e-06,
-      "loss": 0.0013,
-      "step": 265545
     },
     {
-      "epoch": 19.0,
-      "eval_loss": 0.040625352412462234,
-      "eval_max_distance": 6,
-      "eval_mean_distance": 0,
-      "eval_runtime": 12.0757,
-      "eval_samples_per_second": 20.703,
-      "eval_steps_per_second": 1.408,
-      "step": 266836
     },
     {
-      "epoch": 19.01,
-      "learning_rate": 5.510459191746575e-06,
-      "loss": 0.0013,
-      "step": 266950
     },
     {
-      "epoch": 19.11,
-      "learning_rate": 4.9546662869078136e-06,
-      "loss": 0.0014,
-      "step": 268355
     },
     {
-      "epoch": 19.21,
-      "learning_rate": 4.398873382069053e-06,
-      "loss": 0.0013,
-      "step": 269760
     },
     {
-      "epoch": 19.31,
-      "learning_rate": 3.843080477230292e-06,
-      "loss": 0.0013,
-      "step": 271165
     },
     {
-      "epoch": 19.41,
-      "learning_rate": 3.2872875723915313e-06,
-      "loss": 0.0013,
-      "step": 272570
     },
     {
-      "epoch": 19.51,
-      "learning_rate": 2.7314946675527706e-06,
-      "loss": 0.0012,
-      "step": 273975
     },
     {
-      "epoch": 19.61,
-      "learning_rate": 2.1757017627140103e-06,
-      "loss": 0.0012,
-      "step": 275380
     },
     {
-      "epoch": 19.71,
-      "learning_rate": 1.619908857875249e-06,
-      "loss": 0.0013,
-      "step": 276785
     },
     {
-      "epoch": 19.81,
-      "learning_rate": 1.0641159530364886e-06,
-      "loss": 0.0014,
-      "step": 278190
     },
     {
-      "epoch": 19.91,
-      "learning_rate": 5.083230481977278e-07,
-      "loss": 0.0013,
-      "step": 279595
     },
     {
-      "epoch": 20.0,
-      "eval_loss": 0.040508754551410675,
-      "eval_max_distance": 6,
-      "eval_mean_distance": 0,
-      "eval_runtime": 12.1336,
-      "eval_samples_per_second": 20.604,
-      "eval_steps_per_second": 1.401,
-      "step": 280880
-    },
-    {
-      "epoch": 20.0,
-      "step": 280880,
-      "total_flos": 7.269950341627085e+16,
-      "train_loss": 0.0021448437322240947,
-      "train_runtime": 20054.4611,
-      "train_samples_per_second": 210.084,
-      "train_steps_per_second": 14.006
     }
   ],
-  "logging_steps": 1405,
-  "max_steps": 280880,
-  "num_train_epochs": 20,
-  "save_steps": 2809,
-  "total_flos": 7.269950341627085e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 15.0,
   "eval_steps": 500,
+  "global_step": 343740,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 2.909175539652063e-09,
+      "loss": 0.0085,
       "step": 1
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 5.000872752661896e-06,
+      "loss": 0.0066,
+      "step": 1719
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 1.0001745505323792e-05,
+      "loss": 0.0061,
+      "step": 3438
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 1.5002618257985687e-05,
+      "loss": 0.0059,
+      "step": 5157
     },
     {
       "epoch": 0.3,
+      "learning_rate": 2.0003491010647585e-05,
+      "loss": 0.0056,
+      "step": 6876
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 2.500436376330948e-05,
       "loss": 0.0052,
+      "step": 8595
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 3.0005236515971374e-05,
+      "loss": 0.0052,
+      "step": 10314
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 3.500610926863327e-05,
+      "loss": 0.0049,
+      "step": 12033
     },
     {
       "epoch": 0.6,
+      "learning_rate": 4.000698202129517e-05,
+      "loss": 0.0049,
+      "step": 13752
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 4.5007854773957064e-05,
+      "loss": 0.0052,
+      "step": 15471
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 5.000872752661896e-05,
       "loss": 0.0051,
+      "step": 17190
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 5.500960027928086e-05,
+      "loss": 0.0052,
+      "step": 18909
     },
     {
       "epoch": 0.9,
+      "learning_rate": 6.001047303194275e-05,
+      "loss": 0.0048,
+      "step": 20628
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 6.501134578460465e-05,
       "loss": 0.0052,
+      "step": 22347
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.027106985449790955,
       "eval_max_distance": 9,
       "eval_mean_distance": 0,
+      "eval_runtime": 14.4629,
+      "eval_samples_per_second": 17.355,
+      "eval_steps_per_second": 1.175,
+      "step": 22916
     },
     {
+      "epoch": 1.05,
+      "learning_rate": 7.001221853726654e-05,
       "loss": 0.0045,
+      "step": 24066
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 7.501309128992844e-05,
+      "loss": 0.0044,
+      "step": 25785
     },
     {
       "epoch": 1.2,
+      "learning_rate": 8.001396404259034e-05,
+      "loss": 0.0048,
+      "step": 27504
     },
     {
+      "epoch": 1.28,
+      "learning_rate": 8.501483679525223e-05,
       "loss": 0.0045,
+      "step": 29223
     },
     {
+      "epoch": 1.35,
+      "learning_rate": 9.001570954791413e-05,
+      "loss": 0.0044,
+      "step": 30942
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 9.501658230057602e-05,
+      "loss": 0.0047,
+      "step": 32661
     },
     {
       "epoch": 1.5,
+      "learning_rate": 9.999806054964024e-05,
+      "loss": 0.005,
+      "step": 34380
     },
     {
+      "epoch": 1.58,
+      "learning_rate": 9.944240802156669e-05,
+      "loss": 0.0049,
+      "step": 36099
     },
     {
+      "epoch": 1.65,
+      "learning_rate": 9.888675549349314e-05,
+      "loss": 0.0053,
+      "step": 37818
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 9.83311029654196e-05,
+      "loss": 0.0047,
+      "step": 39537
     },
     {
       "epoch": 1.8,
+      "learning_rate": 9.777545043734606e-05,
+      "loss": 0.005,
+      "step": 41256
     },
     {
+      "epoch": 1.88,
+      "learning_rate": 9.721979790927251e-05,
+      "loss": 0.0048,
+      "step": 42975
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 9.666414538119898e-05,
+      "loss": 0.0051,
+      "step": 44694
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.026126669719815254,
+      "eval_max_distance": 8,
       "eval_mean_distance": 0,
+      "eval_runtime": 13.5883,
+      "eval_samples_per_second": 18.472,
+      "eval_steps_per_second": 1.251,
+      "step": 45832
     },
     {
+      "epoch": 2.03,
+      "learning_rate": 9.610849285312543e-05,
+      "loss": 0.0047,
+      "step": 46413
     },
     {
       "epoch": 2.1,
+      "learning_rate": 9.555284032505189e-05,
+      "loss": 0.004,
+      "step": 48132
     },
     {
+      "epoch": 2.18,
+      "learning_rate": 9.499718779697834e-05,
+      "loss": 0.004,
+      "step": 49851
     },
     {
+      "epoch": 2.25,
+      "learning_rate": 9.44415352689048e-05,
+      "loss": 0.0042,
+      "step": 51570
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 9.388588274083125e-05,
+      "loss": 0.004,
+      "step": 53289
     },
     {
       "epoch": 2.4,
+      "learning_rate": 9.333023021275771e-05,
+      "loss": 0.0043,
+      "step": 55008
     },
     {
+      "epoch": 2.48,
+      "learning_rate": 9.277457768468416e-05,
+      "loss": 0.0042,
+      "step": 56727
     },
     {
+      "epoch": 2.55,
+      "learning_rate": 9.221892515661063e-05,
+      "loss": 0.004,
+      "step": 58446
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 9.166327262853708e-05,
+      "loss": 0.0045,
+      "step": 60165
     },
     {
       "epoch": 2.7,
+      "learning_rate": 9.110762010046352e-05,
+      "loss": 0.0044,
+      "step": 61884
     },
     {
+      "epoch": 2.78,
+      "learning_rate": 9.055196757238999e-05,
+      "loss": 0.0044,
+      "step": 63603
     },
     {
+      "epoch": 2.85,
+      "learning_rate": 8.999631504431645e-05,
+      "loss": 0.0044,
+      "step": 65322
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 8.94406625162429e-05,
       "loss": 0.0043,
+      "step": 67041
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.03130079433321953,
+      "eval_max_distance": 8,
       "eval_mean_distance": 0,
+      "eval_runtime": 13.4308,
+      "eval_samples_per_second": 18.688,
+      "eval_steps_per_second": 1.266,
+      "step": 68748
     },
     {
       "epoch": 3.0,
+      "learning_rate": 8.888500998816935e-05,
+      "loss": 0.0046,
+      "step": 68760
     },
     {
+      "epoch": 3.08,
+      "learning_rate": 8.832935746009581e-05,
+      "loss": 0.0036,
+      "step": 70479
     },
     {
+      "epoch": 3.15,
+      "learning_rate": 8.777370493202228e-05,
       "loss": 0.0036,
+      "step": 72198
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 8.721805240394872e-05,
+      "loss": 0.0038,
+      "step": 73917
     },
     {
       "epoch": 3.3,
+      "learning_rate": 8.666239987587517e-05,
+      "loss": 0.0036,
+      "step": 75636
     },
     {
+      "epoch": 3.38,
+      "learning_rate": 8.610674734780164e-05,
+      "loss": 0.0038,
+      "step": 77355
     },
     {
+      "epoch": 3.45,
+      "learning_rate": 8.55510948197281e-05,
+      "loss": 0.0038,
+      "step": 79074
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 8.499544229165455e-05,
+      "loss": 0.0038,
+      "step": 80793
     },
     {
       "epoch": 3.6,
+      "learning_rate": 8.4439789763581e-05,
+      "loss": 0.004,
+      "step": 82512
     },
     {
+      "epoch": 3.68,
+      "learning_rate": 8.388413723550746e-05,
+      "loss": 0.0037,
+      "step": 84231
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 8.332848470743392e-05,
+      "loss": 0.0038,
+      "step": 85950
     },
     {
+      "epoch": 3.83,
+      "learning_rate": 8.277283217936037e-05,
       "loss": 0.0039,
+      "step": 87669
     },
     {
       "epoch": 3.9,
+      "learning_rate": 8.221717965128682e-05,
+      "loss": 0.0039,
+      "step": 89388
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 8.166152712321329e-05,
+      "loss": 0.0041,
+      "step": 91107
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.02780107595026493,
+      "eval_max_distance": 10,
       "eval_mean_distance": 0,
+      "eval_runtime": 13.351,
+      "eval_samples_per_second": 18.8,
+      "eval_steps_per_second": 1.273,
+      "step": 91664
     },
     {
+      "epoch": 4.05,
+      "learning_rate": 8.110587459513974e-05,
+      "loss": 0.0037,
+      "step": 92826
     },
     {
+      "epoch": 4.13,
+      "learning_rate": 8.05502220670662e-05,
+      "loss": 0.0032,
+      "step": 94545
     },
     {
       "epoch": 4.2,
+      "learning_rate": 7.999456953899266e-05,
+      "loss": 0.0034,
+      "step": 96264
     },
     {
+      "epoch": 4.28,
+      "learning_rate": 7.943891701091911e-05,
       "loss": 0.0034,
+      "step": 97983
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 7.888326448284556e-05,
+      "loss": 0.0035,
+      "step": 99702
     },
     {
+      "epoch": 4.43,
+      "learning_rate": 7.832761195477202e-05,
       "loss": 0.0034,
+      "step": 101421
     },
     {
       "epoch": 4.5,
+      "learning_rate": 7.777195942669849e-05,
+      "loss": 0.0036,
+      "step": 103140
     },
     {
+      "epoch": 4.58,
+      "learning_rate": 7.721630689862494e-05,
       "loss": 0.0035,
+      "step": 104859
     },
     {
+      "epoch": 4.65,
+      "learning_rate": 7.666065437055139e-05,
+      "loss": 0.0034,
+      "step": 106578
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 7.610500184247783e-05,
+      "loss": 0.0034,
+      "step": 108297
     },
     {
       "epoch": 4.8,
+      "learning_rate": 7.554934931440431e-05,
+      "loss": 0.0036,
+      "step": 110016
     },
     {
+      "epoch": 4.88,
+      "learning_rate": 7.499369678633076e-05,
+      "loss": 0.0034,
+      "step": 111735
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 7.443804425825721e-05,
+      "loss": 0.0037,
+      "step": 113454
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.028013188391923904,
+      "eval_max_distance": 8,
       "eval_mean_distance": 0,
+      "eval_runtime": 13.4584,
+      "eval_samples_per_second": 18.65,
+      "eval_steps_per_second": 1.263,
+      "step": 114580
     },
     {
+      "epoch": 5.03,
+      "learning_rate": 7.388239173018366e-05,
+      "loss": 0.0033,
+      "step": 115173
     },
     {
       "epoch": 5.1,
+      "learning_rate": 7.332673920211012e-05,
+      "loss": 0.0031,
+      "step": 116892
     },
     {
+      "epoch": 5.18,
+      "learning_rate": 7.277108667403659e-05,
+      "loss": 0.0031,
+      "step": 118611
     },
     {
+      "epoch": 5.25,
+      "learning_rate": 7.221543414596303e-05,
+      "loss": 0.0032,
+      "step": 120330
+    },
+    {
+      "epoch": 5.33,
+      "learning_rate": 7.16597816178895e-05,
+      "loss": 0.0031,
+      "step": 122049
     },
     {
       "epoch": 5.4,
+      "learning_rate": 7.110412908981595e-05,
+      "loss": 0.0032,
+      "step": 123768
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 7.054847656174241e-05,
       "loss": 0.0031,
+      "step": 125487
     },
     {
+      "epoch": 5.55,
+      "learning_rate": 6.999282403366886e-05,
       "loss": 0.0032,
+      "step": 127206
     },
     {
+      "epoch": 5.63,
+      "learning_rate": 6.943717150559532e-05,
+      "loss": 0.0032,
+      "step": 128925
     },
     {
       "epoch": 5.7,
+      "learning_rate": 6.888151897752177e-05,
       "loss": 0.0032,
+      "step": 130644
     },
     {
+      "epoch": 5.78,
+      "learning_rate": 6.832586644944823e-05,
       "loss": 0.0031,
+      "step": 132363
     },
     {
+      "epoch": 5.85,
+      "learning_rate": 6.777021392137468e-05,
+      "loss": 0.0031,
+      "step": 134082
+    },
+    {
+      "epoch": 5.93,
+      "learning_rate": 6.721456139330115e-05,
       "loss": 0.0032,
+      "step": 135801
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.028835317119956017,
+      "eval_max_distance": 8,
       "eval_mean_distance": 0,
+      "eval_runtime": 13.4137,
+      "eval_samples_per_second": 18.712,
+      "eval_steps_per_second": 1.267,
+      "step": 137496
     },
     {
       "epoch": 6.0,
+      "learning_rate": 6.66589088652276e-05,
+      "loss": 0.0033,
+      "step": 137520
     },
     {
+      "epoch": 6.08,
+      "learning_rate": 6.610325633715405e-05,
+      "loss": 0.0028,
+      "step": 139239
     },
     {
+      "epoch": 6.15,
+      "learning_rate": 6.554760380908051e-05,
       "loss": 0.0026,
+      "step": 140958
+    },
+    {
+      "epoch": 6.23,
+      "learning_rate": 6.499195128100697e-05,
+      "loss": 0.0027,
+      "step": 142677
     },
     {
       "epoch": 6.3,
+      "learning_rate": 6.443629875293342e-05,
+      "loss": 0.0029,
+      "step": 144396
     },
     {
+      "epoch": 6.38,
+      "learning_rate": 6.388064622485987e-05,
       "loss": 0.0029,
+      "step": 146115
     },
     {
+      "epoch": 6.45,
+      "learning_rate": 6.332499369678633e-05,
+      "loss": 0.0029,
+      "step": 147834
     },
     {
+      "epoch": 6.53,
+      "learning_rate": 6.27693411687128e-05,
       "loss": 0.0028,
+      "step": 149553
     },
     {
+      "epoch": 6.6,
+      "learning_rate": 6.221368864063925e-05,
+      "loss": 0.0029,
+      "step": 151272
     },
     {
+      "epoch": 6.68,
+      "learning_rate": 6.16580361125657e-05,
+      "loss": 0.0029,
+      "step": 152991
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 6.110238358449216e-05,
+      "loss": 0.0029,
+      "step": 154710
+    },
+    {
+      "epoch": 6.83,
+      "learning_rate": 6.0546731056418614e-05,
+      "loss": 0.0028,
+      "step": 156429
     },
     {
       "epoch": 6.9,
+      "learning_rate": 5.999107852834507e-05,
+      "loss": 0.0029,
+      "step": 158148
     },
     {
+      "epoch": 6.98,
+      "learning_rate": 5.943542600027152e-05,
+      "loss": 0.003,
+      "step": 159867
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.030847659334540367,
+      "eval_max_distance": 8,
+      "eval_mean_distance": 0,
+      "eval_runtime": 13.4895,
+      "eval_samples_per_second": 18.607,
+      "eval_steps_per_second": 1.26,
+      "step": 160412
     },
     {
+      "epoch": 7.05,
+      "learning_rate": 5.887977347219798e-05,
       "loss": 0.0027,
+      "step": 161586
     },
     {
+      "epoch": 7.13,
+      "learning_rate": 5.832412094412444e-05,
       "loss": 0.0025,
+      "step": 163305
+    },
+    {
+      "epoch": 7.2,
+      "learning_rate": 5.7768468416050895e-05,
+      "loss": 0.0026,
+      "step": 165024
     },
     {
+      "epoch": 7.28,
+      "learning_rate": 5.7212815887977344e-05,
+      "loss": 0.0027,
+      "step": 166743
+    },
+    {
+      "epoch": 7.35,
+      "learning_rate": 5.665716335990381e-05,
       "loss": 0.0025,
+      "step": 168462
     },
     {
+      "epoch": 7.43,
+      "learning_rate": 5.610151083183026e-05,
+      "loss": 0.0026,
+      "step": 170181
     },
     {
       "epoch": 7.5,
+      "learning_rate": 5.554585830375671e-05,
       "loss": 0.0026,
+      "step": 171900
     },
     {
+      "epoch": 7.58,
+      "learning_rate": 5.499020577568318e-05,
       "loss": 0.0026,
+      "step": 173619
     },
     {
+      "epoch": 7.65,
+      "learning_rate": 5.443455324760963e-05,
       "loss": 0.0026,
+      "step": 175338
     },
     {
+      "epoch": 7.73,
+      "learning_rate": 5.387890071953609e-05,
       "loss": 0.0025,
+      "step": 177057
     },
     {
+      "epoch": 7.8,
+      "learning_rate": 5.332324819146254e-05,
       "loss": 0.0027,
+      "step": 178776
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 5.2767595663389e-05,
+      "loss": 0.0028,
+      "step": 180495
+    },
+    {
+      "epoch": 7.95,
+      "learning_rate": 5.2211943135315456e-05,
+      "loss": 0.0025,
+      "step": 182214
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.03048335202038288,
+      "eval_max_distance": 8,
       "eval_mean_distance": 0,
+      "eval_runtime": 13.5077,
+      "eval_samples_per_second": 18.582,
+      "eval_steps_per_second": 1.259,
+      "step": 183328
     },
     {
+      "epoch": 8.03,
+      "learning_rate": 5.1656290607241906e-05,
+      "loss": 0.0026,
+      "step": 183933
     },
     {
       "epoch": 8.1,
+      "learning_rate": 5.110063807916836e-05,
       "loss": 0.0023,
+      "step": 185652
     },
     {
+      "epoch": 8.18,
+      "learning_rate": 5.0544985551094825e-05,
+      "loss": 0.0024,
+      "step": 187371
     },
     {
+      "epoch": 8.25,
+      "learning_rate": 4.998933302302128e-05,
+      "loss": 0.0023,
+      "step": 189090
     },
     {
+      "epoch": 8.33,
+      "learning_rate": 4.943368049494773e-05,
+      "loss": 0.0024,
+      "step": 190809
     },
     {
+      "epoch": 8.4,
+      "learning_rate": 4.887802796687419e-05,
       "loss": 0.0024,
+      "step": 192528
     },
     {
+      "epoch": 8.48,
+      "learning_rate": 4.832237543880065e-05,
       "loss": 0.0025,
+      "step": 194247
     },
     {
+      "epoch": 8.55,
+      "learning_rate": 4.77667229107271e-05,
       "loss": 0.0024,
+      "step": 195966
     },
     {
+      "epoch": 8.63,
+      "learning_rate": 4.721107038265356e-05,
+      "loss": 0.0026,
+      "step": 197685
     },
     {
+      "epoch": 8.7,
+      "learning_rate": 4.665541785458001e-05,
       "loss": 0.0023,
+      "step": 199404
     },
     {
+      "epoch": 8.78,
+      "learning_rate": 4.6099765326506474e-05,
+      "loss": 0.0024,
+      "step": 201123
     },
     {
+      "epoch": 8.85,
+      "learning_rate": 4.5544112798432924e-05,
       "loss": 0.0024,
+      "step": 202842
     },
     {
+      "epoch": 8.93,
+      "learning_rate": 4.4988460270359386e-05,
+      "loss": 0.0025,
+      "step": 204561
     },
     {
+      "epoch": 9.0,
+      "eval_loss": 0.030335595831274986,
+      "eval_max_distance": 8,
+      "eval_mean_distance": 0,
+      "eval_runtime": 13.4109,
+      "eval_samples_per_second": 18.716,
+      "eval_steps_per_second": 1.268,
+      "step": 206244
     },
     {
+      "epoch": 9.0,
+      "learning_rate": 4.4432807742285836e-05,
+      "loss": 0.0026,
+      "step": 206280
     },
     {
+      "epoch": 9.08,
+      "learning_rate": 4.38771552142123e-05,
+      "loss": 0.0021,
+      "step": 207999
     },
     {
+      "epoch": 9.15,
+      "learning_rate": 4.332150268613875e-05,
       "loss": 0.0022,
+      "step": 209718
     },
     {
+      "epoch": 9.23,
+      "learning_rate": 4.2765850158065204e-05,
+      "loss": 0.0022,
+      "step": 211437
     },
     {
+      "epoch": 9.3,
+      "learning_rate": 4.221019762999166e-05,
+      "loss": 0.0023,
+      "step": 213156
     },
     {
+      "epoch": 9.38,
+      "learning_rate": 4.165454510191812e-05,
       "loss": 0.0023,
+      "step": 214875
     },
     {
+      "epoch": 9.45,
+      "learning_rate": 4.109889257384457e-05,
+      "loss": 0.0023,
+      "step": 216594
     },
     {
+      "epoch": 9.53,
+      "learning_rate": 4.054324004577103e-05,
       "loss": 0.0023,
+      "step": 218313
     },
     {
+      "epoch": 9.6,
+      "learning_rate": 3.998758751769749e-05,
+      "loss": 0.0024,
+      "step": 220032
     },
     {
+      "epoch": 9.68,
+      "learning_rate": 3.943193498962394e-05,
+      "loss": 0.0024,
+      "step": 221751
     },
     {
+      "epoch": 9.75,
+      "learning_rate": 3.88762824615504e-05,
+      "loss": 0.0022,
+      "step": 223470
     },
     {
+      "epoch": 9.83,
+      "learning_rate": 3.8320629933476854e-05,
+      "loss": 0.0023,
+      "step": 225189
     },
     {
+      "epoch": 9.9,
+      "learning_rate": 3.776497740540331e-05,
+      "loss": 0.0024,
+      "step": 226908
     },
     {
+      "epoch": 9.98,
+      "learning_rate": 3.7209324877329766e-05,
+      "loss": 0.0023,
+      "step": 228627
     },
     {
+      "epoch": 10.0,
+      "eval_loss": 0.034065987914800644,
+      "eval_max_distance": 8,
+      "eval_mean_distance": 0,
+      "eval_runtime": 13.4726,
+      "eval_samples_per_second": 18.63,
+      "eval_steps_per_second": 1.262,
+      "step": 229160
     },
     {
+      "epoch": 10.05,
+      "learning_rate": 3.665367234925622e-05,
+      "loss": 0.0021,
+      "step": 230346
     },
     {
+      "epoch": 10.13,
+      "learning_rate": 3.609801982118268e-05,
+      "loss": 0.0021,
+      "step": 232065
     },
     {
+      "epoch": 10.2,
+      "learning_rate": 3.5542367293109135e-05,
+      "loss": 0.0021,
+      "step": 233784
     },
     {
+      "epoch": 10.28,
+      "learning_rate": 3.498671476503559e-05,
+      "loss": 0.0022,
+      "step": 235503
     },
     {
+      "epoch": 10.35,
+      "learning_rate": 3.443106223696205e-05,
+      "loss": 0.0021,
+      "step": 237222
     },
     {
+      "epoch": 10.43,
+      "learning_rate": 3.38754097088885e-05,
+      "loss": 0.0022,
+      "step": 238941
     },
     {
+      "epoch": 10.5,
+      "learning_rate": 3.331975718081496e-05,
+      "loss": 0.0021,
+      "step": 240660
     },
     {
+      "epoch": 10.58,
+      "learning_rate": 3.276410465274141e-05,
+      "loss": 0.0021,
+      "step": 242379
     },
     {
+      "epoch": 10.65,
+      "learning_rate": 3.220845212466787e-05,
+      "loss": 0.0021,
+      "step": 244098
     },
     {
+      "epoch": 10.73,
+      "learning_rate": 3.165279959659433e-05,
+      "loss": 0.0022,
+      "step": 245817
     },
     {
+      "epoch": 10.8,
+      "learning_rate": 3.1097147068520784e-05,
+      "loss": 0.0022,
+      "step": 247536
     },
     {
+      "epoch": 10.88,
+      "learning_rate": 3.054149454044724e-05,
       "loss": 0.002,
+      "step": 249255
     },
     {
+      "epoch": 10.95,
+      "learning_rate": 2.9985842012373693e-05,
+      "loss": 0.0022,
+      "step": 250974
     },
     {
+      "epoch": 11.0,
+      "eval_loss": 0.03288768604397774,
+      "eval_max_distance": 8,
       "eval_mean_distance": 0,
+      "eval_runtime": 13.3832,
+      "eval_samples_per_second": 18.755,
+      "eval_steps_per_second": 1.27,
+      "step": 252076
     },
     {
+      "epoch": 11.03,
+      "learning_rate": 2.9430189484300152e-05,
+      "loss": 0.0022,
+      "step": 252693
     },
     {
+      "epoch": 11.1,
+      "learning_rate": 2.8874536956226605e-05,
       "loss": 0.002,
+      "step": 254412
     },
     {
+      "epoch": 11.18,
+      "learning_rate": 2.8318884428153065e-05,
+      "loss": 0.002,
+      "step": 256131
     },
     {
+      "epoch": 11.25,
+      "learning_rate": 2.7763231900079517e-05,
+      "loss": 0.002,
+      "step": 257850
     },
     {
+      "epoch": 11.33,
+      "learning_rate": 2.7207579372005977e-05,
+      "loss": 0.0021,
+      "step": 259569
     },
     {
+      "epoch": 11.4,
+      "learning_rate": 2.665192684393243e-05,
+      "loss": 0.0019,
+      "step": 261288
     },
     {
+      "epoch": 11.48,
+      "learning_rate": 2.6096274315858886e-05,
+      "loss": 0.002,
+      "step": 263007
     },
     {
+      "epoch": 11.55,
+      "learning_rate": 2.5540621787785342e-05,
+      "loss": 0.002,
+      "step": 264726
     },
     {
+      "epoch": 11.63,
+      "learning_rate": 2.4984969259711798e-05,
+      "loss": 0.002,
+      "step": 266445
     },
     {
+      "epoch": 11.7,
+      "learning_rate": 2.4429316731638254e-05,
+      "loss": 0.0019,
+      "step": 268164
     },
     {
+      "epoch": 11.78,
+      "learning_rate": 2.387366420356471e-05,
+      "loss": 0.0021,
+      "step": 269883
     },
     {
+      "epoch": 11.85,
+      "learning_rate": 2.3318011675491167e-05,
+      "loss": 0.0021,
+      "step": 271602
     },
     {
+      "epoch": 11.93,
+      "learning_rate": 2.2762359147417623e-05,
+      "loss": 0.0019,
+      "step": 273321
     },
     {
+      "epoch": 12.0,
+      "eval_loss": 0.03355114161968231,
+      "eval_max_distance": 8,
       "eval_mean_distance": 0,
+      "eval_runtime": 13.4567,
+      "eval_samples_per_second": 18.652,
+      "eval_steps_per_second": 1.263,
+      "step": 274992
     },
     {
+      "epoch": 12.0,
+      "learning_rate": 2.220670661934408e-05,
+      "loss": 0.0021,
+      "step": 275040
     },
     {
+      "epoch": 12.08,
+      "learning_rate": 2.1651054091270535e-05,
+      "loss": 0.002,
+      "step": 276759
     },
     {
+      "epoch": 12.15,
+      "learning_rate": 2.109540156319699e-05,
+      "loss": 0.002,
+      "step": 278478
     },
     {
+      "epoch": 12.23,
+      "learning_rate": 2.0539749035123444e-05,
+      "loss": 0.0018,
+      "step": 280197
     },
     {
+      "epoch": 12.3,
+      "learning_rate": 1.9984096507049904e-05,
+      "loss": 0.002,
+      "step": 281916
     },
     {
+      "epoch": 12.38,
+      "learning_rate": 1.942844397897636e-05,
+      "loss": 0.0019,
+      "step": 283635
     },
     {
+      "epoch": 12.45,
+      "learning_rate": 1.8872791450902816e-05,
+      "loss": 0.0018,
+      "step": 285354
     },
     {
+      "epoch": 12.53,
+      "learning_rate": 1.8317138922829272e-05,
+      "loss": 0.0019,
+      "step": 287073
     },
     {
+      "epoch": 12.6,
+      "learning_rate": 1.776148639475573e-05,
+      "loss": 0.0018,
+      "step": 288792
     },
     {
+      "epoch": 12.68,
+      "learning_rate": 1.7205833866682185e-05,
+      "loss": 0.0019,
+      "step": 290511
     },
     {
+      "epoch": 12.75,
+      "learning_rate": 1.665018133860864e-05,
+      "loss": 0.0019,
+      "step": 292230
     },
     {
+      "epoch": 12.83,
+      "learning_rate": 1.6094528810535094e-05,
+      "loss": 0.0021,
+      "step": 293949
     },
     {
+      "epoch": 12.9,
+      "learning_rate": 1.553887628246155e-05,
+      "loss": 0.0019,
+      "step": 295668
     },
     {
+      "epoch": 12.98,
+      "learning_rate": 1.4983223754388006e-05,
+      "loss": 0.002,
+      "step": 297387
     },
     {
+      "epoch": 13.0,
+      "eval_loss": 0.035788267850875854,
+      "eval_max_distance": 8,
       "eval_mean_distance": 0,
+      "eval_runtime": 13.4958,
+      "eval_samples_per_second": 18.598,
+      "eval_steps_per_second": 1.26,
+      "step": 297908
     },
     {
+      "epoch": 13.05,
+      "learning_rate": 1.4427571226314462e-05,
+      "loss": 0.0019,
+      "step": 299106
     },
     {
+      "epoch": 13.13,
+      "learning_rate": 1.3871918698240918e-05,
+      "loss": 0.0018,
+      "step": 300825
     },
     {
+      "epoch": 13.2,
+      "learning_rate": 1.3316266170167374e-05,
+      "loss": 0.0018,
+      "step": 302544
     },
     {
+      "epoch": 13.28,
+      "learning_rate": 1.276061364209383e-05,
+      "loss": 0.0018,
+      "step": 304263
     },
     {
+      "epoch": 13.35,
+      "learning_rate": 1.2204961114020287e-05,
+      "loss": 0.0018,
+      "step": 305982
     },
     {
+      "epoch": 13.43,
+      "learning_rate": 1.1649308585946743e-05,
+      "loss": 0.0018,
+      "step": 307701
     },
     {
+      "epoch": 13.5,
+      "learning_rate": 1.1093656057873199e-05,
+      "loss": 0.0019,
+      "step": 309420
     },
     {
+      "epoch": 13.58,
+      "learning_rate": 1.0538003529799655e-05,
+      "loss": 0.0018,
+      "step": 311139
     },
     {
+      "epoch": 13.65,
+      "learning_rate": 9.982351001726111e-06,
+      "loss": 0.0017,
+      "step": 312858
     },
     {
+      "epoch": 13.73,
+      "learning_rate": 9.426698473652567e-06,
+      "loss": 0.0018,
+      "step": 314577
     },
     {
+      "epoch": 13.8,
+      "learning_rate": 8.871045945579024e-06,
+      "loss": 0.002,
+      "step": 316296
     },
     {
+      "epoch": 13.88,
+      "learning_rate": 8.31539341750548e-06,
+      "loss": 0.0018,
+      "step": 318015
     },
     {
+      "epoch": 13.95,
+      "learning_rate": 7.759740889431934e-06,
+      "loss": 0.0018,
+      "step": 319734
     },
     {
+      "epoch": 14.0,
+      "eval_loss": 0.03550655022263527,
+      "eval_max_distance": 8,
       "eval_mean_distance": 0,
+      "eval_runtime": 13.4713,
+      "eval_samples_per_second": 18.632,
+      "eval_steps_per_second": 1.262,
+      "step": 320824
     },
     {
+      "epoch": 14.03,
+      "learning_rate": 7.204088361358391e-06,
+      "loss": 0.0017,
+      "step": 321453
     },
     {
+      "epoch": 14.1,
+      "learning_rate": 6.648435833284847e-06,
+      "loss": 0.0018,
+      "step": 323172
     },
     {
+      "epoch": 14.18,
+      "learning_rate": 6.092783305211304e-06,
+      "loss": 0.0018,
+      "step": 324891
     },
     {
+      "epoch": 14.25,
+      "learning_rate": 5.537130777137759e-06,
+      "loss": 0.0017,
+      "step": 326610
     },
     {
+      "epoch": 14.33,
+      "learning_rate": 4.981478249064216e-06,
+      "loss": 0.0018,
+      "step": 328329
     },
     {
+      "epoch": 14.4,
+      "learning_rate": 4.425825720990671e-06,
+      "loss": 0.0018,
+      "step": 330048
     },
     {
+      "epoch": 14.48,
+      "learning_rate": 3.8701731929171274e-06,
+      "loss": 0.0018,
+      "step": 331767
     },
     {
+      "epoch": 14.55,
+      "learning_rate": 3.3145206648435836e-06,
+      "loss": 0.0019,
+      "step": 333486
     },
     {
+      "epoch": 14.63,
+      "learning_rate": 2.7588681367700398e-06,
+      "loss": 0.0017,
+      "step": 335205
     },
     {
+      "epoch": 14.7,
+      "learning_rate": 2.2032156086964955e-06,
+      "loss": 0.0018,
+      "step": 336924
     },
     {
+      "epoch": 14.78,
+      "learning_rate": 1.6475630806229517e-06,
+      "loss": 0.0017,
+      "step": 338643
     },
     {
+      "epoch": 14.85,
+      "learning_rate": 1.0919105525494076e-06,
+      "loss": 0.0018,
+      "step": 340362
     },
     {
+      "epoch": 14.93,
+      "learning_rate": 5.362580244758636e-07,
+      "loss": 0.0019,
+      "step": 342081
     },
     {
+      "epoch": 15.0,
+      "eval_loss": 0.03661360964179039,
+      "eval_max_distance": 8,
+      "eval_mean_distance": 0,
+      "eval_runtime": 13.3536,
+      "eval_samples_per_second": 18.796,
+      "eval_steps_per_second": 1.273,
+      "step": 343740
     },
     {
+      "epoch": 15.0,
+      "step": 343740,
+      "total_flos": 8.727792619277722e+16,
+      "train_loss": 0.0029792904397642345,
+      "train_runtime": 24306.5697,
+      "train_samples_per_second": 212.119,
+      "train_steps_per_second": 14.142
     }
   ],
+  "logging_steps": 1719,
+  "max_steps": 343740,
+  "num_train_epochs": 15,
+  "save_steps": 3438,
+  "total_flos": 8.727792619277722e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:768220270743ed53ef0cb8a00d97f4eba8645c310d633cf26655e6848b4b3523
 size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:19cad5fdc011eae68aae9d7cd252dcf011f18199df3fd5c6b107c8e3cbed177f
 size 4091