alexue4
/

text-normalization-ru-new

@@ -13,11 +13,11 @@ should probably proofread and complete it, then remove this comment. -->
 # text-normalization-ru-new
-This model is a fine-tuned version of [cointegrated/rut5-small](https://huggingface.co/cointegrated/rut5-small) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0664
 - Mean Distance: 0
-- Max Distance: 18
 ## Model description
@@ -37,68 +37,48 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.001
-- train_batch_size: 20
-- eval_batch_size: 20
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 50
 ### Training results
-| Training Loss | Epoch | Step   | Validation Loss | Max Distance | Mean Distance |
-|:-------------:|:-----:|:------:|:---------------:|:------------:|:-------------:|
-| 0.2198        | 1.0   | 15301  | 0.7378          | 206          | 16            |
-| 0.1431        | 2.0   | 23102  | 0.9838          | 183          | 22            |
-| 0.1014        | 3.0   | 34653  | 0.5183          | 122          | 13            |
-| 0.0818        | 4.0   | 46204  | 0.3151          | 94           | 7             |
-| 0.07          | 5.0   | 57755  | 0.4898          | 100          | 12            |
-| 0.0555        | 6.0   | 69306  | 0.3159          | 99           | 8             |
-| 0.0442        | 7.0   | 80857  | 0.2628          | 91           | 6             |
-| 0.0358        | 8.0   | 92408  | 0.2342          | 69           | 5             |
-| 0.0299        | 9.0   | 103959 | 0.1100          | 63           | 2             |
-| 0.0252        | 10.0  | 115510 | 0.0934          | 51           | 1             |
-| 0.022         | 11.0  | 127061 | 0.1330          | 53           | 3             |
-| 0.019         | 12.0  | 138612 | 0.1217          | 51           | 2             |
-| 0.0163        | 13.0  | 150163 | 0.0772          | 37           | 1             |
-| 0.0145        | 14.0  | 161714 | 0.1268          | 65           | 2             |
-| 0.0131        | 15.0  | 173265 | 0.0883          | 34           | 1             |
-| 0.0115        | 16.0  | 184816 | 0.0709          | 30           | 1             |
-| 0.0104        | 17.0  | 196367 | 0.0669          | 38           | 1             |
-| 0.0094        | 18.0  | 207918 | 0.0667          | 29           | 0             |
-| 0.0086        | 19.0  | 219469 | 0.0641          | 27           | 0             |
-| 0.0078        | 20.0  | 231020 | 0.0651          | 0            | 22            |
-| 0.007         | 21.0  | 242571 | 0.0651          | 0            | 33            |
-| 0.0064        | 22.0  | 254122 | 0.0605          | 0            | 31            |
-| 0.0059        | 23.0  | 265673 | 0.0561          | 0            | 25            |
-| 0.0053        | 24.0  | 277224 | 0.0567          | 0            | 36            |
-| 0.0049        | 25.0  | 288775 | 0.0557          | 0            | 25            |
-| 0.0045        | 26.0  | 300326 | 0.0523          | 0            | 26            |
-| 0.0041        | 27.0  | 311877 | 0.0577          | 0            | 25            |
-| 0.0038        | 28.0  | 323428 | 0.0577          | 0            | 32            |
-| 0.0033        | 29.0  | 334979 | 0.0575          | 0            | 20            |
-| 0.0031        | 30.0  | 346530 | 0.0562          | 0            | 16            |
-| 0.0026        | 31.0  | 358081 | 0.0596          | 0            | 15            |
-| 0.0026        | 32.0  | 369632 | 0.0617          | 0            | 30            |
-| 0.0024        | 33.0  | 381183 | 0.0572          | 0            | 20            |
-| 0.0022        | 34.0  | 392734 | 0.0557          | 0            | 19            |
-| 0.002         | 35.0  | 404285 | 0.0612          | 0            | 17            |
-| 0.0017        | 36.0  | 415836 | 0.0576          | 0            | 14            |
-| 0.0016        | 37.0  | 427387 | 0.0606          | 0            | 16            |
-| 0.0015        | 38.0  | 438938 | 0.0570          | 0            | 24            |
-| 0.0013        | 39.0  | 450489 | 0.0594          | 0            | 24            |
-| 0.0012        | 40.0  | 462040 | 0.0603          | 0            | 24            |
-| 0.001         | 41.0  | 473591 | 0.0642          | 0            | 20            |
-| 0.0009        | 42.0  | 485142 | 0.0638          | 0            | 29            |
-| 0.0008        | 43.0  | 496693 | 0.0659          | 0            | 29            |
-| 0.0007        | 44.0  | 508244 | 0.0672          | 0            | 29            |
-| 0.0007        | 45.0  | 519795 | 0.0662          | 0            | 19            |
-| 0.0006        | 46.0  | 531346 | 0.0666          | 0            | 24            |
-| 0.0006        | 47.0  | 542897 | 0.0690          | 0            | 22            |
-| 0.0005        | 48.0  | 554448 | 0.0670          | 0            | 15            |
-| 0.0005        | 49.0  | 565999 | 0.0662          | 0            | 18            |
-| 0.0004        | 50.0  | 577550 | 0.0664          | 0            | 18            |
 ### Framework versions

 # text-normalization-ru-new
+This model is a fine-tuned version of [cointegrated/rut5-small](https://huggingface.co/cointegrated/rut5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0985
 - Mean Distance: 0
+- Max Distance: 9
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.001
+- train_batch_size: 30
+- eval_batch_size: 30
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 30
 ### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Mean Distance | Max Distance |
+|:-------------:|:-----:|:-----:|:---------------:|:-------------:|:------------:|
+| 0.181         | 1.0   | 2598  | 0.2140          | 4             | 36           |
+| 0.1067        | 2.0   | 5196  | 0.1416          | 2             | 29           |
+| 0.0801        | 3.0   | 7794  | 0.1098          | 2             | 22           |
+| 0.0575        | 4.0   | 10392 | 0.1081          | 2             | 18           |
+| 0.0452        | 5.0   | 12990 | 0.0897          | 1             | 14           |
+| 0.0372        | 6.0   | 15588 | 0.0720          | 1             | 15           |
+| 0.0323        | 7.0   | 18186 | 0.0840          | 1             | 12           |
+| 0.0267        | 8.0   | 20784 | 0.0768          | 1             | 16           |
+| 0.0231        | 9.0   | 23382 | 0.0697          | 1             | 10           |
+| 0.0199        | 10.0  | 25980 | 0.0717          | 1             | 9            |
+| 0.0168        | 11.0  | 28578 | 0.0812          | 1             | 16           |
+| 0.0148        | 12.0  | 31176 | 0.0961          | 1             | 12           |
+| 0.0128        | 13.0  | 33774 | 0.0823          | 1             | 9            |
+| 0.0112        | 14.0  | 36372 | 0.0766          | 1             | 12           |
+| 0.0093        | 15.0  | 38970 | 0.0713          | 1             | 9            |
+| 0.0083        | 16.0  | 41568 | 0.0847          | 1             | 14           |
+| 0.0076        | 17.0  | 44166 | 0.0863          | 1             | 11           |
+| 0.0064        | 18.0  | 46764 | 0.0830          | 1             | 14           |
+| 0.0054        | 19.0  | 49362 | 0.0884          | 1             | 11           |
+| 0.0052        | 20.0  | 51960 | 0.0821          | 1             | 10           |
+| 0.0045        | 21.0  | 54558 | 0.0915          | 1             | 14           |
+| 0.0037        | 22.0  | 57156 | 0.0931          | 1             | 14           |
+| 0.0036        | 23.0  | 59754 | 0.0941          | 1             | 9            |
+| 0.0028        | 24.0  | 62352 | 0.0861          | 1             | 13           |
+| 0.0026        | 25.0  | 64950 | 0.0912          | 1             | 12           |
+| 0.0024        | 26.0  | 67548 | 0.0916          | 0             | 9            |
+| 0.002         | 27.0  | 70146 | 0.0888          | 0             | 9            |
+| 0.0017        | 28.0  | 72744 | 0.0888          | 0             | 9            |
+| 0.0017        | 29.0  | 75342 | 0.0952          | 0             | 9            |
+| 0.0014        | 30.0  | 77940 | 0.0985          | 0             | 9            |
 ### Framework versions

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdc958f1006ef7ccf3b2642547782a3b93fe5e10a96ecc3ad1689478196ee825
 size 258643461

 version https://git-lfs.github.com/spec/v1
+oid sha256:18151e9614a6f5186bbe2400883a83025ffebc2e1a09f7899f724917c104504e
 size 258643461

trainer_state.json CHANGED Viewed

@@ -1,1434 +1,1528 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 50.0,
   "eval_steps": 500,
-  "global_step": 577550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 1.3071041108424287e-08,
-      "loss": 13.0422,
       "step": 1
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 5.000980328083132e-05,
-      "loss": 1.5626,
-      "step": 3826
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 0.00010001960656166264,
-      "loss": 0.2997,
-      "step": 7652
     },
     {
       "epoch": 0.75,
-      "learning_rate": 0.00015002940984249396,
-      "loss": 0.2198,
-      "step": 11478
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.7378385066986084,
-      "eval_max_distance": 206,
-      "eval_mean_distance": 16,
-      "eval_runtime": 214.8198,
-      "eval_samples_per_second": 9.31,
-      "eval_steps_per_second": 0.624,
-      "step": 15301
     },
     {
-      "epoch": 1.32,
-      "learning_rate": 0.00026498138689290976,
-      "loss": 1.5195,
-      "step": 15304
     },
     {
-      "epoch": 1.66,
-      "learning_rate": 0.00033122673361613713,
-      "loss": 0.1366,
-      "step": 19130
     },
     {
-      "epoch": 1.99,
-      "learning_rate": 0.00039747208033936456,
-      "loss": 0.1431,
-      "step": 22956
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.983799397945404,
-      "eval_max_distance": 183,
-      "eval_mean_distance": 22,
-      "eval_runtime": 10.3439,
-      "eval_samples_per_second": 48.338,
-      "eval_steps_per_second": 2.417,
-      "step": 23102
     },
     {
-      "epoch": 2.32,
-      "learning_rate": 0.000463717427062592,
-      "loss": 0.1221,
-      "step": 26782
     },
     {
-      "epoch": 2.65,
-      "learning_rate": 0.0005299627737858195,
-      "loss": 0.0829,
-      "step": 30608
     },
     {
-      "epoch": 2.98,
-      "learning_rate": 0.0005962081205090468,
-      "loss": 0.1014,
-      "step": 34434
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 0.5182881951332092,
-      "eval_max_distance": 122,
-      "eval_mean_distance": 13,
-      "eval_runtime": 8.5861,
-      "eval_samples_per_second": 58.233,
-      "eval_steps_per_second": 2.912,
-      "step": 34653
     },
     {
-      "epoch": 3.31,
-      "learning_rate": 0.0006624534672322743,
-      "loss": 0.0865,
-      "step": 38260
     },
     {
-      "epoch": 3.64,
-      "learning_rate": 0.0007286988139555017,
-      "loss": 0.0645,
-      "step": 42086
     },
     {
-      "epoch": 3.97,
-      "learning_rate": 0.0007949441606787291,
-      "loss": 0.0818,
-      "step": 45912
     },
     {
-      "epoch": 4.0,
-      "eval_loss": 0.3150796592235565,
-      "eval_max_distance": 94,
-      "eval_mean_distance": 7,
-      "eval_runtime": 10.1617,
-      "eval_samples_per_second": 49.204,
-      "eval_steps_per_second": 2.46,
-      "step": 46204
     },
     {
-      "epoch": 4.31,
-      "learning_rate": 0.0008611895074019565,
-      "loss": 0.0713,
-      "step": 49738
     },
     {
-      "epoch": 4.64,
-      "learning_rate": 0.000927434854125184,
-      "loss": 0.0547,
-      "step": 53564
     },
     {
-      "epoch": 4.97,
-      "learning_rate": 0.0009936802008484113,
-      "loss": 0.07,
-      "step": 57390
     },
     {
-      "epoch": 5.0,
-      "eval_loss": 0.48977312445640564,
-      "eval_max_distance": 100,
-      "eval_mean_distance": 12,
-      "eval_runtime": 8.5226,
-      "eval_samples_per_second": 58.667,
-      "eval_steps_per_second": 2.933,
-      "step": 57755
     },
     {
-      "epoch": 5.3,
-      "learning_rate": 0.0009933416058253734,
-      "loss": 0.0632,
-      "step": 61216
     },
     {
-      "epoch": 5.63,
-      "learning_rate": 0.0009859810117450148,
-      "loss": 0.0462,
-      "step": 65042
     },
     {
-      "epoch": 5.96,
-      "learning_rate": 0.0009786204176646563,
-      "loss": 0.0555,
-      "step": 68868
     },
     {
-      "epoch": 6.0,
-      "eval_loss": 0.3158600926399231,
-      "eval_max_distance": 99,
-      "eval_mean_distance": 8,
-      "eval_runtime": 8.627,
-      "eval_samples_per_second": 57.958,
-      "eval_steps_per_second": 2.898,
-      "step": 69306
     },
     {
-      "epoch": 6.29,
-      "learning_rate": 0.0009712598235842977,
-      "loss": 0.0532,
-      "step": 72694
     },
     {
-      "epoch": 6.62,
-      "learning_rate": 0.000963899229503939,
-      "loss": 0.0367,
-      "step": 76520
     },
     {
-      "epoch": 6.96,
-      "learning_rate": 0.0009565386354235804,
-      "loss": 0.0442,
-      "step": 80346
     },
     {
-      "epoch": 7.0,
-      "eval_loss": 0.2628127336502075,
-      "eval_max_distance": 91,
-      "eval_mean_distance": 6,
-      "eval_runtime": 8.3481,
-      "eval_samples_per_second": 59.894,
-      "eval_steps_per_second": 2.995,
-      "step": 80857
     },
     {
-      "epoch": 7.29,
-      "learning_rate": 0.0009491780413432219,
-      "loss": 0.0455,
-      "step": 84172
     },
     {
-      "epoch": 7.62,
-      "learning_rate": 0.0009418174472628632,
-      "loss": 0.0307,
-      "step": 87998
     },
     {
-      "epoch": 7.95,
-      "learning_rate": 0.0009344568531825046,
-      "loss": 0.0358,
-      "step": 91824
     },
     {
-      "epoch": 8.0,
-      "eval_loss": 0.2341708391904831,
-      "eval_max_distance": 69,
-      "eval_mean_distance": 5,
-      "eval_runtime": 8.2389,
-      "eval_samples_per_second": 60.688,
-      "eval_steps_per_second": 3.034,
-      "step": 92408
     },
     {
-      "epoch": 8.28,
-      "learning_rate": 0.000927096259102146,
       "loss": 0.0397,
-      "step": 95650
     },
     {
-      "epoch": 8.61,
-      "learning_rate": 0.0009197356650217874,
-      "loss": 0.0261,
-      "step": 99476
     },
     {
-      "epoch": 8.94,
-      "learning_rate": 0.0009123750709414288,
-      "loss": 0.0299,
-      "step": 103302
     },
     {
-      "epoch": 9.0,
-      "eval_loss": 0.11001851409673691,
-      "eval_max_distance": 63,
-      "eval_mean_distance": 2,
-      "eval_runtime": 7.3095,
-      "eval_samples_per_second": 68.405,
-      "eval_steps_per_second": 3.42,
-      "step": 103959
     },
     {
-      "epoch": 9.27,
-      "learning_rate": 0.0009050144768610703,
-      "loss": 0.0346,
-      "step": 107128
     },
     {
-      "epoch": 9.61,
-      "learning_rate": 0.0008976538827807117,
-      "loss": 0.0225,
-      "step": 110954
     },
     {
-      "epoch": 9.94,
-      "learning_rate": 0.0008902932887003531,
-      "loss": 0.0252,
-      "step": 114780
     },
     {
-      "epoch": 10.0,
-      "eval_loss": 0.09344363212585449,
-      "eval_max_distance": 51,
-      "eval_mean_distance": 1,
-      "eval_runtime": 7.6397,
-      "eval_samples_per_second": 65.447,
-      "eval_steps_per_second": 3.272,
-      "step": 115510
     },
     {
-      "epoch": 10.27,
-      "learning_rate": 0.0008829326946199945,
-      "loss": 0.0308,
-      "step": 118606
     },
     {
-      "epoch": 10.6,
-      "learning_rate": 0.0008755721005396359,
-      "loss": 0.0194,
-      "step": 122432
     },
     {
-      "epoch": 10.93,
-      "learning_rate": 0.0008682115064592773,
-      "loss": 0.022,
-      "step": 126258
     },
     {
-      "epoch": 11.0,
-      "eval_loss": 0.13300806283950806,
-      "eval_max_distance": 53,
-      "eval_mean_distance": 3,
-      "eval_runtime": 7.8584,
-      "eval_samples_per_second": 63.626,
-      "eval_steps_per_second": 3.181,
-      "step": 127061
     },
     {
-      "epoch": 11.26,
-      "learning_rate": 0.0008608509123789186,
-      "loss": 0.028,
-      "step": 130084
     },
     {
-      "epoch": 11.59,
-      "learning_rate": 0.0008534903182985601,
-      "loss": 0.017,
-      "step": 133910
     },
     {
-      "epoch": 11.92,
-      "learning_rate": 0.0008461297242182014,
-      "loss": 0.019,
-      "step": 137736
     },
     {
-      "epoch": 12.0,
-      "eval_loss": 0.12166010588407516,
-      "eval_max_distance": 51,
-      "eval_mean_distance": 2,
-      "eval_runtime": 7.7916,
-      "eval_samples_per_second": 64.172,
-      "eval_steps_per_second": 3.209,
-      "step": 138612
     },
     {
-      "epoch": 12.26,
-      "learning_rate": 0.0008387691301378428,
-      "loss": 0.0252,
-      "step": 141562
     },
     {
-      "epoch": 12.59,
-      "learning_rate": 0.0008314085360574843,
-      "loss": 0.0151,
-      "step": 145388
     },
     {
-      "epoch": 12.92,
-      "learning_rate": 0.0008240479419771256,
-      "loss": 0.0163,
-      "step": 149214
     },
     {
-      "epoch": 13.0,
-      "eval_loss": 0.07717631012201309,
-      "eval_max_distance": 37,
-      "eval_mean_distance": 1,
-      "eval_runtime": 7.0966,
-      "eval_samples_per_second": 70.457,
-      "eval_steps_per_second": 3.523,
-      "step": 150163
     },
     {
-      "epoch": 13.25,
-      "learning_rate": 0.000816687347896767,
-      "loss": 0.0228,
-      "step": 153040
     },
     {
-      "epoch": 13.58,
-      "learning_rate": 0.0008093267538164085,
-      "loss": 0.0132,
-      "step": 156866
     },
     {
-      "epoch": 13.91,
-      "learning_rate": 0.0008019661597360498,
-      "loss": 0.0145,
-      "step": 160692
     },
     {
-      "epoch": 14.0,
-      "eval_loss": 0.12677042186260223,
-      "eval_max_distance": 65,
-      "eval_mean_distance": 2,
-      "eval_runtime": 7.3512,
-      "eval_samples_per_second": 68.016,
-      "eval_steps_per_second": 3.401,
-      "step": 161714
     },
     {
-      "epoch": 14.24,
-      "learning_rate": 0.0007946055656556912,
-      "loss": 0.0211,
-      "step": 164518
     },
     {
-      "epoch": 14.57,
-      "learning_rate": 0.0007872449715753325,
-      "loss": 0.0119,
-      "step": 168344
     },
     {
-      "epoch": 14.91,
-      "learning_rate": 0.000779884377494974,
-      "loss": 0.0131,
-      "step": 172170
     },
     {
-      "epoch": 15.0,
-      "eval_loss": 0.08834327012300491,
-      "eval_max_distance": 34,
       "eval_mean_distance": 1,
-      "eval_runtime": 7.4014,
-      "eval_samples_per_second": 67.555,
-      "eval_steps_per_second": 3.378,
-      "step": 173265
     },
     {
-      "epoch": 15.24,
-      "learning_rate": 0.0007725237834146154,
       "loss": 0.019,
-      "step": 175996
     },
     {
-      "epoch": 15.57,
-      "learning_rate": 0.0007651631893342567,
-      "loss": 0.0109,
-      "step": 179822
     },
     {
-      "epoch": 15.9,
-      "learning_rate": 0.0007578025952538982,
-      "loss": 0.0115,
-      "step": 183648
     },
     {
-      "epoch": 16.0,
-      "eval_loss": 0.07092861831188202,
-      "eval_max_distance": 30,
       "eval_mean_distance": 1,
-      "eval_runtime": 7.346,
-      "eval_samples_per_second": 68.064,
-      "eval_steps_per_second": 3.403,
-      "step": 184816
     },
     {
-      "epoch": 16.23,
-      "learning_rate": 0.0007504420011735396,
-      "loss": 0.0175,
-      "step": 187474
     },
     {
-      "epoch": 16.56,
-      "learning_rate": 0.0007430814070931809,
-      "loss": 0.0097,
-      "step": 191300
     },
     {
-      "epoch": 16.89,
-      "learning_rate": 0.0007357208130128224,
-      "loss": 0.0104,
-      "step": 195126
     },
     {
-      "epoch": 17.0,
-      "eval_loss": 0.06687292456626892,
-      "eval_max_distance": 38,
-      "eval_mean_distance": 1,
-      "eval_runtime": 7.1541,
-      "eval_samples_per_second": 69.89,
-      "eval_steps_per_second": 3.494,
-      "step": 196367
     },
     {
-      "epoch": 17.22,
-      "learning_rate": 0.0007283602189324637,
-      "loss": 0.0161,
-      "step": 198952
     },
     {
-      "epoch": 17.56,
-      "learning_rate": 0.0007209996248521051,
-      "loss": 0.0088,
-      "step": 202778
     },
     {
-      "epoch": 17.89,
-      "learning_rate": 0.0007136390307717465,
-      "loss": 0.0094,
-      "step": 206604
     },
     {
-      "epoch": 18.0,
-      "eval_loss": 0.06669158488512039,
-      "eval_max_distance": 29,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.7997,
-      "eval_samples_per_second": 73.532,
-      "eval_steps_per_second": 3.677,
-      "step": 207918
     },
     {
-      "epoch": 18.22,
-      "learning_rate": 0.0007062784366913879,
       "loss": 0.0144,
-      "step": 210430
     },
     {
-      "epoch": 18.55,
-      "learning_rate": 0.0006989178426110293,
-      "loss": 0.0081,
-      "step": 214256
     },
     {
-      "epoch": 18.88,
-      "learning_rate": 0.0006915572485306708,
-      "loss": 0.0086,
-      "step": 218082
     },
     {
-      "epoch": 19.0,
-      "eval_loss": 0.06412819027900696,
-      "eval_max_distance": 27,
-      "eval_mean_distance": 0,
-      "eval_runtime": 7.0833,
-      "eval_samples_per_second": 70.589,
-      "eval_steps_per_second": 3.529,
-      "step": 219469
     },
     {
-      "epoch": 19.21,
-      "learning_rate": 0.0006841966544503122,
-      "loss": 0.0075,
-      "step": 221908
     },
     {
-      "epoch": 19.54,
-      "learning_rate": 0.0006768360603699536,
-      "loss": 0.0075,
-      "step": 225734
     },
     {
-      "epoch": 19.87,
-      "learning_rate": 0.000669475466289595,
-      "loss": 0.0078,
-      "step": 229560
     },
     {
-      "epoch": 20.0,
-      "eval_loss": 0.06507006287574768,
-      "eval_max_distance": 22,
-      "eval_mean_distance": 0,
-      "eval_runtime": 8.9369,
-      "eval_samples_per_second": 55.948,
-      "eval_steps_per_second": 2.797,
-      "step": 231020
     },
     {
-      "epoch": 20.2,
-      "learning_rate": 0.0006621148722092364,
-      "loss": 0.0127,
-      "step": 233386
     },
     {
-      "epoch": 20.54,
-      "learning_rate": 0.0006547542781288778,
-      "loss": 0.0068,
-      "step": 237212
     },
     {
-      "epoch": 20.87,
-      "learning_rate": 0.0006473936840485191,
-      "loss": 0.007,
-      "step": 241038
     },
     {
-      "epoch": 21.0,
-      "eval_loss": 0.06505928188562393,
-      "eval_max_distance": 33,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.7396,
-      "eval_samples_per_second": 74.188,
-      "eval_steps_per_second": 3.709,
-      "step": 242571
     },
     {
-      "epoch": 21.2,
-      "learning_rate": 0.0006400330899681606,
       "loss": 0.0116,
-      "step": 244864
     },
     {
-      "epoch": 21.53,
-      "learning_rate": 0.000632672495887802,
-      "loss": 0.0064,
-      "step": 248690
     },
     {
-      "epoch": 21.86,
-      "learning_rate": 0.0006253119018074433,
-      "loss": 0.0064,
-      "step": 252516
     },
     {
-      "epoch": 22.0,
-      "eval_loss": 0.06048734113574028,
-      "eval_max_distance": 31,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.4223,
-      "eval_samples_per_second": 77.853,
-      "eval_steps_per_second": 3.893,
-      "step": 254122
     },
     {
-      "epoch": 22.19,
-      "learning_rate": 0.0006179513077270847,
-      "loss": 0.0105,
-      "step": 256342
     },
     {
-      "epoch": 22.52,
-      "learning_rate": 0.0006105907136467262,
-      "loss": 0.0059,
-      "step": 260168
     },
     {
-      "epoch": 22.85,
-      "learning_rate": 0.0006032301195663675,
-      "loss": 0.0059,
-      "step": 263994
     },
     {
-      "epoch": 23.0,
-      "eval_loss": 0.0561179518699646,
-      "eval_max_distance": 25,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.4339,
-      "eval_samples_per_second": 77.714,
-      "eval_steps_per_second": 3.886,
-      "step": 265673
     },
     {
-      "epoch": 23.19,
-      "learning_rate": 0.0005958695254860089,
-      "loss": 0.01,
-      "step": 267820
     },
     {
-      "epoch": 23.52,
-      "learning_rate": 0.0005885089314056503,
-      "loss": 0.0054,
-      "step": 271646
     },
     {
-      "epoch": 23.85,
-      "learning_rate": 0.0005811483373252917,
-      "loss": 0.0053,
-      "step": 275472
     },
     {
-      "epoch": 24.0,
-      "eval_loss": 0.05673111602663994,
-      "eval_max_distance": 36,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.5025,
-      "eval_samples_per_second": 76.893,
-      "eval_steps_per_second": 3.845,
-      "step": 277224
     },
     {
-      "epoch": 24.18,
-      "learning_rate": 0.0005737877432449331,
-      "loss": 0.0091,
-      "step": 279298
     },
     {
-      "epoch": 24.51,
-      "learning_rate": 0.0005664271491645745,
-      "loss": 0.005,
-      "step": 283124
     },
     {
-      "epoch": 24.84,
-      "learning_rate": 0.0005590665550842159,
-      "loss": 0.0049,
-      "step": 286950
     },
     {
-      "epoch": 25.0,
-      "eval_loss": 0.0556904599070549,
-      "eval_max_distance": 25,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.3704,
-      "eval_samples_per_second": 78.489,
-      "eval_steps_per_second": 3.924,
-      "step": 288775
     },
     {
-      "epoch": 25.17,
-      "learning_rate": 0.0005517059610038573,
-      "loss": 0.0086,
-      "step": 290776
     },
     {
-      "epoch": 25.5,
-      "learning_rate": 0.0005443453669234986,
-      "loss": 0.0047,
-      "step": 294602
     },
     {
-      "epoch": 25.84,
-      "learning_rate": 0.0005369847728431401,
-      "loss": 0.0045,
-      "step": 298428
     },
     {
-      "epoch": 26.0,
-      "eval_loss": 0.052325230091810226,
-      "eval_max_distance": 26,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.5774,
-      "eval_samples_per_second": 76.017,
-      "eval_steps_per_second": 3.801,
-      "step": 300326
     },
     {
-      "epoch": 26.17,
-      "learning_rate": 0.0005296241787627815,
-      "loss": 0.008,
-      "step": 302254
     },
     {
-      "epoch": 26.5,
-      "learning_rate": 0.0005222635846824228,
-      "loss": 0.0044,
-      "step": 306080
     },
     {
-      "epoch": 26.83,
-      "learning_rate": 0.0005149029906020643,
-      "loss": 0.0041,
-      "step": 309906
     },
     {
-      "epoch": 27.0,
-      "eval_loss": 0.05767456814646721,
-      "eval_max_distance": 25,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.3552,
-      "eval_samples_per_second": 78.676,
-      "eval_steps_per_second": 3.934,
-      "step": 311877
     },
     {
-      "epoch": 27.16,
-      "learning_rate": 0.0005075423965217056,
       "loss": 0.0073,
-      "step": 313732
     },
     {
-      "epoch": 27.49,
-      "learning_rate": 0.000500181802441347,
-      "loss": 0.004,
-      "step": 317558
     },
     {
-      "epoch": 27.82,
-      "learning_rate": 0.0004928212083609885,
-      "loss": 0.0038,
-      "step": 321384
     },
     {
-      "epoch": 28.0,
-      "eval_loss": 0.057724930346012115,
-      "eval_max_distance": 32,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.472,
-      "eval_samples_per_second": 77.256,
-      "eval_steps_per_second": 3.863,
-      "step": 323428
     },
     {
-      "epoch": 28.15,
-      "learning_rate": 0.0004854606142806299,
-      "loss": 0.0066,
-      "step": 325210
     },
     {
-      "epoch": 28.49,
-      "learning_rate": 0.00047810002020027127,
-      "loss": 0.0039,
-      "step": 329036
     },
     {
-      "epoch": 28.82,
-      "learning_rate": 0.00047073942611991265,
-      "loss": 0.0033,
-      "step": 332862
     },
     {
-      "epoch": 29.0,
-      "eval_loss": 0.05752771720290184,
-      "eval_max_distance": 20,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.3104,
-      "eval_samples_per_second": 79.234,
-      "eval_steps_per_second": 3.962,
-      "step": 334979
     },
     {
-      "epoch": 29.15,
-      "learning_rate": 0.00046337883203955403,
-      "loss": 0.0061,
-      "step": 336688
     },
     {
-      "epoch": 29.48,
-      "learning_rate": 0.00045601823795919546,
-      "loss": 0.0034,
-      "step": 340514
     },
     {
-      "epoch": 29.81,
-      "learning_rate": 0.00044865764387883684,
-      "loss": 0.0031,
-      "step": 344340
     },
     {
-      "epoch": 30.0,
-      "eval_loss": 0.05623897165060043,
-      "eval_max_distance": 16,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.2956,
-      "eval_samples_per_second": 79.42,
-      "eval_steps_per_second": 3.971,
-      "step": 346530
     },
     {
-      "epoch": 30.14,
-      "learning_rate": 0.0004412970497984782,
-      "loss": 0.0058,
-      "step": 348166
     },
     {
-      "epoch": 30.47,
-      "learning_rate": 0.00043393645571811965,
-      "loss": 0.0032,
-      "step": 351992
     },
     {
-      "epoch": 30.8,
-      "learning_rate": 0.0004265758616377611,
-      "loss": 0.0026,
-      "step": 355818
     },
     {
-      "epoch": 31.0,
-      "eval_loss": 0.05957825854420662,
-      "eval_max_distance": 15,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.4083,
-      "eval_samples_per_second": 78.023,
-      "eval_steps_per_second": 3.901,
-      "step": 358081
     },
     {
-      "epoch": 31.14,
-      "learning_rate": 0.00041921526755740247,
-      "loss": 0.0051,
-      "step": 359644
     },
     {
-      "epoch": 31.47,
-      "learning_rate": 0.00041185467347704385,
-      "loss": 0.0031,
-      "step": 363470
     },
     {
-      "epoch": 31.8,
-      "learning_rate": 0.0004044940793966853,
-      "loss": 0.0026,
-      "step": 367296
     },
     {
-      "epoch": 32.0,
-      "eval_loss": 0.06173785403370857,
-      "eval_max_distance": 30,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.2839,
-      "eval_samples_per_second": 79.568,
-      "eval_steps_per_second": 3.978,
-      "step": 369632
     },
     {
-      "epoch": 32.13,
-      "learning_rate": 0.00039713348531632666,
       "loss": 0.0047,
-      "step": 371122
     },
     {
-      "epoch": 32.46,
-      "learning_rate": 0.00038977289123596804,
-      "loss": 0.0028,
-      "step": 374948
     },
     {
-      "epoch": 32.79,
-      "learning_rate": 0.0003824122971556094,
-      "loss": 0.0024,
-      "step": 378774
     },
     {
-      "epoch": 33.0,
-      "eval_loss": 0.05716051906347275,
-      "eval_max_distance": 20,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.221,
-      "eval_samples_per_second": 80.373,
-      "eval_steps_per_second": 4.019,
-      "step": 381183
     },
     {
-      "epoch": 33.12,
-      "learning_rate": 0.00037505170307525085,
-      "loss": 0.0042,
-      "step": 382600
     },
     {
-      "epoch": 33.45,
-      "learning_rate": 0.00036769110899489223,
-      "loss": 0.0026,
-      "step": 386426
     },
     {
-      "epoch": 33.79,
-      "learning_rate": 0.0003603305149145336,
-      "loss": 0.0022,
-      "step": 390252
     },
     {
-      "epoch": 34.0,
-      "eval_loss": 0.05569161847233772,
-      "eval_max_distance": 19,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.2592,
-      "eval_samples_per_second": 79.883,
-      "eval_steps_per_second": 3.994,
-      "step": 392734
     },
     {
-      "epoch": 34.12,
-      "learning_rate": 0.000352969920834175,
-      "loss": 0.0039,
-      "step": 394078
     },
     {
-      "epoch": 34.45,
-      "learning_rate": 0.0003456093267538164,
-      "loss": 0.0024,
-      "step": 397904
     },
     {
-      "epoch": 34.78,
-      "learning_rate": 0.0003382487326734578,
-      "loss": 0.002,
-      "step": 401730
     },
     {
-      "epoch": 35.0,
-      "eval_loss": 0.06119859591126442,
-      "eval_max_distance": 17,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.2535,
-      "eval_samples_per_second": 79.955,
-      "eval_steps_per_second": 3.998,
-      "step": 404285
     },
     {
-      "epoch": 35.11,
-      "learning_rate": 0.0003308881385930992,
       "loss": 0.0035,
-      "step": 405556
     },
     {
-      "epoch": 35.44,
-      "learning_rate": 0.00032352754451274056,
-      "loss": 0.0023,
-      "step": 409382
     },
     {
-      "epoch": 35.77,
-      "learning_rate": 0.00031616695043238204,
-      "loss": 0.0017,
-      "step": 413208
     },
     {
-      "epoch": 36.0,
-      "eval_loss": 0.057597871869802475,
-      "eval_max_distance": 14,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.2578,
-      "eval_samples_per_second": 79.9,
-      "eval_steps_per_second": 3.995,
-      "step": 415836
     },
     {
-      "epoch": 36.1,
-      "learning_rate": 0.0003088063563520234,
-      "loss": 0.0032,
-      "step": 417034
     },
     {
-      "epoch": 36.43,
-      "learning_rate": 0.0003014457622716648,
-      "loss": 0.0021,
-      "step": 420860
     },
     {
-      "epoch": 36.77,
-      "learning_rate": 0.00029408516819130623,
-      "loss": 0.0016,
-      "step": 424686
     },
     {
-      "epoch": 37.0,
-      "eval_loss": 0.060558244585990906,
-      "eval_max_distance": 16,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.2656,
-      "eval_samples_per_second": 79.801,
-      "eval_steps_per_second": 3.99,
-      "step": 427387
     },
     {
-      "epoch": 37.1,
-      "learning_rate": 0.0002867245741109476,
-      "loss": 0.003,
-      "step": 428512
     },
     {
-      "epoch": 37.43,
-      "learning_rate": 0.000279363980030589,
-      "loss": 0.0019,
-      "step": 432338
     },
     {
-      "epoch": 37.76,
-      "learning_rate": 0.00027200338595023037,
-      "loss": 0.0015,
-      "step": 436164
     },
     {
-      "epoch": 38.0,
-      "eval_loss": 0.057046957314014435,
-      "eval_max_distance": 24,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.266,
-      "eval_samples_per_second": 79.796,
-      "eval_steps_per_second": 3.99,
-      "step": 438938
     },
     {
-      "epoch": 38.09,
-      "learning_rate": 0.0002646427918698718,
-      "loss": 0.0026,
-      "step": 439990
     },
     {
-      "epoch": 38.42,
-      "learning_rate": 0.0002572821977895132,
-      "loss": 0.0018,
-      "step": 443816
     },
     {
-      "epoch": 38.75,
-      "learning_rate": 0.00024992160370915456,
-      "loss": 0.0013,
-      "step": 447642
     },
     {
-      "epoch": 39.0,
-      "eval_loss": 0.059430696070194244,
-      "eval_max_distance": 24,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.2947,
-      "eval_samples_per_second": 79.432,
-      "eval_steps_per_second": 3.972,
-      "step": 450489
     },
     {
-      "epoch": 39.08,
-      "learning_rate": 0.00024256100962879597,
-      "loss": 0.0024,
-      "step": 451468
     },
     {
-      "epoch": 39.42,
-      "learning_rate": 0.00023520041554843737,
-      "loss": 0.0017,
-      "step": 455294
     },
     {
-      "epoch": 39.75,
-      "learning_rate": 0.00022783982146807878,
-      "loss": 0.0012,
-      "step": 459120
     },
     {
-      "epoch": 40.0,
-      "eval_loss": 0.06027701497077942,
-      "eval_max_distance": 24,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.2086,
-      "eval_samples_per_second": 80.533,
-      "eval_steps_per_second": 4.027,
-      "step": 462040
     },
     {
-      "epoch": 40.08,
-      "learning_rate": 0.00022047922738772016,
-      "loss": 0.0021,
-      "step": 462946
     },
     {
-      "epoch": 40.41,
-      "learning_rate": 0.00021311863330736156,
-      "loss": 0.0015,
-      "step": 466772
     },
     {
-      "epoch": 40.74,
-      "learning_rate": 0.00020575803922700294,
-      "loss": 0.001,
-      "step": 470598
     },
     {
-      "epoch": 41.0,
-      "eval_loss": 0.06419633328914642,
-      "eval_max_distance": 20,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.2439,
-      "eval_samples_per_second": 80.078,
-      "eval_steps_per_second": 4.004,
-      "step": 473591
     },
     {
-      "epoch": 41.07,
-      "learning_rate": 0.00019839744514664435,
-      "loss": 0.0019,
-      "step": 474424
     },
     {
-      "epoch": 41.4,
-      "learning_rate": 0.00019103685106628573,
-      "loss": 0.0014,
-      "step": 478250
     },
     {
-      "epoch": 41.73,
-      "learning_rate": 0.00018367625698592716,
-      "loss": 0.0009,
-      "step": 482076
     },
     {
-      "epoch": 42.0,
-      "eval_loss": 0.06380578130483627,
-      "eval_max_distance": 29,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.2294,
-      "eval_samples_per_second": 80.264,
-      "eval_steps_per_second": 4.013,
-      "step": 485142
     },
     {
-      "epoch": 42.07,
-      "learning_rate": 0.00017631566290556854,
-      "loss": 0.0016,
-      "step": 485902
     },
     {
-      "epoch": 42.4,
-      "learning_rate": 0.00016895506882520995,
-      "loss": 0.0013,
-      "step": 489728
     },
     {
-      "epoch": 42.73,
-      "learning_rate": 0.00016159447474485133,
-      "loss": 0.0008,
-      "step": 493554
     },
     {
-      "epoch": 43.0,
-      "eval_loss": 0.0659068301320076,
-      "eval_max_distance": 29,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.2148,
-      "eval_samples_per_second": 80.454,
-      "eval_steps_per_second": 4.023,
-      "step": 496693
     },
     {
-      "epoch": 43.06,
-      "learning_rate": 0.00015423388066449273,
-      "loss": 0.0014,
-      "step": 497380
     },
     {
-      "epoch": 43.39,
-      "learning_rate": 0.00014687328658413414,
-      "loss": 0.0012,
-      "step": 501206
     },
     {
-      "epoch": 43.72,
-      "learning_rate": 0.00013951269250377552,
-      "loss": 0.0007,
-      "step": 505032
     },
     {
-      "epoch": 44.0,
-      "eval_loss": 0.06715985387563705,
-      "eval_max_distance": 29,
       "eval_mean_distance": 0,
-      "eval_runtime": 6.224,
-      "eval_samples_per_second": 80.334,
-      "eval_steps_per_second": 4.017,
-      "step": 508244
     },
     {
-      "epoch": 44.05,
-      "learning_rate": 0.00013215209842341695,
-      "loss": 0.0012,
-      "step": 508858
     },
     {
-      "epoch": 44.38,
-      "learning_rate": 0.00012479150434305833,
-      "loss": 0.0011,
-      "step": 512684
     },
     {
-      "epoch": 44.72,
-      "learning_rate": 0.00011743091026269972,
-      "loss": 0.0007,
-      "step": 516510
     },
     {
-      "epoch": 45.0,
-      "eval_loss": 0.06622961163520813,
-      "eval_max_distance": 19,
       "eval_mean_distance": 0,
-      "eval_runtime": 6.2443,
-      "eval_samples_per_second": 80.072,
-      "eval_steps_per_second": 4.004,
-      "step": 519795
     },
     {
-      "epoch": 45.05,
-      "learning_rate": 0.00011007031618234111,
-      "loss": 0.0012,
-      "step": 520336
     },
     {
-      "epoch": 45.38,
-      "learning_rate": 0.0001027097221019825,
-      "loss": 0.001,
-      "step": 524162
     },
     {
-      "epoch": 45.71,
-      "learning_rate": 9.534912802162391e-05,
-      "loss": 0.0006,
-      "step": 527988
     },
     {
-      "epoch": 46.0,
-      "eval_loss": 0.06662679463624954,
-      "eval_max_distance": 24,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.231,
-      "eval_samples_per_second": 80.244,
-      "eval_steps_per_second": 4.012,
-      "step": 531346
     },
     {
-      "epoch": 46.04,
-      "learning_rate": 8.79885339412653e-05,
-      "loss": 0.001,
-      "step": 531814
     },
     {
-      "epoch": 46.37,
-      "learning_rate": 8.062793986090671e-05,
-      "loss": 0.0009,
-      "step": 535640
     },
     {
-      "epoch": 46.7,
-      "learning_rate": 7.32673457805481e-05,
-      "loss": 0.0006,
-      "step": 539466
     },
     {
-      "epoch": 47.0,
-      "eval_loss": 0.06897546350955963,
-      "eval_max_distance": 22,
       "eval_mean_distance": 0,
-      "eval_runtime": 6.1748,
-      "eval_samples_per_second": 80.974,
-      "eval_steps_per_second": 4.049,
-      "step": 542897
     },
     {
-      "epoch": 47.03,
-      "learning_rate": 6.590675170018951e-05,
-      "loss": 0.0008,
-      "step": 543292
     },
     {
-      "epoch": 47.37,
-      "learning_rate": 5.8546157619830895e-05,
-      "loss": 0.0009,
-      "step": 547118
     },
     {
-      "epoch": 47.7,
-      "learning_rate": 5.118556353947229e-05,
-      "loss": 0.0005,
-      "step": 550944
     },
     {
-      "epoch": 48.0,
-      "eval_loss": 0.06699105352163315,
-      "eval_max_distance": 15,
-      "eval_mean_distance": 0,
-      "eval_runtime": 6.2182,
-      "eval_samples_per_second": 80.408,
-      "eval_steps_per_second": 4.02,
-      "step": 554448
     },
     {
-      "epoch": 48.03,
-      "learning_rate": 4.3824969459113694e-05,
-      "loss": 0.0007,
-      "step": 554770
     },
     {
-      "epoch": 48.36,
-      "learning_rate": 3.6464375378755086e-05,
-      "loss": 0.0008,
-      "step": 558596
     },
     {
-      "epoch": 48.69,
-      "learning_rate": 2.9103781298396486e-05,
-      "loss": 0.0005,
-      "step": 562422
     },
     {
-      "epoch": 49.0,
-      "eval_loss": 0.06619732826948166,
-      "eval_max_distance": 18,
       "eval_mean_distance": 0,
-      "eval_runtime": 6.1996,
-      "eval_samples_per_second": 80.65,
-      "eval_steps_per_second": 4.033,
-      "step": 565999
     },
     {
-      "epoch": 49.02,
-      "learning_rate": 2.174318721803788e-05,
-      "loss": 0.0006,
-      "step": 566248
     },
     {
-      "epoch": 49.35,
-      "learning_rate": 1.4382593137679277e-05,
-      "loss": 0.0008,
-      "step": 570074
     },
     {
-      "epoch": 49.68,
-      "learning_rate": 7.021999057320674e-06,
-      "loss": 0.0004,
-      "step": 573900
     },
     {
-      "epoch": 50.0,
-      "eval_loss": 0.06643164157867432,
-      "eval_max_distance": 18,
       "eval_mean_distance": 0,
-      "eval_runtime": 6.1338,
-      "eval_samples_per_second": 81.515,
-      "eval_steps_per_second": 4.076,
-      "step": 577550
-    },
-    {
-      "epoch": 50.0,
-      "step": 577550,
-      "total_flos": 1.5364586760247296e+17,
-      "train_loss": 0.0020910642477260833,
-      "train_runtime": 25597.0641,
-      "train_samples_per_second": 451.228,
-      "train_steps_per_second": 22.563
     }
   ],
-  "logging_steps": 3826,
-  "max_steps": 577550,
-  "num_train_epochs": 50,
-  "save_steps": 7651,
-  "total_flos": 1.5364586760247296e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 30.0,
   "eval_steps": 500,
+  "global_step": 77940,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 1.2830382345393893e-07,
+      "loss": 13.6904,
       "step": 1
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 5.003849114703618e-05,
+      "loss": 5.273,
+      "step": 390
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 0.00010007698229407236,
+      "loss": 0.4624,
+      "step": 780
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00015011547344110854,
+      "loss": 0.3258,
+      "step": 1170
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020015396458814472,
+      "loss": 0.2553,
+      "step": 1560
     },
     {
       "epoch": 0.75,
+      "learning_rate": 0.0002501924557351809,
+      "loss": 0.2143,
+      "step": 1950
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0003002309468822171,
+      "loss": 0.181,
+      "step": 2340
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.21401263773441315,
+      "eval_max_distance": 36,
+      "eval_mean_distance": 4,
+      "eval_runtime": 0.4225,
+      "eval_samples_per_second": 118.338,
+      "eval_steps_per_second": 4.734,
+      "step": 2598
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0003502694380292533,
+      "loss": 0.1557,
+      "step": 2730
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00040030792917628943,
+      "loss": 0.1402,
+      "step": 3120
     },
     {
+      "epoch": 1.35,
+      "learning_rate": 0.00045034642032332564,
+      "loss": 0.1283,
+      "step": 3510
     },
     {
+      "epoch": 1.5,
+      "learning_rate": 0.0005003849114703618,
+      "loss": 0.1194,
+      "step": 3900
     },
     {
+      "epoch": 1.65,
+      "learning_rate": 0.0005504234026173979,
+      "loss": 0.1158,
+      "step": 4290
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.0006004618937644341,
+      "loss": 0.108,
+      "step": 4680
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0006505003849114704,
+      "loss": 0.1067,
+      "step": 5070
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.14157189428806305,
+      "eval_max_distance": 29,
+      "eval_mean_distance": 2,
+      "eval_runtime": 0.4066,
+      "eval_samples_per_second": 122.96,
+      "eval_steps_per_second": 4.918,
+      "step": 5196
     },
     {
+      "epoch": 2.1,
+      "learning_rate": 0.0007005388760585066,
+      "loss": 0.0924,
+      "step": 5460
     },
     {
+      "epoch": 2.25,
+      "learning_rate": 0.0007505773672055427,
+      "loss": 0.0927,
+      "step": 5850
     },
     {
+      "epoch": 2.4,
+      "learning_rate": 0.0008006158583525789,
+      "loss": 0.0872,
+      "step": 6240
     },
     {
+      "epoch": 2.55,
+      "learning_rate": 0.0008506543494996151,
+      "loss": 0.0841,
+      "step": 6630
     },
     {
+      "epoch": 2.7,
+      "learning_rate": 0.0009006928406466513,
+      "loss": 0.0808,
+      "step": 7020
     },
     {
+      "epoch": 2.85,
+      "learning_rate": 0.0009507313317936874,
+      "loss": 0.0801,
+      "step": 7410
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 0.10980188101530075,
+      "eval_max_distance": 22,
+      "eval_mean_distance": 2,
+      "eval_runtime": 0.4052,
+      "eval_samples_per_second": 123.401,
+      "eval_steps_per_second": 4.936,
+      "step": 7794
     },
     {
+      "epoch": 3.0,
+      "learning_rate": 0.0009999144641176974,
+      "loss": 0.0778,
+      "step": 7800
     },
     {
+      "epoch": 3.15,
+      "learning_rate": 0.0009943546317680268,
+      "loss": 0.0684,
+      "step": 8190
     },
     {
+      "epoch": 3.3,
+      "learning_rate": 0.000988794799418356,
+      "loss": 0.0692,
+      "step": 8580
     },
     {
+      "epoch": 3.45,
+      "learning_rate": 0.0009832349670686853,
+      "loss": 0.0629,
+      "step": 8970
     },
     {
+      "epoch": 3.6,
+      "learning_rate": 0.0009776751347190145,
+      "loss": 0.0653,
+      "step": 9360
     },
     {
+      "epoch": 3.75,
+      "learning_rate": 0.0009721153023693439,
+      "loss": 0.0595,
+      "step": 9750
     },
     {
+      "epoch": 3.9,
+      "learning_rate": 0.0009665554700196733,
+      "loss": 0.0575,
+      "step": 10140
     },
     {
+      "epoch": 4.0,
+      "eval_loss": 0.10807737708091736,
+      "eval_max_distance": 18,
+      "eval_mean_distance": 2,
+      "eval_runtime": 0.3927,
+      "eval_samples_per_second": 127.308,
+      "eval_steps_per_second": 5.092,
+      "step": 10392
     },
     {
+      "epoch": 4.05,
+      "learning_rate": 0.0009609956376700025,
+      "loss": 0.1012,
+      "step": 10530
     },
     {
+      "epoch": 4.2,
+      "learning_rate": 0.0009554358053203319,
+      "loss": 0.0526,
+      "step": 10920
     },
     {
+      "epoch": 4.35,
+      "learning_rate": 0.0009498759729706612,
+      "loss": 0.0496,
+      "step": 11310
     },
     {
+      "epoch": 4.5,
+      "learning_rate": 0.0009443161406209905,
+      "loss": 0.0492,
+      "step": 11700
     },
     {
+      "epoch": 4.65,
+      "learning_rate": 0.0009387563082713198,
+      "loss": 0.0483,
+      "step": 12090
     },
     {
+      "epoch": 4.8,
+      "learning_rate": 0.0009331964759216492,
+      "loss": 0.0469,
+      "step": 12480
     },
     {
+      "epoch": 4.95,
+      "learning_rate": 0.0009276366435719784,
+      "loss": 0.0452,
+      "step": 12870
     },
     {
+      "epoch": 5.0,
+      "eval_loss": 0.08966636657714844,
+      "eval_max_distance": 14,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3879,
+      "eval_samples_per_second": 128.906,
+      "eval_steps_per_second": 5.156,
+      "step": 12990
     },
     {
+      "epoch": 5.1,
+      "learning_rate": 0.0009220768112223078,
+      "loss": 0.0392,
+      "step": 13260
     },
     {
+      "epoch": 5.25,
+      "learning_rate": 0.0009165169788726371,
       "loss": 0.0397,
+      "step": 13650
     },
     {
+      "epoch": 5.4,
+      "learning_rate": 0.0009109571465229664,
+      "loss": 0.0393,
+      "step": 14040
     },
     {
+      "epoch": 5.55,
+      "learning_rate": 0.0009053973141732957,
+      "loss": 0.0399,
+      "step": 14430
     },
     {
+      "epoch": 5.7,
+      "learning_rate": 0.0008998374818236251,
+      "loss": 0.039,
+      "step": 14820
     },
     {
+      "epoch": 5.85,
+      "learning_rate": 0.0008942776494739543,
+      "loss": 0.0372,
+      "step": 15210
     },
     {
+      "epoch": 6.0,
+      "eval_loss": 0.07197271287441254,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3764,
+      "eval_samples_per_second": 132.832,
+      "eval_steps_per_second": 5.313,
+      "step": 15588
     },
     {
+      "epoch": 6.0,
+      "learning_rate": 0.0008887178171242837,
+      "loss": 0.039,
+      "step": 15600
     },
     {
+      "epoch": 6.15,
+      "learning_rate": 0.000883157984774613,
+      "loss": 0.0312,
+      "step": 15990
     },
     {
+      "epoch": 6.3,
+      "learning_rate": 0.0008775981524249422,
+      "loss": 0.0337,
+      "step": 16380
     },
     {
+      "epoch": 6.45,
+      "learning_rate": 0.0008720383200752716,
+      "loss": 0.0328,
+      "step": 16770
     },
     {
+      "epoch": 6.61,
+      "learning_rate": 0.0008664784877256009,
+      "loss": 0.0327,
+      "step": 17160
     },
     {
+      "epoch": 6.76,
+      "learning_rate": 0.0008609186553759302,
+      "loss": 0.0305,
+      "step": 17550
     },
     {
+      "epoch": 6.91,
+      "learning_rate": 0.0008553588230262595,
+      "loss": 0.0323,
+      "step": 17940
     },
     {
+      "epoch": 7.0,
+      "eval_loss": 0.08398188650608063,
+      "eval_max_distance": 12,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3765,
+      "eval_samples_per_second": 132.8,
+      "eval_steps_per_second": 5.312,
+      "step": 18186
     },
     {
+      "epoch": 7.06,
+      "learning_rate": 0.0008497989906765889,
+      "loss": 0.0286,
+      "step": 18330
     },
     {
+      "epoch": 7.21,
+      "learning_rate": 0.0008442391583269181,
+      "loss": 0.0263,
+      "step": 18720
     },
     {
+      "epoch": 7.36,
+      "learning_rate": 0.0008386793259772475,
+      "loss": 0.0269,
+      "step": 19110
     },
     {
+      "epoch": 7.51,
+      "learning_rate": 0.0008331194936275768,
+      "loss": 0.0268,
+      "step": 19500
     },
     {
+      "epoch": 7.66,
+      "learning_rate": 0.0008275596612779061,
+      "loss": 0.0283,
+      "step": 19890
     },
     {
+      "epoch": 7.81,
+      "learning_rate": 0.0008219998289282354,
+      "loss": 0.0274,
+      "step": 20280
     },
     {
+      "epoch": 7.96,
+      "learning_rate": 0.0008164399965785648,
+      "loss": 0.0267,
+      "step": 20670
     },
     {
+      "epoch": 8.0,
+      "eval_loss": 0.07682657241821289,
+      "eval_max_distance": 16,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3687,
+      "eval_samples_per_second": 135.62,
+      "eval_steps_per_second": 5.425,
+      "step": 20784
     },
     {
+      "epoch": 8.11,
+      "learning_rate": 0.000810880164228894,
+      "loss": 0.0235,
+      "step": 21060
     },
     {
+      "epoch": 8.26,
+      "learning_rate": 0.0008053203318792234,
+      "loss": 0.0221,
+      "step": 21450
     },
     {
+      "epoch": 8.41,
+      "learning_rate": 0.0007997604995295527,
+      "loss": 0.0221,
+      "step": 21840
     },
     {
+      "epoch": 8.56,
+      "learning_rate": 0.0007942006671798819,
+      "loss": 0.0223,
+      "step": 22230
     },
     {
+      "epoch": 8.71,
+      "learning_rate": 0.0007886408348302113,
+      "loss": 0.0233,
+      "step": 22620
     },
     {
+      "epoch": 8.86,
+      "learning_rate": 0.0007830810024805405,
+      "loss": 0.0231,
+      "step": 23010
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.06973634660243988,
+      "eval_max_distance": 10,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.3759,
+      "eval_samples_per_second": 133.026,
+      "eval_steps_per_second": 5.321,
+      "step": 23382
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 0.0007775211701308699,
+      "loss": 0.0227,
+      "step": 23400
     },
     {
+      "epoch": 9.16,
+      "learning_rate": 0.0007719613377811992,
+      "loss": 0.0185,
+      "step": 23790
+    },
+    {
+      "epoch": 9.31,
+      "learning_rate": 0.0007664015054315285,
+      "loss": 0.0183,
+      "step": 24180
+    },
+    {
+      "epoch": 9.46,
+      "learning_rate": 0.0007608416730818578,
+      "loss": 0.0191,
+      "step": 24570
+    },
+    {
+      "epoch": 9.61,
+      "learning_rate": 0.0007552818407321872,
       "loss": 0.019,
+      "step": 24960
     },
     {
+      "epoch": 9.76,
+      "learning_rate": 0.0007497220083825164,
+      "loss": 0.0193,
+      "step": 25350
     },
     {
+      "epoch": 9.91,
+      "learning_rate": 0.0007441621760328458,
+      "loss": 0.0199,
+      "step": 25740
     },
     {
+      "epoch": 10.0,
+      "eval_loss": 0.07169829308986664,
+      "eval_max_distance": 9,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.3704,
+      "eval_samples_per_second": 134.993,
+      "eval_steps_per_second": 5.4,
+      "step": 25980
     },
     {
+      "epoch": 10.06,
+      "learning_rate": 0.0007386023436831751,
+      "loss": 0.0184,
+      "step": 26130
     },
     {
+      "epoch": 10.21,
+      "learning_rate": 0.0007330425113335044,
+      "loss": 0.016,
+      "step": 26520
     },
     {
+      "epoch": 10.36,
+      "learning_rate": 0.0007274826789838337,
+      "loss": 0.0164,
+      "step": 26910
     },
     {
+      "epoch": 10.51,
+      "learning_rate": 0.0007219228466341631,
+      "loss": 0.016,
+      "step": 27300
     },
     {
+      "epoch": 10.66,
+      "learning_rate": 0.0007163630142844923,
+      "loss": 0.0169,
+      "step": 27690
     },
     {
+      "epoch": 10.81,
+      "learning_rate": 0.0007108031819348217,
+      "loss": 0.0165,
+      "step": 28080
     },
     {
+      "epoch": 10.96,
+      "learning_rate": 0.000705243349585151,
+      "loss": 0.0168,
+      "step": 28470
     },
     {
+      "epoch": 11.0,
+      "eval_loss": 0.08123478293418884,
+      "eval_max_distance": 16,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3865,
+      "eval_samples_per_second": 129.356,
+      "eval_steps_per_second": 5.174,
+      "step": 28578
+    },
+    {
+      "epoch": 11.11,
+      "learning_rate": 0.0006996835172354803,
+      "loss": 0.015,
+      "step": 28860
+    },
+    {
+      "epoch": 11.26,
+      "learning_rate": 0.0006941236848858096,
+      "loss": 0.0137,
+      "step": 29250
     },
     {
+      "epoch": 11.41,
+      "learning_rate": 0.0006885638525361389,
+      "loss": 0.0151,
+      "step": 29640
+    },
+    {
+      "epoch": 11.56,
+      "learning_rate": 0.0006830040201864682,
       "loss": 0.0144,
+      "step": 30030
     },
     {
+      "epoch": 11.71,
+      "learning_rate": 0.0006774441878367975,
+      "loss": 0.0147,
+      "step": 30420
     },
     {
+      "epoch": 11.86,
+      "learning_rate": 0.0006718843554871269,
+      "loss": 0.0148,
+      "step": 30810
     },
     {
+      "epoch": 12.0,
+      "eval_loss": 0.09610763192176819,
+      "eval_max_distance": 12,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3633,
+      "eval_samples_per_second": 137.639,
+      "eval_steps_per_second": 5.506,
+      "step": 31176
     },
     {
+      "epoch": 12.01,
+      "learning_rate": 0.0006663245231374561,
+      "loss": 0.0145,
+      "step": 31200
     },
     {
+      "epoch": 12.16,
+      "learning_rate": 0.0006607646907877855,
+      "loss": 0.0124,
+      "step": 31590
     },
     {
+      "epoch": 12.31,
+      "learning_rate": 0.0006552048584381148,
+      "loss": 0.0117,
+      "step": 31980
     },
     {
+      "epoch": 12.46,
+      "learning_rate": 0.0006496450260884441,
+      "loss": 0.0121,
+      "step": 32370
     },
     {
+      "epoch": 12.61,
+      "learning_rate": 0.0006440851937387734,
+      "loss": 0.0124,
+      "step": 32760
     },
     {
+      "epoch": 12.76,
+      "learning_rate": 0.0006385253613891028,
+      "loss": 0.0125,
+      "step": 33150
     },
     {
+      "epoch": 12.91,
+      "learning_rate": 0.000632965529039432,
+      "loss": 0.0128,
+      "step": 33540
     },
     {
+      "epoch": 13.0,
+      "eval_loss": 0.08225859701633453,
+      "eval_max_distance": 9,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3712,
+      "eval_samples_per_second": 134.695,
+      "eval_steps_per_second": 5.388,
+      "step": 33774
     },
     {
+      "epoch": 13.06,
+      "learning_rate": 0.0006274056966897614,
       "loss": 0.0116,
+      "step": 33930
     },
     {
+      "epoch": 13.21,
+      "learning_rate": 0.0006218458643400907,
+      "loss": 0.0106,
+      "step": 34320
     },
     {
+      "epoch": 13.36,
+      "learning_rate": 0.00061628603199042,
+      "loss": 0.0104,
+      "step": 34710
     },
     {
+      "epoch": 13.51,
+      "learning_rate": 0.0006107261996407493,
+      "loss": 0.011,
+      "step": 35100
     },
     {
+      "epoch": 13.66,
+      "learning_rate": 0.0006051663672910787,
+      "loss": 0.0108,
+      "step": 35490
     },
     {
+      "epoch": 13.81,
+      "learning_rate": 0.0005996065349414079,
+      "loss": 0.0111,
+      "step": 35880
     },
     {
+      "epoch": 13.96,
+      "learning_rate": 0.0005940467025917372,
+      "loss": 0.0112,
+      "step": 36270
     },
     {
+      "epoch": 14.0,
+      "eval_loss": 0.07655028253793716,
+      "eval_max_distance": 12,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.361,
+      "eval_samples_per_second": 138.506,
+      "eval_steps_per_second": 5.54,
+      "step": 36372
     },
     {
+      "epoch": 14.11,
+      "learning_rate": 0.0005884868702420666,
+      "loss": 0.0098,
+      "step": 36660
     },
     {
+      "epoch": 14.26,
+      "learning_rate": 0.0005829270378923958,
+      "loss": 0.009,
+      "step": 37050
     },
     {
+      "epoch": 14.41,
+      "learning_rate": 0.0005773672055427252,
+      "loss": 0.0093,
+      "step": 37440
     },
     {
+      "epoch": 14.56,
+      "learning_rate": 0.0005718073731930545,
+      "loss": 0.0095,
+      "step": 37830
     },
     {
+      "epoch": 14.71,
+      "learning_rate": 0.0005662475408433838,
+      "loss": 0.0093,
+      "step": 38220
     },
     {
+      "epoch": 14.86,
+      "learning_rate": 0.0005606877084937131,
+      "loss": 0.0093,
+      "step": 38610
     },
     {
+      "epoch": 15.0,
+      "eval_loss": 0.07127052545547485,
+      "eval_max_distance": 9,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3671,
+      "eval_samples_per_second": 136.219,
+      "eval_steps_per_second": 5.449,
+      "step": 38970
     },
     {
+      "epoch": 15.01,
+      "learning_rate": 0.0005551278761440425,
+      "loss": 0.0101,
+      "step": 39000
     },
     {
+      "epoch": 15.16,
+      "learning_rate": 0.0005495680437943717,
+      "loss": 0.0078,
+      "step": 39390
     },
     {
+      "epoch": 15.31,
+      "learning_rate": 0.0005440082114447011,
+      "loss": 0.0079,
+      "step": 39780
     },
     {
+      "epoch": 15.46,
+      "learning_rate": 0.0005384483790950304,
+      "loss": 0.0081,
+      "step": 40170
     },
     {
+      "epoch": 15.61,
+      "learning_rate": 0.0005328885467453597,
+      "loss": 0.0085,
+      "step": 40560
     },
     {
+      "epoch": 15.76,
+      "learning_rate": 0.000527328714395689,
+      "loss": 0.0088,
+      "step": 40950
     },
     {
+      "epoch": 15.91,
+      "learning_rate": 0.0005217688820460184,
+      "loss": 0.0083,
+      "step": 41340
     },
     {
+      "epoch": 16.0,
+      "eval_loss": 0.08469703793525696,
+      "eval_max_distance": 14,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3815,
+      "eval_samples_per_second": 131.073,
+      "eval_steps_per_second": 5.243,
+      "step": 41568
     },
     {
+      "epoch": 16.06,
+      "learning_rate": 0.0005162090496963476,
+      "loss": 0.0081,
+      "step": 41730
+    },
+    {
+      "epoch": 16.21,
+      "learning_rate": 0.000510649217346677,
+      "loss": 0.0069,
+      "step": 42120
     },
     {
+      "epoch": 16.36,
+      "learning_rate": 0.0005050893849970063,
+      "loss": 0.007,
+      "step": 42510
+    },
+    {
+      "epoch": 16.51,
+      "learning_rate": 0.0004995295526473355,
+      "loss": 0.0071,
+      "step": 42900
+    },
+    {
+      "epoch": 16.66,
+      "learning_rate": 0.0004939697202976649,
       "loss": 0.0073,
+      "step": 43290
     },
     {
+      "epoch": 16.81,
+      "learning_rate": 0.0004884098879479942,
+      "loss": 0.0076,
+      "step": 43680
     },
     {
+      "epoch": 16.96,
+      "learning_rate": 0.0004828500555983235,
+      "loss": 0.0076,
+      "step": 44070
     },
     {
+      "epoch": 17.0,
+      "eval_loss": 0.08625645935535431,
+      "eval_max_distance": 11,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3551,
+      "eval_samples_per_second": 140.8,
+      "eval_steps_per_second": 5.632,
+      "step": 44166
     },
     {
+      "epoch": 17.11,
+      "learning_rate": 0.00047729022324865286,
+      "loss": 0.0064,
+      "step": 44460
     },
     {
+      "epoch": 17.26,
+      "learning_rate": 0.00047173039089898214,
+      "loss": 0.0059,
+      "step": 44850
     },
     {
+      "epoch": 17.41,
+      "learning_rate": 0.0004661705585493115,
+      "loss": 0.0064,
+      "step": 45240
     },
     {
+      "epoch": 17.56,
+      "learning_rate": 0.0004606107261996408,
+      "loss": 0.0068,
+      "step": 45630
     },
     {
+      "epoch": 17.71,
+      "learning_rate": 0.00045505089384997004,
+      "loss": 0.0066,
+      "step": 46020
     },
     {
+      "epoch": 17.86,
+      "learning_rate": 0.00044949106150029937,
+      "loss": 0.0064,
+      "step": 46410
     },
     {
+      "epoch": 18.0,
+      "eval_loss": 0.08296500891447067,
+      "eval_max_distance": 14,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3721,
+      "eval_samples_per_second": 134.372,
+      "eval_steps_per_second": 5.375,
+      "step": 46764
     },
     {
+      "epoch": 18.01,
+      "learning_rate": 0.0004439312291506287,
+      "loss": 0.0065,
+      "step": 46800
     },
     {
+      "epoch": 18.16,
+      "learning_rate": 0.000438371396800958,
+      "loss": 0.0055,
+      "step": 47190
     },
     {
+      "epoch": 18.31,
+      "learning_rate": 0.0004328115644512873,
+      "loss": 0.0052,
+      "step": 47580
     },
     {
+      "epoch": 18.46,
+      "learning_rate": 0.00042725173210161665,
+      "loss": 0.0057,
+      "step": 47970
     },
     {
+      "epoch": 18.61,
+      "learning_rate": 0.00042169189975194593,
+      "loss": 0.006,
+      "step": 48360
     },
     {
+      "epoch": 18.76,
+      "learning_rate": 0.00041613206740227527,
+      "loss": 0.0055,
+      "step": 48750
     },
     {
+      "epoch": 18.91,
+      "learning_rate": 0.0004105722350526046,
+      "loss": 0.0054,
+      "step": 49140
     },
     {
+      "epoch": 19.0,
+      "eval_loss": 0.08839410543441772,
+      "eval_max_distance": 11,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.367,
+      "eval_samples_per_second": 136.245,
+      "eval_steps_per_second": 5.45,
+      "step": 49362
     },
     {
+      "epoch": 19.06,
+      "learning_rate": 0.0004050124027029339,
+      "loss": 0.0057,
+      "step": 49530
     },
     {
+      "epoch": 19.21,
+      "learning_rate": 0.0003994525703532632,
       "loss": 0.0047,
+      "step": 49920
     },
     {
+      "epoch": 19.36,
+      "learning_rate": 0.0003938927380035925,
+      "loss": 0.0048,
+      "step": 50310
     },
     {
+      "epoch": 19.52,
+      "learning_rate": 0.00038833290565392183,
+      "loss": 0.0052,
+      "step": 50700
     },
     {
+      "epoch": 19.67,
+      "learning_rate": 0.00038277307330425117,
+      "loss": 0.005,
+      "step": 51090
     },
     {
+      "epoch": 19.82,
+      "learning_rate": 0.00037721324095458045,
+      "loss": 0.0048,
+      "step": 51480
     },
     {
+      "epoch": 19.97,
+      "learning_rate": 0.0003716534086049098,
+      "loss": 0.0052,
+      "step": 51870
     },
     {
+      "epoch": 20.0,
+      "eval_loss": 0.08214738219976425,
+      "eval_max_distance": 10,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3692,
+      "eval_samples_per_second": 135.434,
+      "eval_steps_per_second": 5.417,
+      "step": 51960
     },
     {
+      "epoch": 20.12,
+      "learning_rate": 0.0003660935762552391,
+      "loss": 0.0049,
+      "step": 52260
     },
     {
+      "epoch": 20.27,
+      "learning_rate": 0.00036053374390556834,
+      "loss": 0.0043,
+      "step": 52650
     },
     {
+      "epoch": 20.42,
+      "learning_rate": 0.0003549739115558977,
+      "loss": 0.0043,
+      "step": 53040
     },
     {
+      "epoch": 20.57,
+      "learning_rate": 0.000349414079206227,
+      "loss": 0.0044,
+      "step": 53430
     },
     {
+      "epoch": 20.72,
+      "learning_rate": 0.0003438542468565563,
+      "loss": 0.0044,
+      "step": 53820
+    },
+    {
+      "epoch": 20.87,
+      "learning_rate": 0.0003382944145068856,
+      "loss": 0.0045,
+      "step": 54210
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 0.0914614275097847,
+      "eval_max_distance": 14,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3653,
+      "eval_samples_per_second": 136.874,
+      "eval_steps_per_second": 5.475,
+      "step": 54558
     },
     {
+      "epoch": 21.02,
+      "learning_rate": 0.00033273458215721496,
+      "loss": 0.0041,
+      "step": 54600
+    },
+    {
+      "epoch": 21.17,
+      "learning_rate": 0.00032717474980754424,
       "loss": 0.0035,
+      "step": 54990
     },
     {
+      "epoch": 21.32,
+      "learning_rate": 0.0003216149174578736,
+      "loss": 0.0038,
+      "step": 55380
     },
     {
+      "epoch": 21.47,
+      "learning_rate": 0.0003160550851082029,
+      "loss": 0.0038,
+      "step": 55770
     },
     {
+      "epoch": 21.62,
+      "learning_rate": 0.0003104952527585322,
+      "loss": 0.0041,
+      "step": 56160
     },
     {
+      "epoch": 21.77,
+      "learning_rate": 0.0003049354204088615,
+      "loss": 0.004,
+      "step": 56550
     },
     {
+      "epoch": 21.92,
+      "learning_rate": 0.00029937558805919086,
+      "loss": 0.0037,
+      "step": 56940
     },
     {
+      "epoch": 22.0,
+      "eval_loss": 0.09314610809087753,
+      "eval_max_distance": 14,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3634,
+      "eval_samples_per_second": 137.604,
+      "eval_steps_per_second": 5.504,
+      "step": 57156
     },
     {
+      "epoch": 22.07,
+      "learning_rate": 0.00029381575570952014,
+      "loss": 0.0037,
+      "step": 57330
     },
     {
+      "epoch": 22.22,
+      "learning_rate": 0.0002882559233598495,
+      "loss": 0.0033,
+      "step": 57720
     },
     {
+      "epoch": 22.37,
+      "learning_rate": 0.0002826960910101788,
+      "loss": 0.0034,
+      "step": 58110
     },
     {
+      "epoch": 22.52,
+      "learning_rate": 0.0002771362586605081,
+      "loss": 0.0034,
+      "step": 58500
     },
     {
+      "epoch": 22.67,
+      "learning_rate": 0.0002715764263108374,
+      "loss": 0.0035,
+      "step": 58890
     },
     {
+      "epoch": 22.82,
+      "learning_rate": 0.0002660165939611667,
+      "loss": 0.0034,
+      "step": 59280
     },
     {
+      "epoch": 22.97,
+      "learning_rate": 0.000260456761611496,
+      "loss": 0.0036,
+      "step": 59670
     },
     {
+      "epoch": 23.0,
+      "eval_loss": 0.09405915439128876,
+      "eval_max_distance": 9,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3715,
+      "eval_samples_per_second": 134.573,
+      "eval_steps_per_second": 5.383,
+      "step": 59754
     },
     {
+      "epoch": 23.12,
+      "learning_rate": 0.0002548969292618253,
+      "loss": 0.003,
+      "step": 60060
     },
     {
+      "epoch": 23.27,
+      "learning_rate": 0.00024933709691215465,
+      "loss": 0.0031,
+      "step": 60450
     },
     {
+      "epoch": 23.42,
+      "learning_rate": 0.00024377726456248396,
+      "loss": 0.003,
+      "step": 60840
     },
     {
+      "epoch": 23.57,
+      "learning_rate": 0.00023821743221281327,
+      "loss": 0.0029,
+      "step": 61230
     },
     {
+      "epoch": 23.72,
+      "learning_rate": 0.00023265759986314258,
+      "loss": 0.0028,
+      "step": 61620
     },
     {
+      "epoch": 23.87,
+      "learning_rate": 0.0002270977675134719,
+      "loss": 0.0028,
+      "step": 62010
     },
     {
+      "epoch": 24.0,
+      "eval_loss": 0.08611776679754257,
+      "eval_max_distance": 13,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3594,
+      "eval_samples_per_second": 139.139,
+      "eval_steps_per_second": 5.566,
+      "step": 62352
     },
     {
+      "epoch": 24.02,
+      "learning_rate": 0.00022153793516380122,
+      "loss": 0.0027,
+      "step": 62400
     },
     {
+      "epoch": 24.17,
+      "learning_rate": 0.00021597810281413053,
+      "loss": 0.0026,
+      "step": 62790
     },
     {
+      "epoch": 24.32,
+      "learning_rate": 0.00021041827046445986,
+      "loss": 0.0027,
+      "step": 63180
     },
     {
+      "epoch": 24.47,
+      "learning_rate": 0.00020485843811478917,
+      "loss": 0.0027,
+      "step": 63570
     },
     {
+      "epoch": 24.62,
+      "learning_rate": 0.00019929860576511847,
+      "loss": 0.0027,
+      "step": 63960
     },
     {
+      "epoch": 24.77,
+      "learning_rate": 0.00019373877341544778,
+      "loss": 0.0024,
+      "step": 64350
     },
     {
+      "epoch": 24.92,
+      "learning_rate": 0.0001881789410657771,
+      "loss": 0.0026,
+      "step": 64740
     },
     {
+      "epoch": 25.0,
+      "eval_loss": 0.09115344285964966,
+      "eval_max_distance": 12,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.3622,
+      "eval_samples_per_second": 138.045,
+      "eval_steps_per_second": 5.522,
+      "step": 64950
     },
     {
+      "epoch": 25.07,
+      "learning_rate": 0.0001826191087161064,
+      "loss": 0.0026,
+      "step": 65130
     },
     {
+      "epoch": 25.22,
+      "learning_rate": 0.00017705927636643573,
+      "loss": 0.0023,
+      "step": 65520
     },
     {
+      "epoch": 25.37,
+      "learning_rate": 0.00017149944401676504,
+      "loss": 0.0023,
+      "step": 65910
     },
     {
+      "epoch": 25.52,
+      "learning_rate": 0.00016593961166709435,
+      "loss": 0.0021,
+      "step": 66300
     },
     {
+      "epoch": 25.67,
+      "learning_rate": 0.00016037977931742368,
+      "loss": 0.0021,
+      "step": 66690
     },
     {
+      "epoch": 25.82,
+      "learning_rate": 0.000154819946967753,
+      "loss": 0.0024,
+      "step": 67080
+    },
+    {
+      "epoch": 25.97,
+      "learning_rate": 0.0001492601146180823,
+      "loss": 0.0024,
+      "step": 67470
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 0.09158334881067276,
+      "eval_max_distance": 9,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.3618,
+      "eval_samples_per_second": 138.208,
+      "eval_steps_per_second": 5.528,
+      "step": 67548
     },
     {
+      "epoch": 26.12,
+      "learning_rate": 0.0001437002822684116,
+      "loss": 0.0021,
+      "step": 67860
+    },
+    {
+      "epoch": 26.27,
+      "learning_rate": 0.0001381404499187409,
+      "loss": 0.0019,
+      "step": 68250
+    },
+    {
+      "epoch": 26.42,
+      "learning_rate": 0.00013258061756907022,
+      "loss": 0.002,
+      "step": 68640
+    },
+    {
+      "epoch": 26.57,
+      "learning_rate": 0.00012702078521939955,
+      "loss": 0.0019,
+      "step": 69030
     },
     {
+      "epoch": 26.72,
+      "learning_rate": 0.00012146095286972886,
+      "loss": 0.0021,
+      "step": 69420
     },
     {
+      "epoch": 26.87,
+      "learning_rate": 0.00011590112052005817,
+      "loss": 0.002,
+      "step": 69810
     },
     {
+      "epoch": 27.0,
+      "eval_loss": 0.08878373354673386,
+      "eval_max_distance": 9,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.3454,
+      "eval_samples_per_second": 144.754,
+      "eval_steps_per_second": 5.79,
+      "step": 70146
     },
     {
+      "epoch": 27.02,
+      "learning_rate": 0.00011034128817038747,
+      "loss": 0.0021,
+      "step": 70200
     },
     {
+      "epoch": 27.17,
+      "learning_rate": 0.0001047814558207168,
+      "loss": 0.0017,
+      "step": 70590
     },
     {
+      "epoch": 27.32,
+      "learning_rate": 9.92216234710461e-05,
+      "loss": 0.0018,
+      "step": 70980
     },
     {
+      "epoch": 27.47,
+      "learning_rate": 9.366179112137542e-05,
+      "loss": 0.0017,
+      "step": 71370
     },
     {
+      "epoch": 27.62,
+      "learning_rate": 8.810195877170473e-05,
+      "loss": 0.0016,
+      "step": 71760
     },
     {
+      "epoch": 27.77,
+      "learning_rate": 8.254212642203404e-05,
+      "loss": 0.002,
+      "step": 72150
     },
     {
+      "epoch": 27.92,
+      "learning_rate": 7.698229407236336e-05,
+      "loss": 0.0017,
+      "step": 72540
     },
     {
+      "epoch": 28.0,
+      "eval_loss": 0.08879587054252625,
+      "eval_max_distance": 9,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.3476,
+      "eval_samples_per_second": 143.846,
+      "eval_steps_per_second": 5.754,
+      "step": 72744
     },
     {
+      "epoch": 28.07,
+      "learning_rate": 7.142246172269268e-05,
+      "loss": 0.0016,
+      "step": 72930
     },
     {
+      "epoch": 28.22,
+      "learning_rate": 6.586262937302199e-05,
+      "loss": 0.0016,
+      "step": 73320
     },
     {
+      "epoch": 28.37,
+      "learning_rate": 6.03027970233513e-05,
+      "loss": 0.0016,
+      "step": 73710
     },
     {
+      "epoch": 28.52,
+      "learning_rate": 5.474296467368061e-05,
+      "loss": 0.0016,
+      "step": 74100
     },
     {
+      "epoch": 28.67,
+      "learning_rate": 4.9183132324009924e-05,
+      "loss": 0.0016,
+      "step": 74490
     },
     {
+      "epoch": 28.82,
+      "learning_rate": 4.362329997433924e-05,
+      "loss": 0.0017,
+      "step": 74880
     },
     {
+      "epoch": 28.97,
+      "learning_rate": 3.806346762466855e-05,
+      "loss": 0.0017,
+      "step": 75270
     },
     {
+      "epoch": 29.0,
+      "eval_loss": 0.09515639394521713,
+      "eval_max_distance": 9,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.343,
+      "eval_samples_per_second": 145.752,
+      "eval_steps_per_second": 5.83,
+      "step": 75342
     },
     {
+      "epoch": 29.12,
+      "learning_rate": 3.250363527499786e-05,
+      "loss": 0.0015,
+      "step": 75660
     },
     {
+      "epoch": 29.27,
+      "learning_rate": 2.6943802925327177e-05,
+      "loss": 0.0016,
+      "step": 76050
     },
     {
+      "epoch": 29.42,
+      "learning_rate": 2.1383970575656488e-05,
+      "loss": 0.0014,
+      "step": 76440
     },
     {
+      "epoch": 29.57,
+      "learning_rate": 1.5824138225985802e-05,
+      "loss": 0.0013,
+      "step": 76830
+    },
+    {
+      "epoch": 29.72,
+      "learning_rate": 1.0264305876315115e-05,
+      "loss": 0.0014,
+      "step": 77220
+    },
+    {
+      "epoch": 29.87,
+      "learning_rate": 4.704473526644427e-06,
+      "loss": 0.0014,
+      "step": 77610
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.09847646951675415,
+      "eval_max_distance": 9,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.3435,
+      "eval_samples_per_second": 145.564,
+      "eval_steps_per_second": 5.823,
+      "step": 77940
+    },
+    {
+      "epoch": 30.0,
+      "step": 77940,
+      "total_flos": 4.517674593940685e+16,
+      "train_loss": 0.053724035134690526,
+      "train_runtime": 6582.4117,
+      "train_samples_per_second": 355.137,
+      "train_steps_per_second": 11.841
     }
   ],
+  "logging_steps": 390,
+  "max_steps": 77940,
+  "num_train_epochs": 30,
+  "save_steps": 780,
+  "total_flos": 4.517674593940685e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a64071366e9d286f33b1e765c4a984a49be987c34b012df2ba201216f721839e
 size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:8559fb7fc2610f478f8fb2eefabd395825b089696477a52ed7cf7234f686c78f
 size 4091