alexue4
/

text-normalization-ru-new

@@ -15,9 +15,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [cointegrated/rut5-small](https://huggingface.co/cointegrated/rut5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0985
 - Mean Distance: 0
-- Max Distance: 9
 ## Model description
@@ -43,42 +43,72 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 30
 ### Training results
-| Training Loss | Epoch | Step  | Validation Loss | Mean Distance | Max Distance |
-|:-------------:|:-----:|:-----:|:---------------:|:-------------:|:------------:|
-| 0.181         | 1.0   | 2598  | 0.2140          | 4             | 36           |
-| 0.1067        | 2.0   | 5196  | 0.1416          | 2             | 29           |
-| 0.0801        | 3.0   | 7794  | 0.1098          | 2             | 22           |
-| 0.0575        | 4.0   | 10392 | 0.1081          | 2             | 18           |
-| 0.0452        | 5.0   | 12990 | 0.0897          | 1             | 14           |
-| 0.0372        | 6.0   | 15588 | 0.0720          | 1             | 15           |
-| 0.0323        | 7.0   | 18186 | 0.0840          | 1             | 12           |
-| 0.0267        | 8.0   | 20784 | 0.0768          | 1             | 16           |
-| 0.0231        | 9.0   | 23382 | 0.0697          | 1             | 10           |
-| 0.0199        | 10.0  | 25980 | 0.0717          | 1             | 9            |
-| 0.0168        | 11.0  | 28578 | 0.0812          | 1             | 16           |
-| 0.0148        | 12.0  | 31176 | 0.0961          | 1             | 12           |
-| 0.0128        | 13.0  | 33774 | 0.0823          | 1             | 9            |
-| 0.0112        | 14.0  | 36372 | 0.0766          | 1             | 12           |
-| 0.0093        | 15.0  | 38970 | 0.0713          | 1             | 9            |
-| 0.0083        | 16.0  | 41568 | 0.0847          | 1             | 14           |
-| 0.0076        | 17.0  | 44166 | 0.0863          | 1             | 11           |
-| 0.0064        | 18.0  | 46764 | 0.0830          | 1             | 14           |
-| 0.0054        | 19.0  | 49362 | 0.0884          | 1             | 11           |
-| 0.0052        | 20.0  | 51960 | 0.0821          | 1             | 10           |
-| 0.0045        | 21.0  | 54558 | 0.0915          | 1             | 14           |
-| 0.0037        | 22.0  | 57156 | 0.0931          | 1             | 14           |
-| 0.0036        | 23.0  | 59754 | 0.0941          | 1             | 9            |
-| 0.0028        | 24.0  | 62352 | 0.0861          | 1             | 13           |
-| 0.0026        | 25.0  | 64950 | 0.0912          | 1             | 12           |
-| 0.0024        | 26.0  | 67548 | 0.0916          | 0             | 9            |
-| 0.002         | 27.0  | 70146 | 0.0888          | 0             | 9            |
-| 0.0017        | 28.0  | 72744 | 0.0888          | 0             | 9            |
-| 0.0017        | 29.0  | 75342 | 0.0952          | 0             | 9            |
-| 0.0014        | 30.0  | 77940 | 0.0985          | 0             | 9            |
 ### Framework versions

 This model is a fine-tuned version of [cointegrated/rut5-small](https://huggingface.co/cointegrated/rut5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0177
 - Mean Distance: 0
+- Max Distance: 15
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 60
 ### Training results
+| Training Loss | Epoch | Step   | Validation Loss | Mean Distance | Max Distance |
+|:-------------:|:-----:|:------:|:---------------:|:-------------:|:------------:|
+| 0.2236        | 1.0   | 3298   | 0.1120          | 5             | 133          |
+| 0.1179        | 2.0   | 6596   | 0.0548          | 3             | 82           |
+| 0.0829        | 3.0   | 9894   | 0.0425          | 1             | 46           |
+| 0.0643        | 4.0   | 13192  | 0.0311          | 1             | 64           |
+| 0.0538        | 5.0   | 16490  | 0.0267          | 1             | 48           |
+| 0.0469        | 6.0   | 19788  | 0.0396          | 2             | 80           |
+| 0.0385        | 7.0   | 23086  | 0.0262          | 2             | 73           |
+| 0.0316        | 8.0   | 26384  | 0.0223          | 1             | 40           |
+| 0.0263        | 9.0   | 29682  | 0.0240          | 1             | 69           |
+| 0.0226        | 10.0  | 32980  | 0.0203          | 1             | 60           |
+| 0.0203        | 11.0  | 36278  | 0.0177          | 1             | 54           |
+| 0.0178        | 12.0  | 39576  | 0.0188          | 1             | 61           |
+| 0.0154        | 13.0  | 42874  | 0.0296          | 1             | 65           |
+| 0.0138        | 14.0  | 46172  | 0.0201          | 1             | 55           |
+| 0.012         | 15.0  | 49470  | 0.0268          | 1             | 67           |
+| 0.0109        | 16.0  | 52768  | 0.0163          | 1             | 35           |
+| 0.0105        | 17.0  | 56066  | 0.0136          | 1             | 26           |
+| 0.0092        | 18.0  | 59364  | 0.0202          | 1             | 65           |
+| 0.0087        | 19.0  | 62662  | 0.0221          | 1             | 65           |
+| 0.0075        | 20.0  | 65960  | 0.0203          | 1             | 33           |
+| 0.0067        | 21.0  | 69258  | 0.0226          | 1             | 26           |
+| 0.0062        | 22.0  | 72556  | 0.0184          | 1             | 24           |
+| 0.0059        | 23.0  | 75854  | 0.0131          | 0             | 18           |
+| 0.0054        | 24.0  | 79152  | 0.0270          | 1             | 58           |
+| 0.0052        | 25.0  | 82450  | 0.0244          | 1             | 45           |
+| 0.0044        | 26.0  | 85748  | 0.0149          | 1             | 23           |
+| 0.0043        | 27.0  | 89046  | 0.0256          | 1             | 63           |
+| 0.0038        | 28.0  | 92344  | 0.0172          | 1             | 30           |
+| 0.0036        | 29.0  | 95642  | 0.0224          | 1             | 37           |
+| 0.0033        | 30.0  | 98940  | 0.0194          | 1             | 30           |
+| 0.0031        | 31.0  | 102238 | 0.0238          | 1             | 59           |
+| 0.003         | 32.0  | 105536 | 0.0200          | 1             | 28           |
+| 0.0028        | 33.0  | 108834 | 0.0161          | 0             | 18           |
+| 0.0027        | 34.0  | 112132 | 0.0215          | 1             | 26           |
+| 0.0025        | 35.0  | 115430 | 0.0198          | 0             | 19           |
+| 0.0023        | 36.0  | 118728 | 0.0168          | 0             | 24           |
+| 0.002         | 37.0  | 122026 | 0.0221          | 1             | 32           |
+| 0.0019        | 38.0  | 125324 | 0.0214          | 1             | 32           |
+| 0.0017        | 39.0  | 128622 | 0.0186          | 0             | 19           |
+| 0.0017        | 40.0  | 131920 | 0.0171          | 0             | 23           |
+| 0.0016        | 41.0  | 135218 | 0.0164          | 0             | 17           |
+| 0.0015        | 42.0  | 138516 | 0.0166          | 1             | 21           |
+| 0.0014        | 43.0  | 141814 | 0.0167          | 0             | 21           |
+| 0.0019        | 44.0  | 145112 | 0.0192          | 1             | 32           |
+| 0.0011        | 45.0  | 148410 | 0.0209          | 1             | 27           |
+| 0.0011        | 46.0  | 151708 | 0.0218          | 0             | 23           |
+| 0.001         | 47.0  | 155006 | 0.0195          | 0             | 25           |
+| 0.0009        | 48.0  | 158304 | 0.0166          | 0             | 15           |
+| 0.0008        | 49.0  | 161602 | 0.0210          | 1             | 31           |
+| 0.0008        | 50.0  | 164900 | 0.0230          | 0             | 22           |
+| 0.0008        | 51.0  | 168198 | 0.0184          | 0             | 15           |
+| 0.0007        | 52.0  | 171496 | 0.0183          | 0             | 15           |
+| 0.0006        | 53.0  | 174794 | 0.0234          | 1             | 32           |
+| 0.0005        | 54.0  | 178092 | 0.0227          | 0             | 24           |
+| 0.0004        | 55.0  | 181390 | 0.0188          | 0             | 15           |
+| 0.0005        | 56.0  | 184688 | 0.0191          | 0             | 15           |
+| 0.0004        | 57.0  | 187986 | 0.0183          | 0             | 15           |
+| 0.0003        | 58.0  | 191284 | 0.0180          | 0             | 15           |
+| 0.0003        | 59.0  | 194582 | 0.0180          | 0             | 15           |
+| 0.0004        | 60.0  | 197880 | 0.0177          | 0             | 15           |
 ### Framework versions

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18151e9614a6f5186bbe2400883a83025ffebc2e1a09f7899f724917c104504e
 size 258643461

 version https://git-lfs.github.com/spec/v1
+oid sha256:67c7f076dd09ccc14ee16c69cabf6f1ca5b674bd9bd1bf502d509b46230e8f17
 size 258643461

trainer_state.json CHANGED Viewed

@@ -1,1528 +1,1828 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 30.0,
   "eval_steps": 500,
-  "global_step": 77940,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 1.2830382345393893e-07,
-      "loss": 13.6904,
       "step": 1
     },
-    {
-      "epoch": 0.15,
-      "learning_rate": 5.003849114703618e-05,
-      "loss": 5.273,
-      "step": 390
-    },
     {
       "epoch": 0.3,
-      "learning_rate": 0.00010007698229407236,
-      "loss": 0.4624,
-      "step": 780
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 0.00015011547344110854,
-      "loss": 0.3258,
-      "step": 1170
     },
     {
       "epoch": 0.6,
-      "learning_rate": 0.00020015396458814472,
-      "loss": 0.2553,
-      "step": 1560
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 0.0002501924557351809,
-      "loss": 0.2143,
-      "step": 1950
     },
     {
       "epoch": 0.9,
-      "learning_rate": 0.0003002309468822171,
-      "loss": 0.181,
-      "step": 2340
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.21401263773441315,
-      "eval_max_distance": 36,
-      "eval_mean_distance": 4,
-      "eval_runtime": 0.4225,
-      "eval_samples_per_second": 118.338,
-      "eval_steps_per_second": 4.734,
-      "step": 2598
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 0.0003502694380292533,
-      "loss": 0.1557,
-      "step": 2730
     },
     {
       "epoch": 1.2,
-      "learning_rate": 0.00040030792917628943,
-      "loss": 0.1402,
-      "step": 3120
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 0.00045034642032332564,
-      "loss": 0.1283,
-      "step": 3510
     },
     {
       "epoch": 1.5,
-      "learning_rate": 0.0005003849114703618,
-      "loss": 0.1194,
-      "step": 3900
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 0.0005504234026173979,
-      "loss": 0.1158,
-      "step": 4290
     },
     {
       "epoch": 1.8,
-      "learning_rate": 0.0006004618937644341,
-      "loss": 0.108,
-      "step": 4680
-    },
-    {
-      "epoch": 1.95,
-      "learning_rate": 0.0006505003849114704,
-      "loss": 0.1067,
-      "step": 5070
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.14157189428806305,
-      "eval_max_distance": 29,
-      "eval_mean_distance": 2,
-      "eval_runtime": 0.4066,
-      "eval_samples_per_second": 122.96,
-      "eval_steps_per_second": 4.918,
-      "step": 5196
     },
     {
       "epoch": 2.1,
-      "learning_rate": 0.0007005388760585066,
-      "loss": 0.0924,
-      "step": 5460
-    },
-    {
-      "epoch": 2.25,
-      "learning_rate": 0.0007505773672055427,
-      "loss": 0.0927,
-      "step": 5850
     },
     {
       "epoch": 2.4,
-      "learning_rate": 0.0008006158583525789,
-      "loss": 0.0872,
-      "step": 6240
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 0.0008506543494996151,
-      "loss": 0.0841,
-      "step": 6630
     },
     {
       "epoch": 2.7,
-      "learning_rate": 0.0009006928406466513,
-      "loss": 0.0808,
-      "step": 7020
-    },
-    {
-      "epoch": 2.85,
-      "learning_rate": 0.0009507313317936874,
-      "loss": 0.0801,
-      "step": 7410
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.10980188101530075,
-      "eval_max_distance": 22,
-      "eval_mean_distance": 2,
-      "eval_runtime": 0.4052,
-      "eval_samples_per_second": 123.401,
-      "eval_steps_per_second": 4.936,
-      "step": 7794
     },
     {
       "epoch": 3.0,
-      "learning_rate": 0.0009999144641176974,
-      "loss": 0.0778,
-      "step": 7800
-    },
-    {
-      "epoch": 3.15,
-      "learning_rate": 0.0009943546317680268,
-      "loss": 0.0684,
-      "step": 8190
     },
     {
       "epoch": 3.3,
-      "learning_rate": 0.000988794799418356,
-      "loss": 0.0692,
-      "step": 8580
-    },
-    {
-      "epoch": 3.45,
-      "learning_rate": 0.0009832349670686853,
-      "loss": 0.0629,
-      "step": 8970
     },
     {
       "epoch": 3.6,
-      "learning_rate": 0.0009776751347190145,
       "loss": 0.0653,
-      "step": 9360
-    },
-    {
-      "epoch": 3.75,
-      "learning_rate": 0.0009721153023693439,
-      "loss": 0.0595,
-      "step": 9750
     },
     {
       "epoch": 3.9,
-      "learning_rate": 0.0009665554700196733,
-      "loss": 0.0575,
-      "step": 10140
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.10807737708091736,
-      "eval_max_distance": 18,
-      "eval_mean_distance": 2,
-      "eval_runtime": 0.3927,
-      "eval_samples_per_second": 127.308,
-      "eval_steps_per_second": 5.092,
-      "step": 10392
-    },
-    {
-      "epoch": 4.05,
-      "learning_rate": 0.0009609956376700025,
-      "loss": 0.1012,
-      "step": 10530
     },
     {
       "epoch": 4.2,
-      "learning_rate": 0.0009554358053203319,
-      "loss": 0.0526,
-      "step": 10920
-    },
-    {
-      "epoch": 4.35,
-      "learning_rate": 0.0009498759729706612,
-      "loss": 0.0496,
-      "step": 11310
     },
     {
       "epoch": 4.5,
-      "learning_rate": 0.0009443161406209905,
-      "loss": 0.0492,
-      "step": 11700
-    },
-    {
-      "epoch": 4.65,
-      "learning_rate": 0.0009387563082713198,
-      "loss": 0.0483,
-      "step": 12090
     },
     {
       "epoch": 4.8,
-      "learning_rate": 0.0009331964759216492,
-      "loss": 0.0469,
-      "step": 12480
-    },
-    {
-      "epoch": 4.95,
-      "learning_rate": 0.0009276366435719784,
-      "loss": 0.0452,
-      "step": 12870
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.08966636657714844,
-      "eval_max_distance": 14,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3879,
-      "eval_samples_per_second": 128.906,
-      "eval_steps_per_second": 5.156,
-      "step": 12990
     },
     {
       "epoch": 5.1,
-      "learning_rate": 0.0009220768112223078,
-      "loss": 0.0392,
-      "step": 13260
-    },
-    {
-      "epoch": 5.25,
-      "learning_rate": 0.0009165169788726371,
-      "loss": 0.0397,
-      "step": 13650
     },
     {
       "epoch": 5.4,
-      "learning_rate": 0.0009109571465229664,
-      "loss": 0.0393,
-      "step": 14040
-    },
-    {
-      "epoch": 5.55,
-      "learning_rate": 0.0009053973141732957,
-      "loss": 0.0399,
-      "step": 14430
     },
     {
       "epoch": 5.7,
-      "learning_rate": 0.0008998374818236251,
-      "loss": 0.039,
-      "step": 14820
-    },
-    {
-      "epoch": 5.85,
-      "learning_rate": 0.0008942776494739543,
-      "loss": 0.0372,
-      "step": 15210
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.07197271287441254,
-      "eval_max_distance": 15,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.3764,
-      "eval_samples_per_second": 132.832,
-      "eval_steps_per_second": 5.313,
-      "step": 15588
     },
     {
       "epoch": 6.0,
-      "learning_rate": 0.0008887178171242837,
-      "loss": 0.039,
-      "step": 15600
-    },
-    {
-      "epoch": 6.15,
-      "learning_rate": 0.000883157984774613,
-      "loss": 0.0312,
-      "step": 15990
     },
     {
       "epoch": 6.3,
-      "learning_rate": 0.0008775981524249422,
-      "loss": 0.0337,
-      "step": 16380
-    },
-    {
-      "epoch": 6.45,
-      "learning_rate": 0.0008720383200752716,
-      "loss": 0.0328,
-      "step": 16770
-    },
-    {
-      "epoch": 6.61,
-      "learning_rate": 0.0008664784877256009,
-      "loss": 0.0327,
-      "step": 17160
     },
     {
-      "epoch": 6.76,
-      "learning_rate": 0.0008609186553759302,
-      "loss": 0.0305,
-      "step": 17550
     },
     {
-      "epoch": 6.91,
-      "learning_rate": 0.0008553588230262595,
-      "loss": 0.0323,
-      "step": 17940
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.08398188650608063,
-      "eval_max_distance": 12,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.3765,
-      "eval_samples_per_second": 132.8,
-      "eval_steps_per_second": 5.312,
-      "step": 18186
-    },
-    {
-      "epoch": 7.06,
-      "learning_rate": 0.0008497989906765889,
-      "loss": 0.0286,
-      "step": 18330
-    },
-    {
-      "epoch": 7.21,
-      "learning_rate": 0.0008442391583269181,
-      "loss": 0.0263,
-      "step": 18720
-    },
-    {
-      "epoch": 7.36,
-      "learning_rate": 0.0008386793259772475,
-      "loss": 0.0269,
-      "step": 19110
-    },
-    {
-      "epoch": 7.51,
-      "learning_rate": 0.0008331194936275768,
-      "loss": 0.0268,
-      "step": 19500
     },
     {
-      "epoch": 7.66,
-      "learning_rate": 0.0008275596612779061,
-      "loss": 0.0283,
-      "step": 19890
     },
     {
-      "epoch": 7.81,
-      "learning_rate": 0.0008219998289282354,
-      "loss": 0.0274,
-      "step": 20280
     },
     {
-      "epoch": 7.96,
-      "learning_rate": 0.0008164399965785648,
-      "loss": 0.0267,
-      "step": 20670
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.07682657241821289,
-      "eval_max_distance": 16,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3687,
-      "eval_samples_per_second": 135.62,
-      "eval_steps_per_second": 5.425,
-      "step": 20784
-    },
-    {
-      "epoch": 8.11,
-      "learning_rate": 0.000810880164228894,
-      "loss": 0.0235,
-      "step": 21060
     },
     {
-      "epoch": 8.26,
-      "learning_rate": 0.0008053203318792234,
-      "loss": 0.0221,
-      "step": 21450
     },
     {
       "epoch": 8.41,
-      "learning_rate": 0.0007997604995295527,
-      "loss": 0.0221,
-      "step": 21840
-    },
-    {
-      "epoch": 8.56,
-      "learning_rate": 0.0007942006671798819,
-      "loss": 0.0223,
-      "step": 22230
     },
     {
       "epoch": 8.71,
-      "learning_rate": 0.0007886408348302113,
-      "loss": 0.0233,
-      "step": 22620
-    },
-    {
-      "epoch": 8.86,
-      "learning_rate": 0.0007830810024805405,
-      "loss": 0.0231,
-      "step": 23010
     },
     {
       "epoch": 9.0,
-      "eval_loss": 0.06973634660243988,
-      "eval_max_distance": 10,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3759,
-      "eval_samples_per_second": 133.026,
-      "eval_steps_per_second": 5.321,
-      "step": 23382
     },
     {
       "epoch": 9.01,
-      "learning_rate": 0.0007775211701308699,
-      "loss": 0.0227,
-      "step": 23400
-    },
-    {
-      "epoch": 9.16,
-      "learning_rate": 0.0007719613377811992,
-      "loss": 0.0185,
-      "step": 23790
     },
     {
       "epoch": 9.31,
-      "learning_rate": 0.0007664015054315285,
-      "loss": 0.0183,
-      "step": 24180
-    },
-    {
-      "epoch": 9.46,
-      "learning_rate": 0.0007608416730818578,
-      "loss": 0.0191,
-      "step": 24570
     },
     {
       "epoch": 9.61,
-      "learning_rate": 0.0007552818407321872,
-      "loss": 0.019,
-      "step": 24960
-    },
-    {
-      "epoch": 9.76,
-      "learning_rate": 0.0007497220083825164,
-      "loss": 0.0193,
-      "step": 25350
     },
     {
       "epoch": 9.91,
-      "learning_rate": 0.0007441621760328458,
-      "loss": 0.0199,
-      "step": 25740
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.07169829308986664,
-      "eval_max_distance": 9,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3704,
-      "eval_samples_per_second": 134.993,
-      "eval_steps_per_second": 5.4,
-      "step": 25980
-    },
-    {
-      "epoch": 10.06,
-      "learning_rate": 0.0007386023436831751,
-      "loss": 0.0184,
-      "step": 26130
     },
     {
       "epoch": 10.21,
-      "learning_rate": 0.0007330425113335044,
-      "loss": 0.016,
-      "step": 26520
-    },
-    {
-      "epoch": 10.36,
-      "learning_rate": 0.0007274826789838337,
-      "loss": 0.0164,
-      "step": 26910
     },
     {
       "epoch": 10.51,
-      "learning_rate": 0.0007219228466341631,
-      "loss": 0.016,
-      "step": 27300
-    },
-    {
-      "epoch": 10.66,
-      "learning_rate": 0.0007163630142844923,
-      "loss": 0.0169,
-      "step": 27690
     },
     {
       "epoch": 10.81,
-      "learning_rate": 0.0007108031819348217,
-      "loss": 0.0165,
-      "step": 28080
-    },
-    {
-      "epoch": 10.96,
-      "learning_rate": 0.000705243349585151,
-      "loss": 0.0168,
-      "step": 28470
     },
     {
       "epoch": 11.0,
-      "eval_loss": 0.08123478293418884,
-      "eval_max_distance": 16,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3865,
-      "eval_samples_per_second": 129.356,
-      "eval_steps_per_second": 5.174,
-      "step": 28578
     },
     {
       "epoch": 11.11,
-      "learning_rate": 0.0006996835172354803,
-      "loss": 0.015,
-      "step": 28860
-    },
-    {
-      "epoch": 11.26,
-      "learning_rate": 0.0006941236848858096,
-      "loss": 0.0137,
-      "step": 29250
     },
     {
       "epoch": 11.41,
-      "learning_rate": 0.0006885638525361389,
-      "loss": 0.0151,
-      "step": 29640
-    },
-    {
-      "epoch": 11.56,
-      "learning_rate": 0.0006830040201864682,
-      "loss": 0.0144,
-      "step": 30030
     },
     {
       "epoch": 11.71,
-      "learning_rate": 0.0006774441878367975,
-      "loss": 0.0147,
-      "step": 30420
-    },
-    {
-      "epoch": 11.86,
-      "learning_rate": 0.0006718843554871269,
-      "loss": 0.0148,
-      "step": 30810
     },
     {
       "epoch": 12.0,
-      "eval_loss": 0.09610763192176819,
-      "eval_max_distance": 12,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3633,
-      "eval_samples_per_second": 137.639,
-      "eval_steps_per_second": 5.506,
-      "step": 31176
     },
     {
       "epoch": 12.01,
-      "learning_rate": 0.0006663245231374561,
-      "loss": 0.0145,
-      "step": 31200
-    },
-    {
-      "epoch": 12.16,
-      "learning_rate": 0.0006607646907877855,
-      "loss": 0.0124,
-      "step": 31590
     },
     {
       "epoch": 12.31,
-      "learning_rate": 0.0006552048584381148,
-      "loss": 0.0117,
-      "step": 31980
-    },
-    {
-      "epoch": 12.46,
-      "learning_rate": 0.0006496450260884441,
-      "loss": 0.0121,
-      "step": 32370
     },
     {
       "epoch": 12.61,
-      "learning_rate": 0.0006440851937387734,
-      "loss": 0.0124,
-      "step": 32760
-    },
-    {
-      "epoch": 12.76,
-      "learning_rate": 0.0006385253613891028,
-      "loss": 0.0125,
-      "step": 33150
     },
     {
       "epoch": 12.91,
-      "learning_rate": 0.000632965529039432,
-      "loss": 0.0128,
-      "step": 33540
     },
     {
       "epoch": 13.0,
-      "eval_loss": 0.08225859701633453,
-      "eval_max_distance": 9,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3712,
-      "eval_samples_per_second": 134.695,
-      "eval_steps_per_second": 5.388,
-      "step": 33774
-    },
-    {
-      "epoch": 13.06,
-      "learning_rate": 0.0006274056966897614,
-      "loss": 0.0116,
-      "step": 33930
     },
     {
       "epoch": 13.21,
-      "learning_rate": 0.0006218458643400907,
-      "loss": 0.0106,
-      "step": 34320
-    },
-    {
-      "epoch": 13.36,
-      "learning_rate": 0.00061628603199042,
-      "loss": 0.0104,
-      "step": 34710
     },
     {
       "epoch": 13.51,
-      "learning_rate": 0.0006107261996407493,
-      "loss": 0.011,
-      "step": 35100
-    },
-    {
-      "epoch": 13.66,
-      "learning_rate": 0.0006051663672910787,
-      "loss": 0.0108,
-      "step": 35490
     },
     {
       "epoch": 13.81,
-      "learning_rate": 0.0005996065349414079,
-      "loss": 0.0111,
-      "step": 35880
-    },
-    {
-      "epoch": 13.96,
-      "learning_rate": 0.0005940467025917372,
-      "loss": 0.0112,
-      "step": 36270
     },
     {
       "epoch": 14.0,
-      "eval_loss": 0.07655028253793716,
-      "eval_max_distance": 12,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.361,
-      "eval_samples_per_second": 138.506,
-      "eval_steps_per_second": 5.54,
-      "step": 36372
     },
     {
       "epoch": 14.11,
-      "learning_rate": 0.0005884868702420666,
-      "loss": 0.0098,
-      "step": 36660
-    },
-    {
-      "epoch": 14.26,
-      "learning_rate": 0.0005829270378923958,
-      "loss": 0.009,
-      "step": 37050
     },
     {
       "epoch": 14.41,
-      "learning_rate": 0.0005773672055427252,
-      "loss": 0.0093,
-      "step": 37440
-    },
-    {
-      "epoch": 14.56,
-      "learning_rate": 0.0005718073731930545,
-      "loss": 0.0095,
-      "step": 37830
     },
     {
       "epoch": 14.71,
-      "learning_rate": 0.0005662475408433838,
-      "loss": 0.0093,
-      "step": 38220
-    },
-    {
-      "epoch": 14.86,
-      "learning_rate": 0.0005606877084937131,
-      "loss": 0.0093,
-      "step": 38610
     },
     {
       "epoch": 15.0,
-      "eval_loss": 0.07127052545547485,
-      "eval_max_distance": 9,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3671,
-      "eval_samples_per_second": 136.219,
-      "eval_steps_per_second": 5.449,
-      "step": 38970
     },
     {
       "epoch": 15.01,
-      "learning_rate": 0.0005551278761440425,
-      "loss": 0.0101,
-      "step": 39000
-    },
-    {
-      "epoch": 15.16,
-      "learning_rate": 0.0005495680437943717,
-      "loss": 0.0078,
-      "step": 39390
     },
     {
       "epoch": 15.31,
-      "learning_rate": 0.0005440082114447011,
-      "loss": 0.0079,
-      "step": 39780
-    },
-    {
-      "epoch": 15.46,
-      "learning_rate": 0.0005384483790950304,
-      "loss": 0.0081,
-      "step": 40170
     },
     {
       "epoch": 15.61,
-      "learning_rate": 0.0005328885467453597,
-      "loss": 0.0085,
-      "step": 40560
-    },
-    {
-      "epoch": 15.76,
-      "learning_rate": 0.000527328714395689,
-      "loss": 0.0088,
-      "step": 40950
     },
     {
       "epoch": 15.91,
-      "learning_rate": 0.0005217688820460184,
-      "loss": 0.0083,
-      "step": 41340
     },
     {
       "epoch": 16.0,
-      "eval_loss": 0.08469703793525696,
-      "eval_max_distance": 14,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3815,
-      "eval_samples_per_second": 131.073,
-      "eval_steps_per_second": 5.243,
-      "step": 41568
-    },
-    {
-      "epoch": 16.06,
-      "learning_rate": 0.0005162090496963476,
-      "loss": 0.0081,
-      "step": 41730
     },
     {
       "epoch": 16.21,
-      "learning_rate": 0.000510649217346677,
-      "loss": 0.0069,
-      "step": 42120
-    },
-    {
-      "epoch": 16.36,
-      "learning_rate": 0.0005050893849970063,
-      "loss": 0.007,
-      "step": 42510
     },
     {
       "epoch": 16.51,
-      "learning_rate": 0.0004995295526473355,
-      "loss": 0.0071,
-      "step": 42900
-    },
-    {
-      "epoch": 16.66,
-      "learning_rate": 0.0004939697202976649,
-      "loss": 0.0073,
-      "step": 43290
     },
     {
       "epoch": 16.81,
-      "learning_rate": 0.0004884098879479942,
-      "loss": 0.0076,
-      "step": 43680
-    },
-    {
-      "epoch": 16.96,
-      "learning_rate": 0.0004828500555983235,
-      "loss": 0.0076,
-      "step": 44070
     },
     {
       "epoch": 17.0,
-      "eval_loss": 0.08625645935535431,
-      "eval_max_distance": 11,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3551,
-      "eval_samples_per_second": 140.8,
-      "eval_steps_per_second": 5.632,
-      "step": 44166
     },
     {
       "epoch": 17.11,
-      "learning_rate": 0.00047729022324865286,
-      "loss": 0.0064,
-      "step": 44460
-    },
-    {
-      "epoch": 17.26,
-      "learning_rate": 0.00047173039089898214,
-      "loss": 0.0059,
-      "step": 44850
     },
     {
       "epoch": 17.41,
-      "learning_rate": 0.0004661705585493115,
-      "loss": 0.0064,
-      "step": 45240
-    },
-    {
-      "epoch": 17.56,
-      "learning_rate": 0.0004606107261996408,
-      "loss": 0.0068,
-      "step": 45630
     },
     {
       "epoch": 17.71,
-      "learning_rate": 0.00045505089384997004,
-      "loss": 0.0066,
-      "step": 46020
-    },
-    {
-      "epoch": 17.86,
-      "learning_rate": 0.00044949106150029937,
-      "loss": 0.0064,
-      "step": 46410
     },
     {
       "epoch": 18.0,
-      "eval_loss": 0.08296500891447067,
-      "eval_max_distance": 14,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3721,
-      "eval_samples_per_second": 134.372,
-      "eval_steps_per_second": 5.375,
-      "step": 46764
     },
     {
       "epoch": 18.01,
-      "learning_rate": 0.0004439312291506287,
-      "loss": 0.0065,
-      "step": 46800
-    },
-    {
-      "epoch": 18.16,
-      "learning_rate": 0.000438371396800958,
-      "loss": 0.0055,
-      "step": 47190
     },
     {
       "epoch": 18.31,
-      "learning_rate": 0.0004328115644512873,
-      "loss": 0.0052,
-      "step": 47580
-    },
-    {
-      "epoch": 18.46,
-      "learning_rate": 0.00042725173210161665,
-      "loss": 0.0057,
-      "step": 47970
     },
     {
       "epoch": 18.61,
-      "learning_rate": 0.00042169189975194593,
-      "loss": 0.006,
-      "step": 48360
-    },
-    {
-      "epoch": 18.76,
-      "learning_rate": 0.00041613206740227527,
-      "loss": 0.0055,
-      "step": 48750
     },
     {
       "epoch": 18.91,
-      "learning_rate": 0.0004105722350526046,
-      "loss": 0.0054,
-      "step": 49140
     },
     {
       "epoch": 19.0,
-      "eval_loss": 0.08839410543441772,
-      "eval_max_distance": 11,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.367,
-      "eval_samples_per_second": 136.245,
-      "eval_steps_per_second": 5.45,
-      "step": 49362
-    },
-    {
-      "epoch": 19.06,
-      "learning_rate": 0.0004050124027029339,
-      "loss": 0.0057,
-      "step": 49530
     },
     {
       "epoch": 19.21,
-      "learning_rate": 0.0003994525703532632,
-      "loss": 0.0047,
-      "step": 49920
     },
     {
-      "epoch": 19.36,
-      "learning_rate": 0.0003938927380035925,
-      "loss": 0.0048,
-      "step": 50310
-    },
-    {
-      "epoch": 19.52,
-      "learning_rate": 0.00038833290565392183,
-      "loss": 0.0052,
-      "step": 50700
     },
     {
-      "epoch": 19.67,
-      "learning_rate": 0.00038277307330425117,
-      "loss": 0.005,
-      "step": 51090
     },
     {
-      "epoch": 19.82,
-      "learning_rate": 0.00037721324095458045,
-      "loss": 0.0048,
-      "step": 51480
     },
     {
-      "epoch": 19.97,
-      "learning_rate": 0.0003716534086049098,
-      "loss": 0.0052,
-      "step": 51870
     },
     {
-      "epoch": 20.0,
-      "eval_loss": 0.08214738219976425,
-      "eval_max_distance": 10,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.3692,
-      "eval_samples_per_second": 135.434,
-      "eval_steps_per_second": 5.417,
-      "step": 51960
     },
     {
-      "epoch": 20.12,
-      "learning_rate": 0.0003660935762552391,
-      "loss": 0.0049,
-      "step": 52260
     },
     {
-      "epoch": 20.27,
-      "learning_rate": 0.00036053374390556834,
-      "loss": 0.0043,
-      "step": 52650
     },
     {
-      "epoch": 20.42,
-      "learning_rate": 0.0003549739115558977,
-      "loss": 0.0043,
-      "step": 53040
     },
     {
-      "epoch": 20.57,
-      "learning_rate": 0.000349414079206227,
-      "loss": 0.0044,
-      "step": 53430
     },
     {
-      "epoch": 20.72,
-      "learning_rate": 0.0003438542468565563,
-      "loss": 0.0044,
-      "step": 53820
     },
     {
-      "epoch": 20.87,
-      "learning_rate": 0.0003382944145068856,
-      "loss": 0.0045,
-      "step": 54210
     },
     {
-      "epoch": 21.0,
-      "eval_loss": 0.0914614275097847,
-      "eval_max_distance": 14,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3653,
-      "eval_samples_per_second": 136.874,
-      "eval_steps_per_second": 5.475,
-      "step": 54558
     },
     {
-      "epoch": 21.02,
-      "learning_rate": 0.00033273458215721496,
-      "loss": 0.0041,
-      "step": 54600
     },
     {
-      "epoch": 21.17,
-      "learning_rate": 0.00032717474980754424,
-      "loss": 0.0035,
-      "step": 54990
     },
     {
-      "epoch": 21.32,
-      "learning_rate": 0.0003216149174578736,
-      "loss": 0.0038,
-      "step": 55380
     },
     {
-      "epoch": 21.47,
-      "learning_rate": 0.0003160550851082029,
-      "loss": 0.0038,
-      "step": 55770
     },
     {
-      "epoch": 21.62,
-      "learning_rate": 0.0003104952527585322,
-      "loss": 0.0041,
-      "step": 56160
     },
     {
-      "epoch": 21.77,
-      "learning_rate": 0.0003049354204088615,
-      "loss": 0.004,
-      "step": 56550
     },
     {
-      "epoch": 21.92,
-      "learning_rate": 0.00029937558805919086,
-      "loss": 0.0037,
-      "step": 56940
     },
     {
-      "epoch": 22.0,
-      "eval_loss": 0.09314610809087753,
-      "eval_max_distance": 14,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3634,
-      "eval_samples_per_second": 137.604,
-      "eval_steps_per_second": 5.504,
-      "step": 57156
     },
     {
-      "epoch": 22.07,
-      "learning_rate": 0.00029381575570952014,
-      "loss": 0.0037,
-      "step": 57330
     },
     {
-      "epoch": 22.22,
-      "learning_rate": 0.0002882559233598495,
-      "loss": 0.0033,
-      "step": 57720
     },
     {
-      "epoch": 22.37,
-      "learning_rate": 0.0002826960910101788,
-      "loss": 0.0034,
-      "step": 58110
     },
     {
-      "epoch": 22.52,
-      "learning_rate": 0.0002771362586605081,
-      "loss": 0.0034,
-      "step": 58500
     },
     {
-      "epoch": 22.67,
-      "learning_rate": 0.0002715764263108374,
-      "loss": 0.0035,
-      "step": 58890
     },
     {
-      "epoch": 22.82,
-      "learning_rate": 0.0002660165939611667,
-      "loss": 0.0034,
-      "step": 59280
     },
     {
-      "epoch": 22.97,
-      "learning_rate": 0.000260456761611496,
-      "loss": 0.0036,
-      "step": 59670
     },
     {
-      "epoch": 23.0,
-      "eval_loss": 0.09405915439128876,
-      "eval_max_distance": 9,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3715,
-      "eval_samples_per_second": 134.573,
-      "eval_steps_per_second": 5.383,
-      "step": 59754
     },
     {
-      "epoch": 23.12,
-      "learning_rate": 0.0002548969292618253,
-      "loss": 0.003,
-      "step": 60060
     },
     {
-      "epoch": 23.27,
-      "learning_rate": 0.00024933709691215465,
-      "loss": 0.0031,
-      "step": 60450
     },
     {
-      "epoch": 23.42,
-      "learning_rate": 0.00024377726456248396,
-      "loss": 0.003,
-      "step": 60840
     },
     {
-      "epoch": 23.57,
-      "learning_rate": 0.00023821743221281327,
-      "loss": 0.0029,
-      "step": 61230
     },
     {
-      "epoch": 23.72,
-      "learning_rate": 0.00023265759986314258,
-      "loss": 0.0028,
-      "step": 61620
     },
     {
-      "epoch": 23.87,
-      "learning_rate": 0.0002270977675134719,
-      "loss": 0.0028,
-      "step": 62010
     },
     {
-      "epoch": 24.0,
-      "eval_loss": 0.08611776679754257,
-      "eval_max_distance": 13,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3594,
-      "eval_samples_per_second": 139.139,
-      "eval_steps_per_second": 5.566,
-      "step": 62352
     },
     {
-      "epoch": 24.02,
-      "learning_rate": 0.00022153793516380122,
-      "loss": 0.0027,
-      "step": 62400
     },
     {
-      "epoch": 24.17,
-      "learning_rate": 0.00021597810281413053,
-      "loss": 0.0026,
-      "step": 62790
     },
     {
-      "epoch": 24.32,
-      "learning_rate": 0.00021041827046445986,
-      "loss": 0.0027,
-      "step": 63180
     },
     {
-      "epoch": 24.47,
-      "learning_rate": 0.00020485843811478917,
-      "loss": 0.0027,
-      "step": 63570
     },
     {
-      "epoch": 24.62,
-      "learning_rate": 0.00019929860576511847,
       "loss": 0.0027,
-      "step": 63960
     },
     {
-      "epoch": 24.77,
-      "learning_rate": 0.00019373877341544778,
-      "loss": 0.0024,
-      "step": 64350
     },
     {
-      "epoch": 24.92,
-      "learning_rate": 0.0001881789410657771,
       "loss": 0.0026,
-      "step": 64740
     },
     {
-      "epoch": 25.0,
-      "eval_loss": 0.09115344285964966,
-      "eval_max_distance": 12,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.3622,
-      "eval_samples_per_second": 138.045,
-      "eval_steps_per_second": 5.522,
-      "step": 64950
     },
     {
-      "epoch": 25.07,
-      "learning_rate": 0.0001826191087161064,
-      "loss": 0.0026,
-      "step": 65130
     },
     {
-      "epoch": 25.22,
-      "learning_rate": 0.00017705927636643573,
       "loss": 0.0023,
-      "step": 65520
     },
     {
-      "epoch": 25.37,
-      "learning_rate": 0.00017149944401676504,
       "loss": 0.0023,
-      "step": 65910
     },
     {
-      "epoch": 25.52,
-      "learning_rate": 0.00016593961166709435,
       "loss": 0.0021,
-      "step": 66300
     },
     {
-      "epoch": 25.67,
-      "learning_rate": 0.00016037977931742368,
-      "loss": 0.0021,
-      "step": 66690
     },
     {
-      "epoch": 25.82,
-      "learning_rate": 0.000154819946967753,
-      "loss": 0.0024,
-      "step": 67080
     },
     {
-      "epoch": 25.97,
-      "learning_rate": 0.0001492601146180823,
-      "loss": 0.0024,
-      "step": 67470
     },
     {
-      "epoch": 26.0,
-      "eval_loss": 0.09158334881067276,
-      "eval_max_distance": 9,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.3618,
-      "eval_samples_per_second": 138.208,
-      "eval_steps_per_second": 5.528,
-      "step": 67548
     },
     {
-      "epoch": 26.12,
-      "learning_rate": 0.0001437002822684116,
       "loss": 0.0021,
-      "step": 67860
     },
     {
-      "epoch": 26.27,
-      "learning_rate": 0.0001381404499187409,
-      "loss": 0.0019,
-      "step": 68250
     },
     {
-      "epoch": 26.42,
-      "learning_rate": 0.00013258061756907022,
       "loss": 0.002,
-      "step": 68640
     },
     {
-      "epoch": 26.57,
-      "learning_rate": 0.00012702078521939955,
       "loss": 0.0019,
-      "step": 69030
     },
     {
-      "epoch": 26.72,
-      "learning_rate": 0.00012146095286972886,
-      "loss": 0.0021,
-      "step": 69420
     },
     {
-      "epoch": 26.87,
-      "learning_rate": 0.00011590112052005817,
-      "loss": 0.002,
-      "step": 69810
     },
     {
-      "epoch": 27.0,
-      "eval_loss": 0.08878373354673386,
-      "eval_max_distance": 9,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.3454,
-      "eval_samples_per_second": 144.754,
-      "eval_steps_per_second": 5.79,
-      "step": 70146
     },
     {
-      "epoch": 27.02,
-      "learning_rate": 0.00011034128817038747,
-      "loss": 0.0021,
-      "step": 70200
     },
     {
-      "epoch": 27.17,
-      "learning_rate": 0.0001047814558207168,
       "loss": 0.0017,
-      "step": 70590
     },
     {
-      "epoch": 27.32,
-      "learning_rate": 9.92216234710461e-05,
-      "loss": 0.0018,
-      "step": 70980
     },
     {
-      "epoch": 27.47,
-      "learning_rate": 9.366179112137542e-05,
-      "loss": 0.0017,
-      "step": 71370
     },
     {
-      "epoch": 27.62,
-      "learning_rate": 8.810195877170473e-05,
       "loss": 0.0016,
-      "step": 71760
     },
     {
-      "epoch": 27.77,
-      "learning_rate": 8.254212642203404e-05,
-      "loss": 0.002,
-      "step": 72150
     },
     {
-      "epoch": 27.92,
-      "learning_rate": 7.698229407236336e-05,
       "loss": 0.0017,
-      "step": 72540
     },
     {
-      "epoch": 28.0,
-      "eval_loss": 0.08879587054252625,
-      "eval_max_distance": 9,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.3476,
-      "eval_samples_per_second": 143.846,
-      "eval_steps_per_second": 5.754,
-      "step": 72744
     },
     {
-      "epoch": 28.07,
-      "learning_rate": 7.142246172269268e-05,
-      "loss": 0.0016,
-      "step": 72930
     },
     {
-      "epoch": 28.22,
-      "learning_rate": 6.586262937302199e-05,
       "loss": 0.0016,
-      "step": 73320
     },
     {
-      "epoch": 28.37,
-      "learning_rate": 6.03027970233513e-05,
       "loss": 0.0016,
-      "step": 73710
     },
     {
-      "epoch": 28.52,
-      "learning_rate": 5.474296467368061e-05,
-      "loss": 0.0016,
-      "step": 74100
     },
     {
-      "epoch": 28.67,
-      "learning_rate": 4.9183132324009924e-05,
-      "loss": 0.0016,
-      "step": 74490
     },
     {
-      "epoch": 28.82,
-      "learning_rate": 4.362329997433924e-05,
-      "loss": 0.0017,
-      "step": 74880
     },
     {
-      "epoch": 28.97,
-      "learning_rate": 3.806346762466855e-05,
-      "loss": 0.0017,
-      "step": 75270
     },
     {
-      "epoch": 29.0,
-      "eval_loss": 0.09515639394521713,
-      "eval_max_distance": 9,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.343,
-      "eval_samples_per_second": 145.752,
-      "eval_steps_per_second": 5.83,
-      "step": 75342
     },
     {
-      "epoch": 29.12,
-      "learning_rate": 3.250363527499786e-05,
       "loss": 0.0015,
-      "step": 75660
     },
     {
-      "epoch": 29.27,
-      "learning_rate": 2.6943802925327177e-05,
-      "loss": 0.0016,
-      "step": 76050
     },
     {
-      "epoch": 29.42,
-      "learning_rate": 2.1383970575656488e-05,
       "loss": 0.0014,
-      "step": 76440
     },
     {
-      "epoch": 29.57,
-      "learning_rate": 1.5824138225985802e-05,
       "loss": 0.0013,
-      "step": 76830
     },
     {
-      "epoch": 29.72,
-      "learning_rate": 1.0264305876315115e-05,
-      "loss": 0.0014,
-      "step": 77220
     },
     {
-      "epoch": 29.87,
-      "learning_rate": 4.704473526644427e-06,
-      "loss": 0.0014,
-      "step": 77610
     },
     {
-      "epoch": 30.0,
-      "eval_loss": 0.09847646951675415,
-      "eval_max_distance": 9,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.3435,
-      "eval_samples_per_second": 145.564,
-      "eval_steps_per_second": 5.823,
-      "step": 77940
     },
     {
-      "epoch": 30.0,
-      "step": 77940,
-      "total_flos": 4.517674593940685e+16,
-      "train_loss": 0.053724035134690526,
-      "train_runtime": 6582.4117,
-      "train_samples_per_second": 355.137,
-      "train_steps_per_second": 11.841
     }
   ],
-  "logging_steps": 390,
-  "max_steps": 77940,
-  "num_train_epochs": 30,
-  "save_steps": 780,
-  "total_flos": 4.517674593940685e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 60.0,
   "eval_steps": 500,
+  "global_step": 197880,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 5.0535678188801295e-08,
+      "loss": 12.7149,
       "step": 1
     },
     {
       "epoch": 0.3,
+      "learning_rate": 5.0030321406913285e-05,
+      "loss": 3.3584,
+      "step": 990
     },
     {
       "epoch": 0.6,
+      "learning_rate": 0.00010006064281382657,
+      "loss": 0.3384,
+      "step": 1980
     },
     {
       "epoch": 0.9,
+      "learning_rate": 0.00015009096422073984,
+      "loss": 0.2236,
+      "step": 2970
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.11203870922327042,
+      "eval_max_distance": 133,
+      "eval_mean_distance": 5,
+      "eval_runtime": 0.5965,
+      "eval_samples_per_second": 83.828,
+      "eval_steps_per_second": 3.353,
+      "step": 3298
     },
     {
       "epoch": 1.2,
+      "learning_rate": 0.00020012128562765314,
+      "loss": 0.1679,
+      "step": 3960
     },
     {
       "epoch": 1.5,
+      "learning_rate": 0.0002501516070345664,
+      "loss": 0.1395,
+      "step": 4950
     },
     {
       "epoch": 1.8,
+      "learning_rate": 0.0003001819284414797,
+      "loss": 0.1179,
+      "step": 5940
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.05475025996565819,
+      "eval_max_distance": 82,
+      "eval_mean_distance": 3,
+      "eval_runtime": 0.5422,
+      "eval_samples_per_second": 92.223,
+      "eval_steps_per_second": 3.689,
+      "step": 6596
     },
     {
       "epoch": 2.1,
+      "learning_rate": 0.0003502122498483929,
+      "loss": 0.1022,
+      "step": 6930
     },
     {
       "epoch": 2.4,
+      "learning_rate": 0.0004002425712553063,
+      "loss": 0.0917,
+      "step": 7920
     },
     {
       "epoch": 2.7,
+      "learning_rate": 0.0004502728926622195,
+      "loss": 0.0829,
+      "step": 8910
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.042510777711868286,
+      "eval_max_distance": 46,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.5158,
+      "eval_samples_per_second": 96.928,
+      "eval_steps_per_second": 3.877,
+      "step": 9894
     },
     {
       "epoch": 3.0,
+      "learning_rate": 0.0005003032140691328,
+      "loss": 0.0769,
+      "step": 9900
     },
     {
       "epoch": 3.3,
+      "learning_rate": 0.0005503335354760462,
+      "loss": 0.0667,
+      "step": 10890
     },
     {
       "epoch": 3.6,
+      "learning_rate": 0.0006003638568829594,
       "loss": 0.0653,
+      "step": 11880
     },
     {
       "epoch": 3.9,
+      "learning_rate": 0.0006503941782898727,
+      "loss": 0.0643,
+      "step": 12870
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.03110930137336254,
+      "eval_max_distance": 64,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.4848,
+      "eval_samples_per_second": 103.129,
+      "eval_steps_per_second": 4.125,
+      "step": 13192
     },
     {
       "epoch": 4.2,
+      "learning_rate": 0.0007004244996967858,
+      "loss": 0.0589,
+      "step": 13860
     },
     {
       "epoch": 4.5,
+      "learning_rate": 0.0007504548211036993,
+      "loss": 0.0549,
+      "step": 14850
     },
     {
       "epoch": 4.8,
+      "learning_rate": 0.0008004851425106126,
+      "loss": 0.0538,
+      "step": 15840
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.026651622727513313,
+      "eval_max_distance": 48,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.5057,
+      "eval_samples_per_second": 98.878,
+      "eval_steps_per_second": 3.955,
+      "step": 16490
     },
     {
       "epoch": 5.1,
+      "learning_rate": 0.0008505154639175257,
+      "loss": 0.048,
+      "step": 16830
     },
     {
       "epoch": 5.4,
+      "learning_rate": 0.000900545785324439,
+      "loss": 0.0461,
+      "step": 17820
     },
     {
       "epoch": 5.7,
+      "learning_rate": 0.0009505761067313523,
+      "loss": 0.0469,
+      "step": 18810
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.039574604481458664,
+      "eval_max_distance": 80,
+      "eval_mean_distance": 2,
+      "eval_runtime": 0.5179,
+      "eval_samples_per_second": 96.548,
+      "eval_steps_per_second": 3.862,
+      "step": 19788
     },
     {
       "epoch": 6.0,
+      "learning_rate": 0.0009999326190957482,
+      "loss": 0.0464,
+      "step": 19800
     },
     {
       "epoch": 6.3,
+      "learning_rate": 0.0009943736944949802,
+      "loss": 0.0393,
+      "step": 20790
     },
     {
+      "epoch": 6.6,
+      "learning_rate": 0.000988814769894212,
+      "loss": 0.0426,
+      "step": 21780
     },
     {
+      "epoch": 6.9,
+      "learning_rate": 0.000983255845293444,
+      "loss": 0.0385,
+      "step": 22770
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.026188833639025688,
+      "eval_max_distance": 73,
+      "eval_mean_distance": 2,
+      "eval_runtime": 0.4896,
+      "eval_samples_per_second": 102.115,
+      "eval_steps_per_second": 4.085,
+      "step": 23086
     },
     {
+      "epoch": 7.2,
+      "learning_rate": 0.0009776969206926756,
+      "loss": 0.034,
+      "step": 23760
     },
     {
+      "epoch": 7.5,
+      "learning_rate": 0.0009721379960919076,
+      "loss": 0.0315,
+      "step": 24750
     },
     {
+      "epoch": 7.8,
+      "learning_rate": 0.0009665790714911395,
+      "loss": 0.0316,
+      "step": 25740
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.02234221063554287,
+      "eval_max_distance": 40,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.4837,
+      "eval_samples_per_second": 103.365,
+      "eval_steps_per_second": 4.135,
+      "step": 26384
     },
     {
+      "epoch": 8.1,
+      "learning_rate": 0.0009610201468903713,
+      "loss": 0.0305,
+      "step": 26730
     },
     {
       "epoch": 8.41,
+      "learning_rate": 0.0009554612222896032,
+      "loss": 0.0271,
+      "step": 27720
     },
     {
       "epoch": 8.71,
+      "learning_rate": 0.0009499022976888349,
+      "loss": 0.0263,
+      "step": 28710
     },
     {
       "epoch": 9.0,
+      "eval_loss": 0.023996921256184578,
+      "eval_max_distance": 69,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.4894,
+      "eval_samples_per_second": 102.167,
+      "eval_steps_per_second": 4.087,
+      "step": 29682
     },
     {
       "epoch": 9.01,
+      "learning_rate": 0.0009443433730880669,
+      "loss": 0.0282,
+      "step": 29700
     },
     {
       "epoch": 9.31,
+      "learning_rate": 0.0009387844484872987,
+      "loss": 0.0229,
+      "step": 30690
     },
     {
       "epoch": 9.61,
+      "learning_rate": 0.0009332255238865306,
+      "loss": 0.0226,
+      "step": 31680
     },
     {
       "epoch": 9.91,
+      "learning_rate": 0.0009276665992857625,
+      "loss": 0.0226,
+      "step": 32670
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.02030733972787857,
+      "eval_max_distance": 60,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.4797,
+      "eval_samples_per_second": 104.236,
+      "eval_steps_per_second": 4.169,
+      "step": 32980
     },
     {
       "epoch": 10.21,
+      "learning_rate": 0.0009221076746849943,
+      "loss": 0.0209,
+      "step": 33660
     },
     {
       "epoch": 10.51,
+      "learning_rate": 0.0009165487500842261,
+      "loss": 0.02,
+      "step": 34650
     },
     {
       "epoch": 10.81,
+      "learning_rate": 0.000910989825483458,
+      "loss": 0.0203,
+      "step": 35640
     },
     {
       "epoch": 11.0,
+      "eval_loss": 0.017732510343194008,
+      "eval_max_distance": 54,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.4814,
+      "eval_samples_per_second": 103.858,
+      "eval_steps_per_second": 4.154,
+      "step": 36278
     },
     {
       "epoch": 11.11,
+      "learning_rate": 0.0009054309008826899,
+      "loss": 0.0183,
+      "step": 36630
     },
     {
       "epoch": 11.41,
+      "learning_rate": 0.0008998719762819217,
+      "loss": 0.0174,
+      "step": 37620
     },
     {
       "epoch": 11.71,
+      "learning_rate": 0.0008943130516811536,
+      "loss": 0.0178,
+      "step": 38610
     },
     {
       "epoch": 12.0,
+      "eval_loss": 0.018777821213006973,
+      "eval_max_distance": 61,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.4893,
+      "eval_samples_per_second": 102.185,
+      "eval_steps_per_second": 4.087,
+      "step": 39576
     },
     {
       "epoch": 12.01,
+      "learning_rate": 0.0008887541270803853,
+      "loss": 0.0174,
+      "step": 39600
     },
     {
       "epoch": 12.31,
+      "learning_rate": 0.0008831952024796173,
+      "loss": 0.0153,
+      "step": 40590
     },
     {
       "epoch": 12.61,
+      "learning_rate": 0.0008776362778788492,
+      "loss": 0.015,
+      "step": 41580
     },
     {
       "epoch": 12.91,
+      "learning_rate": 0.000872077353278081,
+      "loss": 0.0154,
+      "step": 42570
     },
     {
       "epoch": 13.0,
+      "eval_loss": 0.029613599181175232,
+      "eval_max_distance": 65,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.4669,
+      "eval_samples_per_second": 107.079,
+      "eval_steps_per_second": 4.283,
+      "step": 42874
     },
     {
       "epoch": 13.21,
+      "learning_rate": 0.0008665184286773129,
+      "loss": 0.014,
+      "step": 43560
     },
     {
       "epoch": 13.51,
+      "learning_rate": 0.0008609595040765447,
+      "loss": 0.0135,
+      "step": 44550
     },
     {
       "epoch": 13.81,
+      "learning_rate": 0.0008554005794757766,
+      "loss": 0.0138,
+      "step": 45540
     },
     {
       "epoch": 14.0,
+      "eval_loss": 0.02011469565331936,
+      "eval_max_distance": 55,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.5034,
+      "eval_samples_per_second": 99.332,
+      "eval_steps_per_second": 3.973,
+      "step": 46172
     },
     {
       "epoch": 14.11,
+      "learning_rate": 0.0008498416548750084,
+      "loss": 0.0128,
+      "step": 46530
     },
     {
       "epoch": 14.41,
+      "learning_rate": 0.0008442827302742403,
+      "loss": 0.0121,
+      "step": 47520
     },
     {
       "epoch": 14.71,
+      "learning_rate": 0.0008387238056734722,
+      "loss": 0.012,
+      "step": 48510
     },
     {
       "epoch": 15.0,
+      "eval_loss": 0.026753582060337067,
+      "eval_max_distance": 67,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.4716,
+      "eval_samples_per_second": 106.031,
+      "eval_steps_per_second": 4.241,
+      "step": 49470
     },
     {
       "epoch": 15.01,
+      "learning_rate": 0.000833164881072704,
+      "loss": 0.0123,
+      "step": 49500
     },
     {
       "epoch": 15.31,
+      "learning_rate": 0.0008276059564719359,
+      "loss": 0.0104,
+      "step": 50490
     },
     {
       "epoch": 15.61,
+      "learning_rate": 0.0008220470318711677,
+      "loss": 0.0109,
+      "step": 51480
     },
     {
       "epoch": 15.91,
+      "learning_rate": 0.0008164881072703996,
+      "loss": 0.0109,
+      "step": 52470
     },
     {
       "epoch": 16.0,
+      "eval_loss": 0.01633359119296074,
+      "eval_max_distance": 35,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.4971,
+      "eval_samples_per_second": 100.579,
+      "eval_steps_per_second": 4.023,
+      "step": 52768
     },
     {
       "epoch": 16.21,
+      "learning_rate": 0.0008109291826696314,
+      "loss": 0.0098,
+      "step": 53460
     },
     {
       "epoch": 16.51,
+      "learning_rate": 0.0008053702580688633,
+      "loss": 0.0094,
+      "step": 54450
     },
     {
       "epoch": 16.81,
+      "learning_rate": 0.0007998113334680952,
+      "loss": 0.0105,
+      "step": 55440
     },
     {
       "epoch": 17.0,
+      "eval_loss": 0.013592842034995556,
+      "eval_max_distance": 26,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.48,
+      "eval_samples_per_second": 104.157,
+      "eval_steps_per_second": 4.166,
+      "step": 56066
     },
     {
       "epoch": 17.11,
+      "learning_rate": 0.000794252408867327,
+      "loss": 0.0097,
+      "step": 56430
     },
     {
       "epoch": 17.41,
+      "learning_rate": 0.0007886934842665589,
+      "loss": 0.0083,
+      "step": 57420
     },
     {
       "epoch": 17.71,
+      "learning_rate": 0.0007831345596657907,
+      "loss": 0.0092,
+      "step": 58410
     },
     {
       "epoch": 18.0,
+      "eval_loss": 0.020196767523884773,
+      "eval_max_distance": 65,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.4567,
+      "eval_samples_per_second": 109.487,
+      "eval_steps_per_second": 4.379,
+      "step": 59364
     },
     {
       "epoch": 18.01,
+      "learning_rate": 0.0007775756350650226,
+      "loss": 0.009,
+      "step": 59400
     },
     {
       "epoch": 18.31,
+      "learning_rate": 0.0007720167104642545,
+      "loss": 0.0075,
+      "step": 60390
     },
     {
       "epoch": 18.61,
+      "learning_rate": 0.0007664577858634864,
+      "loss": 0.0078,
+      "step": 61380
     },
     {
       "epoch": 18.91,
+      "learning_rate": 0.0007608988612627181,
+      "loss": 0.0087,
+      "step": 62370
     },
     {
       "epoch": 19.0,
+      "eval_loss": 0.02213277295231819,
+      "eval_max_distance": 65,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.4707,
+      "eval_samples_per_second": 106.233,
+      "eval_steps_per_second": 4.249,
+      "step": 62662
     },
     {
       "epoch": 19.21,
+      "learning_rate": 0.00075533993666195,
+      "loss": 0.0077,
+      "step": 63360
     },
     {
+      "epoch": 19.51,
+      "learning_rate": 0.0007497810120611818,
+      "loss": 0.0071,
+      "step": 64350
     },
     {
+      "epoch": 19.81,
+      "learning_rate": 0.0007442220874604138,
+      "loss": 0.0075,
+      "step": 65340
     },
     {
+      "epoch": 20.0,
+      "eval_loss": 0.020336275920271873,
+      "eval_max_distance": 33,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.4773,
+      "eval_samples_per_second": 104.749,
+      "eval_steps_per_second": 4.19,
+      "step": 65960
     },
     {
+      "epoch": 20.11,
+      "learning_rate": 0.0007386631628596457,
+      "loss": 0.0073,
+      "step": 66330
     },
     {
+      "epoch": 20.41,
+      "learning_rate": 0.0007331042382588774,
+      "loss": 0.0063,
+      "step": 67320
     },
     {
+      "epoch": 20.71,
+      "learning_rate": 0.0007275453136581093,
+      "loss": 0.0067,
+      "step": 68310
     },
     {
+      "epoch": 21.0,
+      "eval_loss": 0.022562623023986816,
+      "eval_max_distance": 26,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.5033,
+      "eval_samples_per_second": 99.35,
+      "eval_steps_per_second": 3.974,
+      "step": 69258
     },
     {
+      "epoch": 21.01,
+      "learning_rate": 0.0007219863890573411,
+      "loss": 0.007,
+      "step": 69300
     },
     {
+      "epoch": 21.31,
+      "learning_rate": 0.000716427464456573,
+      "loss": 0.0061,
+      "step": 70290
     },
     {
+      "epoch": 21.61,
+      "learning_rate": 0.0007108685398558049,
+      "loss": 0.006,
+      "step": 71280
     },
     {
+      "epoch": 21.91,
+      "learning_rate": 0.0007053096152550368,
+      "loss": 0.0062,
+      "step": 72270
     },
     {
+      "epoch": 22.0,
+      "eval_loss": 0.01839238964021206,
+      "eval_max_distance": 24,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.4856,
+      "eval_samples_per_second": 102.959,
+      "eval_steps_per_second": 4.118,
+      "step": 72556
     },
     {
+      "epoch": 22.21,
+      "learning_rate": 0.0006997506906542685,
+      "loss": 0.0057,
+      "step": 73260
     },
     {
+      "epoch": 22.51,
+      "learning_rate": 0.0006941917660535004,
+      "loss": 0.0058,
+      "step": 74250
     },
     {
+      "epoch": 22.81,
+      "learning_rate": 0.0006886328414527323,
+      "loss": 0.0059,
+      "step": 75240
     },
     {
+      "epoch": 23.0,
+      "eval_loss": 0.013111269101500511,
+      "eval_max_distance": 18,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.5001,
+      "eval_samples_per_second": 99.983,
+      "eval_steps_per_second": 3.999,
+      "step": 75854
     },
     {
+      "epoch": 23.11,
+      "learning_rate": 0.0006830739168519642,
+      "loss": 0.0055,
+      "step": 76230
     },
     {
+      "epoch": 23.41,
+      "learning_rate": 0.0006775149922511961,
+      "loss": 0.0051,
+      "step": 77220
     },
     {
+      "epoch": 23.71,
+      "learning_rate": 0.0006719560676504279,
+      "loss": 0.0054,
+      "step": 78210
     },
     {
+      "epoch": 24.0,
+      "eval_loss": 0.026959825307130814,
+      "eval_max_distance": 58,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.4725,
+      "eval_samples_per_second": 105.825,
+      "eval_steps_per_second": 4.233,
+      "step": 79152
     },
     {
+      "epoch": 24.01,
+      "learning_rate": 0.0006663971430496597,
+      "loss": 0.0055,
+      "step": 79200
     },
     {
+      "epoch": 24.31,
+      "learning_rate": 0.0006608382184488915,
+      "loss": 0.0046,
+      "step": 80190
     },
     {
+      "epoch": 24.61,
+      "learning_rate": 0.0006552792938481235,
+      "loss": 0.005,
+      "step": 81180
     },
     {
+      "epoch": 24.92,
+      "learning_rate": 0.0006497203692473554,
+      "loss": 0.0052,
+      "step": 82170
     },
     {
+      "epoch": 25.0,
+      "eval_loss": 0.024379713460803032,
+      "eval_max_distance": 45,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.47,
+      "eval_samples_per_second": 106.387,
+      "eval_steps_per_second": 4.255,
+      "step": 82450
     },
     {
+      "epoch": 25.22,
+      "learning_rate": 0.0006441614446465872,
+      "loss": 0.0048,
+      "step": 83160
     },
     {
+      "epoch": 25.52,
+      "learning_rate": 0.000638602520045819,
+      "loss": 0.0045,
+      "step": 84150
     },
     {
+      "epoch": 25.82,
+      "learning_rate": 0.0006330435954450508,
+      "loss": 0.0044,
+      "step": 85140
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 0.014908027835190296,
+      "eval_max_distance": 23,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.4819,
+      "eval_samples_per_second": 103.748,
+      "eval_steps_per_second": 4.15,
+      "step": 85748
     },
     {
+      "epoch": 26.12,
+      "learning_rate": 0.0006274846708442828,
+      "loss": 0.0044,
+      "step": 86130
     },
     {
+      "epoch": 26.42,
+      "learning_rate": 0.0006219257462435146,
+      "loss": 0.0042,
+      "step": 87120
     },
     {
+      "epoch": 26.72,
+      "learning_rate": 0.0006163668216427465,
+      "loss": 0.0043,
+      "step": 88110
     },
     {
+      "epoch": 27.0,
+      "eval_loss": 0.0256387647241354,
+      "eval_max_distance": 63,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.5104,
+      "eval_samples_per_second": 97.954,
+      "eval_steps_per_second": 3.918,
+      "step": 89046
     },
     {
+      "epoch": 27.02,
+      "learning_rate": 0.0006108078970419783,
+      "loss": 0.0043,
+      "step": 89100
     },
     {
+      "epoch": 27.32,
+      "learning_rate": 0.0006052489724412101,
+      "loss": 0.004,
+      "step": 90090
     },
     {
+      "epoch": 27.62,
+      "learning_rate": 0.0005996900478404421,
+      "loss": 0.0037,
+      "step": 91080
+    },
+    {
+      "epoch": 27.92,
+      "learning_rate": 0.0005941311232396739,
+      "loss": 0.0038,
+      "step": 92070
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 0.017227506265044212,
+      "eval_max_distance": 30,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.4632,
+      "eval_samples_per_second": 107.934,
+      "eval_steps_per_second": 4.317,
+      "step": 92344
     },
     {
+      "epoch": 28.22,
+      "learning_rate": 0.0005885721986389058,
+      "loss": 0.0037,
+      "step": 93060
     },
     {
+      "epoch": 28.52,
+      "learning_rate": 0.0005830132740381376,
+      "loss": 0.0038,
+      "step": 94050
     },
     {
+      "epoch": 28.82,
+      "learning_rate": 0.0005774543494373694,
+      "loss": 0.0036,
+      "step": 95040
     },
     {
+      "epoch": 29.0,
+      "eval_loss": 0.022354494780302048,
+      "eval_max_distance": 37,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.4846,
+      "eval_samples_per_second": 103.187,
+      "eval_steps_per_second": 4.127,
+      "step": 95642
+    },
+    {
+      "epoch": 29.12,
+      "learning_rate": 0.0005718954248366013,
+      "loss": 0.0037,
+      "step": 96030
+    },
+    {
+      "epoch": 29.42,
+      "learning_rate": 0.0005663365002358332,
+      "loss": 0.0033,
+      "step": 97020
+    },
+    {
+      "epoch": 29.72,
+      "learning_rate": 0.000560777575635065,
+      "loss": 0.0033,
+      "step": 98010
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.01936698891222477,
+      "eval_max_distance": 30,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.4829,
+      "eval_samples_per_second": 103.544,
+      "eval_steps_per_second": 4.142,
+      "step": 98940
+    },
+    {
+      "epoch": 30.02,
+      "learning_rate": 0.0005552186510342969,
+      "loss": 0.0035,
+      "step": 99000
+    },
+    {
+      "epoch": 30.32,
+      "learning_rate": 0.0005496597264335288,
+      "loss": 0.003,
+      "step": 99990
+    },
+    {
+      "epoch": 30.62,
+      "learning_rate": 0.0005441008018327606,
+      "loss": 0.0033,
+      "step": 100980
+    },
+    {
+      "epoch": 30.92,
+      "learning_rate": 0.0005385418772319925,
+      "loss": 0.0031,
+      "step": 101970
+    },
+    {
+      "epoch": 31.0,
+      "eval_loss": 0.023793019354343414,
+      "eval_max_distance": 59,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.5012,
+      "eval_samples_per_second": 99.754,
+      "eval_steps_per_second": 3.99,
+      "step": 102238
+    },
+    {
+      "epoch": 31.22,
+      "learning_rate": 0.0005329829526312243,
+      "loss": 0.0029,
+      "step": 102960
+    },
+    {
+      "epoch": 31.52,
+      "learning_rate": 0.0005274240280304562,
+      "loss": 0.003,
+      "step": 103950
+    },
+    {
+      "epoch": 31.82,
+      "learning_rate": 0.000521865103429688,
+      "loss": 0.003,
+      "step": 104940
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 0.02003033086657524,
+      "eval_max_distance": 28,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.475,
+      "eval_samples_per_second": 105.268,
+      "eval_steps_per_second": 4.211,
+      "step": 105536
+    },
+    {
+      "epoch": 32.12,
+      "learning_rate": 0.00051630617882892,
+      "loss": 0.0028,
+      "step": 105930
     },
     {
+      "epoch": 32.42,
+      "learning_rate": 0.0005107472542281517,
       "loss": 0.0027,
+      "step": 106920
     },
     {
+      "epoch": 32.72,
+      "learning_rate": 0.0005051883296273836,
+      "loss": 0.0028,
+      "step": 107910
     },
     {
+      "epoch": 33.0,
+      "eval_loss": 0.01606147363781929,
+      "eval_max_distance": 18,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.4673,
+      "eval_samples_per_second": 107.008,
+      "eval_steps_per_second": 4.28,
+      "step": 108834
+    },
+    {
+      "epoch": 33.02,
+      "learning_rate": 0.0004996294050266155,
+      "loss": 0.0028,
+      "step": 108900
+    },
+    {
+      "epoch": 33.32,
+      "learning_rate": 0.0004940704804258473,
       "loss": 0.0026,
+      "step": 109890
     },
     {
+      "epoch": 33.62,
+      "learning_rate": 0.0004885115558250792,
+      "loss": 0.0026,
+      "step": 110880
+    },
+    {
+      "epoch": 33.92,
+      "learning_rate": 0.00048295263122431103,
+      "loss": 0.0027,
+      "step": 111870
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 0.021506933495402336,
+      "eval_max_distance": 26,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.4763,
+      "eval_samples_per_second": 104.968,
+      "eval_steps_per_second": 4.199,
+      "step": 112132
     },
     {
+      "epoch": 34.22,
+      "learning_rate": 0.00047739370662354294,
+      "loss": 0.0024,
+      "step": 112860
     },
     {
+      "epoch": 34.52,
+      "learning_rate": 0.00047183478202277474,
       "loss": 0.0023,
+      "step": 113850
     },
     {
+      "epoch": 34.82,
+      "learning_rate": 0.0004662758574220066,
+      "loss": 0.0025,
+      "step": 114840
+    },
+    {
+      "epoch": 35.0,
+      "eval_loss": 0.019841769710183144,
+      "eval_max_distance": 19,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.4767,
+      "eval_samples_per_second": 104.884,
+      "eval_steps_per_second": 4.195,
+      "step": 115430
+    },
+    {
+      "epoch": 35.12,
+      "learning_rate": 0.00046071693282123845,
       "loss": 0.0023,
+      "step": 115830
     },
     {
+      "epoch": 35.42,
+      "learning_rate": 0.0004551580082204703,
       "loss": 0.0021,
+      "step": 116820
     },
     {
+      "epoch": 35.72,
+      "learning_rate": 0.0004495990836197022,
+      "loss": 0.0023,
+      "step": 117810
     },
     {
+      "epoch": 36.0,
+      "eval_loss": 0.01675160974264145,
+      "eval_max_distance": 24,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.4591,
+      "eval_samples_per_second": 108.901,
+      "eval_steps_per_second": 4.356,
+      "step": 118728
     },
     {
+      "epoch": 36.02,
+      "learning_rate": 0.000444040159018934,
+      "loss": 0.0023,
+      "step": 118800
     },
     {
+      "epoch": 36.32,
+      "learning_rate": 0.0004384812344181659,
+      "loss": 0.0021,
+      "step": 119790
     },
     {
+      "epoch": 36.62,
+      "learning_rate": 0.0004329223098173978,
       "loss": 0.0021,
+      "step": 120780
     },
     {
+      "epoch": 36.92,
+      "learning_rate": 0.0004273633852166296,
+      "loss": 0.002,
+      "step": 121770
     },
     {
+      "epoch": 37.0,
+      "eval_loss": 0.022139811888337135,
+      "eval_max_distance": 32,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.4713,
+      "eval_samples_per_second": 106.08,
+      "eval_steps_per_second": 4.243,
+      "step": 122026
+    },
+    {
+      "epoch": 37.22,
+      "learning_rate": 0.0004218044606158615,
       "loss": 0.002,
+      "step": 122760
     },
     {
+      "epoch": 37.52,
+      "learning_rate": 0.00041624553601509335,
       "loss": 0.0019,
+      "step": 123750
     },
     {
+      "epoch": 37.82,
+      "learning_rate": 0.00041068661141432515,
+      "loss": 0.0019,
+      "step": 124740
     },
     {
+      "epoch": 38.0,
+      "eval_loss": 0.02140805311501026,
+      "eval_max_distance": 32,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.4808,
+      "eval_samples_per_second": 104.001,
+      "eval_steps_per_second": 4.16,
+      "step": 125324
     },
     {
+      "epoch": 38.12,
+      "learning_rate": 0.00040512768681355706,
+      "loss": 0.0019,
+      "step": 125730
     },
     {
+      "epoch": 38.42,
+      "learning_rate": 0.0003995687622127889,
+      "loss": 0.0018,
+      "step": 126720
     },
     {
+      "epoch": 38.72,
+      "learning_rate": 0.0003940098376120208,
       "loss": 0.0017,
+      "step": 127710
     },
     {
+      "epoch": 39.0,
+      "eval_loss": 0.018618840724229813,
+      "eval_max_distance": 19,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.4752,
+      "eval_samples_per_second": 105.222,
+      "eval_steps_per_second": 4.209,
+      "step": 128622
     },
     {
+      "epoch": 39.02,
+      "learning_rate": 0.00038845091301125263,
+      "loss": 0.002,
+      "step": 128700
     },
     {
+      "epoch": 39.32,
+      "learning_rate": 0.0003828919884104845,
       "loss": 0.0016,
+      "step": 129690
     },
     {
+      "epoch": 39.62,
+      "learning_rate": 0.00037733306380971634,
+      "loss": 0.0017,
+      "step": 130680
     },
     {
+      "epoch": 39.92,
+      "learning_rate": 0.0003717741392089482,
       "loss": 0.0017,
+      "step": 131670
     },
     {
+      "epoch": 40.0,
+      "eval_loss": 0.017086679115891457,
+      "eval_max_distance": 23,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.458,
+      "eval_samples_per_second": 109.178,
+      "eval_steps_per_second": 4.367,
+      "step": 131920
     },
     {
+      "epoch": 40.22,
+      "learning_rate": 0.00036621521460818,
+      "loss": 0.0015,
+      "step": 132660
     },
     {
+      "epoch": 40.52,
+      "learning_rate": 0.0003606562900074119,
       "loss": 0.0016,
+      "step": 133650
     },
     {
+      "epoch": 40.82,
+      "learning_rate": 0.00035509736540664376,
       "loss": 0.0016,
+      "step": 134640
     },
     {
+      "epoch": 41.0,
+      "eval_loss": 0.01638130471110344,
+      "eval_max_distance": 17,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.4581,
+      "eval_samples_per_second": 109.147,
+      "eval_steps_per_second": 4.366,
+      "step": 135218
     },
     {
+      "epoch": 41.12,
+      "learning_rate": 0.0003495384408058756,
+      "loss": 0.0015,
+      "step": 135630
     },
     {
+      "epoch": 41.43,
+      "learning_rate": 0.0003439795162051075,
+      "loss": 0.0014,
+      "step": 136620
     },
     {
+      "epoch": 41.73,
+      "learning_rate": 0.00033842059160433933,
+      "loss": 0.0015,
+      "step": 137610
     },
     {
+      "epoch": 42.0,
+      "eval_loss": 0.016585057601332664,
+      "eval_max_distance": 21,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.479,
+      "eval_samples_per_second": 104.393,
+      "eval_steps_per_second": 4.176,
+      "step": 138516
     },
     {
+      "epoch": 42.03,
+      "learning_rate": 0.0003328616670035712,
+      "loss": 0.0014,
+      "step": 138600
+    },
+    {
+      "epoch": 42.33,
+      "learning_rate": 0.00032730274240280304,
       "loss": 0.0015,
+      "step": 139590
     },
     {
+      "epoch": 42.63,
+      "learning_rate": 0.00032174381780203495,
+      "loss": 0.0015,
+      "step": 140580
     },
     {
+      "epoch": 42.93,
+      "learning_rate": 0.00031618489320126675,
       "loss": 0.0014,
+      "step": 141570
+    },
+    {
+      "epoch": 43.0,
+      "eval_loss": 0.016704820096492767,
+      "eval_max_distance": 21,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.4809,
+      "eval_samples_per_second": 103.976,
+      "eval_steps_per_second": 4.159,
+      "step": 141814
+    },
+    {
+      "epoch": 43.23,
+      "learning_rate": 0.0003106259686004986,
+      "loss": 0.0011,
+      "step": 142560
     },
     {
+      "epoch": 43.53,
+      "learning_rate": 0.0003050670439997305,
       "loss": 0.0013,
+      "step": 143550
     },
     {
+      "epoch": 43.83,
+      "learning_rate": 0.0002995081193989623,
+      "loss": 0.0019,
+      "step": 144540
     },
     {
+      "epoch": 44.0,
+      "eval_loss": 0.019240867346525192,
+      "eval_max_distance": 32,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.6494,
+      "eval_samples_per_second": 76.999,
+      "eval_steps_per_second": 3.08,
+      "step": 145112
     },
     {
+      "epoch": 44.13,
+      "learning_rate": 0.00029394919479819423,
+      "loss": 0.0012,
+      "step": 145530
+    },
+    {
+      "epoch": 44.43,
+      "learning_rate": 0.00028839027019742603,
+      "loss": 0.0011,
+      "step": 146520
+    },
+    {
+      "epoch": 44.73,
+      "learning_rate": 0.0002828313455966579,
+      "loss": 0.0011,
+      "step": 147510
+    },
+    {
+      "epoch": 45.0,
+      "eval_loss": 0.02091757208108902,
+      "eval_max_distance": 27,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.4646,
+      "eval_samples_per_second": 107.608,
+      "eval_steps_per_second": 4.304,
+      "step": 148410
+    },
+    {
+      "epoch": 45.03,
+      "learning_rate": 0.0002772724209958898,
+      "loss": 0.0011,
+      "step": 148500
+    },
+    {
+      "epoch": 45.33,
+      "learning_rate": 0.0002717134963951216,
+      "loss": 0.0011,
+      "step": 149490
+    },
+    {
+      "epoch": 45.63,
+      "learning_rate": 0.0002661545717943535,
+      "loss": 0.001,
+      "step": 150480
+    },
+    {
+      "epoch": 45.93,
+      "learning_rate": 0.00026059564719358537,
+      "loss": 0.0011,
+      "step": 151470
+    },
+    {
+      "epoch": 46.0,
+      "eval_loss": 0.02175173908472061,
+      "eval_max_distance": 23,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.4863,
+      "eval_samples_per_second": 102.827,
+      "eval_steps_per_second": 4.113,
+      "step": 151708
     },
     {
+      "epoch": 46.23,
+      "learning_rate": 0.00025503672259281717,
+      "loss": 0.001,
+      "step": 152460
+    },
+    {
+      "epoch": 46.53,
+      "learning_rate": 0.0002494777979920491,
+      "loss": 0.001,
+      "step": 153450
+    },
+    {
+      "epoch": 46.83,
+      "learning_rate": 0.0002439188733912809,
+      "loss": 0.001,
+      "step": 154440
+    },
+    {
+      "epoch": 47.0,
+      "eval_loss": 0.01951581984758377,
+      "eval_max_distance": 25,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.4608,
+      "eval_samples_per_second": 108.512,
+      "eval_steps_per_second": 4.34,
+      "step": 155006
+    },
+    {
+      "epoch": 47.13,
+      "learning_rate": 0.0002383599487905128,
+      "loss": 0.001,
+      "step": 155430
+    },
+    {
+      "epoch": 47.43,
+      "learning_rate": 0.00023280102418974464,
+      "loss": 0.0009,
+      "step": 156420
+    },
+    {
+      "epoch": 47.73,
+      "learning_rate": 0.00022724209958897647,
+      "loss": 0.0009,
+      "step": 157410
+    },
+    {
+      "epoch": 48.0,
+      "eval_loss": 0.01657327450811863,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.4688,
+      "eval_samples_per_second": 106.651,
+      "eval_steps_per_second": 4.266,
+      "step": 158304
+    },
+    {
+      "epoch": 48.03,
+      "learning_rate": 0.00022168317498820833,
+      "loss": 0.0009,
+      "step": 158400
+    },
+    {
+      "epoch": 48.33,
+      "learning_rate": 0.0002161242503874402,
+      "loss": 0.0008,
+      "step": 159390
+    },
+    {
+      "epoch": 48.63,
+      "learning_rate": 0.00021056532578667207,
+      "loss": 0.0008,
+      "step": 160380
+    },
+    {
+      "epoch": 48.93,
+      "learning_rate": 0.00020500640118590392,
+      "loss": 0.0008,
+      "step": 161370
+    },
+    {
+      "epoch": 49.0,
+      "eval_loss": 0.020961837843060493,
+      "eval_max_distance": 31,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.4893,
+      "eval_samples_per_second": 102.188,
+      "eval_steps_per_second": 4.088,
+      "step": 161602
+    },
+    {
+      "epoch": 49.23,
+      "learning_rate": 0.00019944747658513578,
+      "loss": 0.0008,
+      "step": 162360
+    },
+    {
+      "epoch": 49.53,
+      "learning_rate": 0.00019388855198436764,
+      "loss": 0.0008,
+      "step": 163350
+    },
+    {
+      "epoch": 49.83,
+      "learning_rate": 0.0001883296273835995,
+      "loss": 0.0008,
+      "step": 164340
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 0.022983456030488014,
+      "eval_max_distance": 22,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.479,
+      "eval_samples_per_second": 104.39,
+      "eval_steps_per_second": 4.176,
+      "step": 164900
+    },
+    {
+      "epoch": 50.13,
+      "learning_rate": 0.00018277070278283135,
+      "loss": 0.0008,
+      "step": 165330
+    },
+    {
+      "epoch": 50.43,
+      "learning_rate": 0.0001772117781820632,
+      "loss": 0.0007,
+      "step": 166320
+    },
+    {
+      "epoch": 50.73,
+      "learning_rate": 0.00017165285358129506,
+      "loss": 0.0008,
+      "step": 167310
+    },
+    {
+      "epoch": 51.0,
+      "eval_loss": 0.018444916233420372,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.4866,
+      "eval_samples_per_second": 102.75,
+      "eval_steps_per_second": 4.11,
+      "step": 168198
+    },
+    {
+      "epoch": 51.03,
+      "learning_rate": 0.00016609392898052691,
+      "loss": 0.0007,
+      "step": 168300
+    },
+    {
+      "epoch": 51.33,
+      "learning_rate": 0.0001605350043797588,
+      "loss": 0.0007,
+      "step": 169290
+    },
+    {
+      "epoch": 51.63,
+      "learning_rate": 0.00015497607977899065,
+      "loss": 0.0007,
+      "step": 170280
+    },
+    {
+      "epoch": 51.93,
+      "learning_rate": 0.00014941715517822248,
+      "loss": 0.0007,
+      "step": 171270
+    },
+    {
+      "epoch": 52.0,
+      "eval_loss": 0.01832015998661518,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.4672,
+      "eval_samples_per_second": 107.025,
+      "eval_steps_per_second": 4.281,
+      "step": 171496
+    },
+    {
+      "epoch": 52.23,
+      "learning_rate": 0.00014385823057745434,
+      "loss": 0.0006,
+      "step": 172260
+    },
+    {
+      "epoch": 52.53,
+      "learning_rate": 0.00013829930597668622,
+      "loss": 0.0006,
+      "step": 173250
+    },
+    {
+      "epoch": 52.83,
+      "learning_rate": 0.00013274038137591808,
+      "loss": 0.0006,
+      "step": 174240
+    },
+    {
+      "epoch": 53.0,
+      "eval_loss": 0.023398304358124733,
+      "eval_max_distance": 32,
+      "eval_mean_distance": 1,
+      "eval_runtime": 0.4822,
+      "eval_samples_per_second": 103.698,
+      "eval_steps_per_second": 4.148,
+      "step": 174794
+    },
+    {
+      "epoch": 53.13,
+      "learning_rate": 0.0001271814567751499,
+      "loss": 0.0006,
+      "step": 175230
+    },
+    {
+      "epoch": 53.43,
+      "learning_rate": 0.00012162253217438179,
+      "loss": 0.0006,
+      "step": 176220
+    },
+    {
+      "epoch": 53.73,
+      "learning_rate": 0.00011606360757361364,
+      "loss": 0.0005,
+      "step": 177210
+    },
+    {
+      "epoch": 54.0,
+      "eval_loss": 0.022733934223651886,
+      "eval_max_distance": 24,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.4789,
+      "eval_samples_per_second": 104.41,
+      "eval_steps_per_second": 4.176,
+      "step": 178092
+    },
+    {
+      "epoch": 54.03,
+      "learning_rate": 0.0001105046829728455,
+      "loss": 0.0005,
+      "step": 178200
+    },
+    {
+      "epoch": 54.33,
+      "learning_rate": 0.00010494575837207735,
+      "loss": 0.0005,
+      "step": 179190
+    },
+    {
+      "epoch": 54.63,
+      "learning_rate": 9.938683377130921e-05,
+      "loss": 0.0005,
+      "step": 180180
+    },
+    {
+      "epoch": 54.93,
+      "learning_rate": 9.382790917054107e-05,
+      "loss": 0.0004,
+      "step": 181170
+    },
+    {
+      "epoch": 55.0,
+      "eval_loss": 0.018815917894244194,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.4798,
+      "eval_samples_per_second": 104.21,
+      "eval_steps_per_second": 4.168,
+      "step": 181390
+    },
+    {
+      "epoch": 55.23,
+      "learning_rate": 8.826898456977294e-05,
+      "loss": 0.0005,
+      "step": 182160
+    },
+    {
+      "epoch": 55.53,
+      "learning_rate": 8.271005996900478e-05,
+      "loss": 0.0004,
+      "step": 183150
+    },
+    {
+      "epoch": 55.83,
+      "learning_rate": 7.715113536823665e-05,
+      "loss": 0.0005,
+      "step": 184140
+    },
+    {
+      "epoch": 56.0,
+      "eval_loss": 0.01906018890440464,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.48,
+      "eval_samples_per_second": 104.168,
+      "eval_steps_per_second": 4.167,
+      "step": 184688
+    },
+    {
+      "epoch": 56.13,
+      "learning_rate": 7.15922107674685e-05,
+      "loss": 0.0004,
+      "step": 185130
+    },
+    {
+      "epoch": 56.43,
+      "learning_rate": 6.603328616670036e-05,
+      "loss": 0.0004,
+      "step": 186120
+    },
+    {
+      "epoch": 56.73,
+      "learning_rate": 6.0474361565932214e-05,
+      "loss": 0.0004,
+      "step": 187110
+    },
+    {
+      "epoch": 57.0,
+      "eval_loss": 0.018282707780599594,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.4797,
+      "eval_samples_per_second": 104.233,
+      "eval_steps_per_second": 4.169,
+      "step": 187986
+    },
+    {
+      "epoch": 57.03,
+      "learning_rate": 5.491543696516407e-05,
+      "loss": 0.0004,
+      "step": 188100
+    },
+    {
+      "epoch": 57.33,
+      "learning_rate": 4.935651236439593e-05,
+      "loss": 0.0004,
+      "step": 189090
+    },
+    {
+      "epoch": 57.63,
+      "learning_rate": 4.379758776362779e-05,
+      "loss": 0.0004,
+      "step": 190080
+    },
+    {
+      "epoch": 57.94,
+      "learning_rate": 3.823866316285965e-05,
+      "loss": 0.0003,
+      "step": 191070
+    },
+    {
+      "epoch": 58.0,
+      "eval_loss": 0.018019111827015877,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.4619,
+      "eval_samples_per_second": 108.242,
+      "eval_steps_per_second": 4.33,
+      "step": 191284
+    },
+    {
+      "epoch": 58.24,
+      "learning_rate": 3.2679738562091506e-05,
+      "loss": 0.0004,
+      "step": 192060
+    },
+    {
+      "epoch": 58.54,
+      "learning_rate": 2.7120813961323362e-05,
+      "loss": 0.0004,
+      "step": 193050
+    },
+    {
+      "epoch": 58.84,
+      "learning_rate": 2.1561889360555218e-05,
+      "loss": 0.0003,
+      "step": 194040
+    },
+    {
+      "epoch": 59.0,
+      "eval_loss": 0.01795811764895916,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.475,
+      "eval_samples_per_second": 105.265,
+      "eval_steps_per_second": 4.211,
+      "step": 194582
+    },
+    {
+      "epoch": 59.14,
+      "learning_rate": 1.6002964759787074e-05,
+      "loss": 0.0004,
+      "step": 195030
+    },
+    {
+      "epoch": 59.44,
+      "learning_rate": 1.0444040159018933e-05,
+      "loss": 0.0004,
+      "step": 196020
+    },
+    {
+      "epoch": 59.74,
+      "learning_rate": 4.885115558250792e-06,
+      "loss": 0.0004,
+      "step": 197010
+    },
+    {
+      "epoch": 60.0,
+      "eval_loss": 0.017678335309028625,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.4798,
+      "eval_samples_per_second": 104.214,
+      "eval_steps_per_second": 4.169,
+      "step": 197880
+    },
+    {
+      "epoch": 60.0,
+      "step": 197880,
+      "total_flos": 1.1400109636858675e+17,
+      "train_loss": 0.031872519274052644,
+      "train_runtime": 16366.2485,
+      "train_samples_per_second": 362.656,
+      "train_steps_per_second": 12.091
     }
   ],
+  "logging_steps": 990,
+  "max_steps": 197880,
+  "num_train_epochs": 60,
+  "save_steps": 1979,
+  "total_flos": 1.1400109636858675e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8559fb7fc2610f478f8fb2eefabd395825b089696477a52ed7cf7234f686c78f
 size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:970254644cb218db4599e9310f1083ff5880c007630cc4c6dbec952da37dd2a9
 size 4091