alexue4
/

text-normalization-ru-new

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [alexue4/text-normalization-ru-new](https://huggingface.co/alexue4/text-normalization-ru-new) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0007
 - Mean Distance: 0
 - Max Distance: 3
@@ -49,26 +49,26 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step  | Validation Loss | Mean Distance | Max Distance |
 |:-------------:|:-----:|:-----:|:---------------:|:-------------:|:------------:|
-| 0.0028        | 1.0   | 3443  | 0.0015          | 0             | 3            |
-| 0.0019        | 2.0   | 6886  | 0.0009          | 0             | 3            |
-| 0.0016        | 3.0   | 10329 | 0.0013          | 0             | 3            |
-| 0.0013        | 4.0   | 13772 | 0.0008          | 0             | 1            |
-| 0.0012        | 5.0   | 17215 | 0.0011          | 0             | 3            |
-| 0.0009        | 6.0   | 20658 | 0.0009          | 0             | 3            |
-| 0.0008        | 7.0   | 24101 | 0.0011          | 0             | 3            |
-| 0.0007        | 8.0   | 27544 | 0.0010          | 0             | 3            |
-| 0.0006        | 9.0   | 30987 | 0.0012          | 0             | 3            |
-| 0.0006        | 10.0  | 34430 | 0.0008          | 0             | 3            |
-| 0.0006        | 11.0  | 37873 | 0.0005          | 0             | 0            |
-| 0.0005        | 12.0  | 41316 | 0.0007          | 0             | 1            |
-| 0.0004        | 13.0  | 44759 | 0.0007          | 0             | 0            |
-| 0.0006        | 14.0  | 48202 | 0.0011          | 0             | 3            |
-| 0.0005        | 15.0  | 51645 | 0.0008          | 0             | 3            |
-| 0.0005        | 16.0  | 55088 | 0.0008          | 0             | 3            |
-| 0.0005        | 17.0  | 58531 | 0.0008          | 0             | 3            |
-| 0.0004        | 18.0  | 61974 | 0.0007          | 0             | 3            |
-| 0.0004        | 19.0  | 65417 | 0.0007          | 0             | 3            |
-| 0.0005        | 20.0  | 68860 | 0.0007          | 0             | 3            |
 ### Framework versions

 This model is a fine-tuned version of [alexue4/text-normalization-ru-new](https://huggingface.co/alexue4/text-normalization-ru-new) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0005
 - Mean Distance: 0
 - Max Distance: 3
 | Training Loss | Epoch | Step  | Validation Loss | Mean Distance | Max Distance |
 |:-------------:|:-----:|:-----:|:---------------:|:-------------:|:------------:|
+| 0.001         | 1.0   | 3459  | 0.0005          | 0             | 3            |
+| 0.0007        | 2.0   | 6918  | 0.0005          | 0             | 3            |
+| 0.0008        | 3.0   | 10377 | 0.0005          | 0             | 3            |
+| 0.0007        | 4.0   | 13836 | 0.0006          | 0             | 3            |
+| 0.0006        | 5.0   | 17295 | 0.0003          | 0             | 0            |
+| 0.0006        | 6.0   | 20754 | 0.0003          | 0             | 0            |
+| 0.0005        | 7.0   | 24213 | 0.0002          | 0             | 0            |
+| 0.0006        | 8.0   | 27672 | 0.0005          | 0             | 3            |
+| 0.0006        | 9.0   | 31131 | 0.0005          | 0             | 3            |
+| 0.0005        | 10.0  | 34590 | 0.0006          | 0             | 3            |
+| 0.0004        | 11.0  | 38049 | 0.0005          | 0             | 3            |
+| 0.0005        | 12.0  | 41508 | 0.0004          | 0             | 0            |
+| 0.0004        | 13.0  | 44967 | 0.0004          | 0             | 0            |
+| 0.0004        | 14.0  | 48426 | 0.0005          | 0             | 0            |
+| 0.0004        | 15.0  | 51885 | 0.0004          | 0             | 0            |
+| 0.0004        | 16.0  | 55344 | 0.0005          | 0             | 3            |
+| 0.0004        | 17.0  | 58803 | 0.0005          | 0             | 3            |
+| 0.0004        | 18.0  | 62262 | 0.0005          | 0             | 3            |
+| 0.0004        | 19.0  | 65721 | 0.0005          | 0             | 3            |
+| 0.0004        | 20.0  | 69180 | 0.0005          | 0             | 3            |
 ### Framework versions

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:426d8940304254b400c7865e3f92b2ed60ec87d2cec52df3644476d19c0451e2
 size 258643461

 version https://git-lfs.github.com/spec/v1
+oid sha256:9355b1df879dc3cf1cbb13d9cbebbd1e6f35afa4cf39290fa27d735cd75ff213
 size 258643461

trainer_state.json CHANGED Viewed

@@ -3,1426 +3,1426 @@
   "best_model_checkpoint": null,
   "epoch": 20.0,
   "eval_steps": 500,
-  "global_step": 68860,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 1.4522218995062446e-08,
       "loss": 0.0,
       "step": 1
     },
     {
       "epoch": 0.1,
-      "learning_rate": 5.010165553296544e-06,
-      "loss": 0.0114,
-      "step": 345
     },
     {
       "epoch": 0.2,
-      "learning_rate": 1.0020331106593089e-05,
-      "loss": 0.0115,
-      "step": 690
     },
     {
       "epoch": 0.3,
-      "learning_rate": 1.5030496659889632e-05,
-      "loss": 0.0099,
-      "step": 1035
     },
     {
       "epoch": 0.4,
-      "learning_rate": 2.0040662213186177e-05,
-      "loss": 0.0076,
-      "step": 1380
     },
     {
       "epoch": 0.5,
-      "learning_rate": 2.505082776648272e-05,
-      "loss": 0.0047,
-      "step": 1725
     },
     {
       "epoch": 0.6,
-      "learning_rate": 3.0060993319779264e-05,
-      "loss": 0.0039,
-      "step": 2070
     },
     {
       "epoch": 0.7,
-      "learning_rate": 3.507115887307581e-05,
-      "loss": 0.0036,
-      "step": 2415
     },
     {
       "epoch": 0.8,
-      "learning_rate": 4.0081324426372355e-05,
-      "loss": 0.0031,
-      "step": 2760
     },
     {
       "epoch": 0.9,
-      "learning_rate": 4.509148997966889e-05,
-      "loss": 0.0028,
-      "step": 3105
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.001530332607217133,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.4239,
-      "eval_samples_per_second": 20.628,
-      "eval_steps_per_second": 0.825,
-      "step": 3443
     },
     {
       "epoch": 1.0,
-      "learning_rate": 5.010165553296544e-05,
-      "loss": 0.0025,
-      "step": 3450
     },
     {
       "epoch": 1.1,
-      "learning_rate": 5.5111821086261985e-05,
-      "loss": 0.0022,
-      "step": 3795
     },
     {
       "epoch": 1.2,
-      "learning_rate": 6.012198663955853e-05,
-      "loss": 0.002,
-      "step": 4140
     },
     {
       "epoch": 1.3,
-      "learning_rate": 6.513215219285507e-05,
-      "loss": 0.0022,
-      "step": 4485
     },
     {
       "epoch": 1.4,
-      "learning_rate": 7.014231774615162e-05,
-      "loss": 0.0022,
-      "step": 4830
     },
     {
       "epoch": 1.5,
-      "learning_rate": 7.515248329944817e-05,
-      "loss": 0.002,
-      "step": 5175
     },
     {
       "epoch": 1.6,
-      "learning_rate": 8.016264885274471e-05,
-      "loss": 0.0021,
-      "step": 5520
     },
     {
       "epoch": 1.7,
-      "learning_rate": 8.517281440604125e-05,
-      "loss": 0.0021,
-      "step": 5865
     },
     {
       "epoch": 1.8,
-      "learning_rate": 9.018297995933778e-05,
-      "loss": 0.0019,
-      "step": 6210
     },
     {
       "epoch": 1.9,
-      "learning_rate": 9.519314551263433e-05,
-      "loss": 0.0019,
-      "step": 6555
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.0008699939935468137,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.4743,
-      "eval_samples_per_second": 20.208,
-      "eval_steps_per_second": 0.808,
-      "step": 6886
     },
     {
       "epoch": 2.0,
-      "learning_rate": 9.997740988156324e-05,
-      "loss": 0.0021,
-      "step": 6900
     },
     {
       "epoch": 2.1,
-      "learning_rate": 9.942072482008585e-05,
-      "loss": 0.0014,
-      "step": 7245
     },
     {
       "epoch": 2.2,
-      "learning_rate": 9.886403975860845e-05,
-      "loss": 0.002,
-      "step": 7590
     },
     {
       "epoch": 2.3,
-      "learning_rate": 9.830735469713106e-05,
-      "loss": 0.0015,
-      "step": 7935
     },
     {
       "epoch": 2.4,
-      "learning_rate": 9.775066963565367e-05,
-      "loss": 0.0012,
-      "step": 8280
     },
     {
-      "epoch": 2.51,
-      "learning_rate": 9.719398457417627e-05,
-      "loss": 0.0017,
-      "step": 8625
     },
     {
-      "epoch": 2.61,
-      "learning_rate": 9.663729951269888e-05,
-      "loss": 0.0013,
-      "step": 8970
     },
     {
-      "epoch": 2.71,
-      "learning_rate": 9.608061445122149e-05,
-      "loss": 0.0015,
-      "step": 9315
     },
     {
-      "epoch": 2.81,
-      "learning_rate": 9.552392938974409e-05,
-      "loss": 0.0018,
-      "step": 9660
     },
     {
-      "epoch": 2.91,
-      "learning_rate": 9.49672443282667e-05,
-      "loss": 0.0016,
-      "step": 10005
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.0013113931054249406,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.4418,
-      "eval_samples_per_second": 20.477,
-      "eval_steps_per_second": 0.819,
-      "step": 10329
     },
     {
-      "epoch": 3.01,
-      "learning_rate": 9.44105592667893e-05,
-      "loss": 0.0013,
-      "step": 10350
     },
     {
-      "epoch": 3.11,
-      "learning_rate": 9.385387420531191e-05,
-      "loss": 0.0011,
-      "step": 10695
     },
     {
-      "epoch": 3.21,
-      "learning_rate": 9.329718914383452e-05,
-      "loss": 0.0011,
-      "step": 11040
     },
     {
-      "epoch": 3.31,
-      "learning_rate": 9.274050408235712e-05,
-      "loss": 0.0012,
-      "step": 11385
     },
     {
-      "epoch": 3.41,
-      "learning_rate": 9.218381902087973e-05,
-      "loss": 0.0013,
-      "step": 11730
     },
     {
-      "epoch": 3.51,
-      "learning_rate": 9.162713395940234e-05,
-      "loss": 0.0012,
-      "step": 12075
     },
     {
-      "epoch": 3.61,
-      "learning_rate": 9.107044889792494e-05,
-      "loss": 0.0012,
-      "step": 12420
     },
     {
-      "epoch": 3.71,
-      "learning_rate": 9.051376383644755e-05,
-      "loss": 0.0015,
-      "step": 12765
     },
     {
-      "epoch": 3.81,
-      "learning_rate": 8.995707877497016e-05,
-      "loss": 0.0011,
-      "step": 13110
     },
     {
-      "epoch": 3.91,
-      "learning_rate": 8.940039371349276e-05,
-      "loss": 0.0013,
-      "step": 13455
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.0007705892785452306,
-      "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.3823,
-      "eval_samples_per_second": 20.989,
-      "eval_steps_per_second": 0.84,
-      "step": 13772
     },
     {
-      "epoch": 4.01,
-      "learning_rate": 8.884370865201537e-05,
-      "loss": 0.0012,
-      "step": 13800
     },
     {
-      "epoch": 4.11,
-      "learning_rate": 8.828702359053797e-05,
-      "loss": 0.0011,
-      "step": 14145
     },
     {
-      "epoch": 4.21,
-      "learning_rate": 8.773033852906058e-05,
-      "loss": 0.001,
-      "step": 14490
     },
     {
-      "epoch": 4.31,
-      "learning_rate": 8.717365346758319e-05,
       "loss": 0.0009,
-      "step": 14835
     },
     {
-      "epoch": 4.41,
-      "learning_rate": 8.661696840610579e-05,
-      "loss": 0.001,
-      "step": 15180
     },
     {
-      "epoch": 4.51,
-      "learning_rate": 8.60602833446284e-05,
-      "loss": 0.001,
-      "step": 15525
     },
     {
-      "epoch": 4.61,
-      "learning_rate": 8.550359828315099e-05,
-      "loss": 0.001,
-      "step": 15870
     },
     {
-      "epoch": 4.71,
-      "learning_rate": 8.494691322167361e-05,
-      "loss": 0.0011,
-      "step": 16215
     },
     {
-      "epoch": 4.81,
-      "learning_rate": 8.439022816019622e-05,
-      "loss": 0.001,
-      "step": 16560
     },
     {
-      "epoch": 4.91,
-      "learning_rate": 8.383354309871882e-05,
-      "loss": 0.0012,
-      "step": 16905
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.0010777737479656935,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.413,
-      "eval_samples_per_second": 20.721,
-      "eval_steps_per_second": 0.829,
-      "step": 17215
     },
     {
-      "epoch": 5.01,
-      "learning_rate": 8.327685803724142e-05,
-      "loss": 0.001,
-      "step": 17250
     },
     {
-      "epoch": 5.11,
-      "learning_rate": 8.272017297576404e-05,
-      "loss": 0.0008,
-      "step": 17595
     },
     {
-      "epoch": 5.21,
-      "learning_rate": 8.216348791428664e-05,
-      "loss": 0.0009,
-      "step": 17940
     },
     {
-      "epoch": 5.31,
-      "learning_rate": 8.160680285280925e-05,
-      "loss": 0.0009,
-      "step": 18285
     },
     {
-      "epoch": 5.41,
-      "learning_rate": 8.105011779133184e-05,
-      "loss": 0.0009,
-      "step": 18630
     },
     {
-      "epoch": 5.51,
-      "learning_rate": 8.049343272985446e-05,
-      "loss": 0.0009,
-      "step": 18975
     },
     {
-      "epoch": 5.61,
-      "learning_rate": 7.993674766837707e-05,
-      "loss": 0.0008,
-      "step": 19320
     },
     {
-      "epoch": 5.71,
-      "learning_rate": 7.938006260689967e-05,
-      "loss": 0.0009,
-      "step": 19665
     },
     {
-      "epoch": 5.81,
-      "learning_rate": 7.882337754542227e-05,
-      "loss": 0.0011,
-      "step": 20010
     },
     {
-      "epoch": 5.91,
-      "learning_rate": 7.826669248394489e-05,
-      "loss": 0.0009,
-      "step": 20355
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.0008971834322437644,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.4223,
-      "eval_samples_per_second": 20.641,
-      "eval_steps_per_second": 0.826,
-      "step": 20658
     },
     {
-      "epoch": 6.01,
-      "learning_rate": 7.77100074224675e-05,
-      "loss": 0.001,
-      "step": 20700
     },
     {
-      "epoch": 6.11,
-      "learning_rate": 7.71533223609901e-05,
-      "loss": 0.0007,
-      "step": 21045
     },
     {
-      "epoch": 6.21,
-      "learning_rate": 7.65966372995127e-05,
-      "loss": 0.0008,
-      "step": 21390
     },
     {
-      "epoch": 6.31,
-      "learning_rate": 7.603995223803531e-05,
-      "loss": 0.0008,
-      "step": 21735
     },
     {
-      "epoch": 6.41,
-      "learning_rate": 7.548326717655792e-05,
-      "loss": 0.0008,
-      "step": 22080
     },
     {
-      "epoch": 6.51,
-      "learning_rate": 7.492658211508052e-05,
-      "loss": 0.0008,
-      "step": 22425
     },
     {
-      "epoch": 6.61,
-      "learning_rate": 7.436989705360313e-05,
-      "loss": 0.0008,
-      "step": 22770
     },
     {
-      "epoch": 6.71,
-      "learning_rate": 7.381321199212572e-05,
-      "loss": 0.0008,
-      "step": 23115
     },
     {
-      "epoch": 6.81,
-      "learning_rate": 7.325652693064834e-05,
-      "loss": 0.0008,
-      "step": 23460
     },
     {
-      "epoch": 6.91,
-      "learning_rate": 7.269984186917095e-05,
-      "loss": 0.0008,
-      "step": 23805
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.0011104686418548226,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.4364,
-      "eval_samples_per_second": 20.522,
-      "eval_steps_per_second": 0.821,
-      "step": 24101
     },
     {
-      "epoch": 7.01,
-      "learning_rate": 7.214315680769356e-05,
-      "loss": 0.0007,
-      "step": 24150
-    },
-    {
-      "epoch": 7.11,
-      "learning_rate": 7.158647174621615e-05,
-      "loss": 0.0007,
-      "step": 24495
     },
     {
-      "epoch": 7.21,
-      "learning_rate": 7.102978668473877e-05,
-      "loss": 0.0007,
-      "step": 24840
     },
     {
-      "epoch": 7.31,
-      "learning_rate": 7.047310162326137e-05,
-      "loss": 0.0007,
-      "step": 25185
     },
     {
-      "epoch": 7.42,
-      "learning_rate": 6.991641656178398e-05,
-      "loss": 0.0007,
-      "step": 25530
     },
     {
-      "epoch": 7.52,
-      "learning_rate": 6.935973150030657e-05,
-      "loss": 0.0008,
-      "step": 25875
     },
     {
-      "epoch": 7.62,
-      "learning_rate": 6.88030464388292e-05,
       "loss": 0.0006,
-      "step": 26220
     },
     {
-      "epoch": 7.72,
-      "learning_rate": 6.82463613773518e-05,
-      "loss": 0.0008,
-      "step": 26565
     },
     {
-      "epoch": 7.82,
-      "learning_rate": 6.76896763158744e-05,
-      "loss": 0.0008,
-      "step": 26910
     },
     {
-      "epoch": 7.92,
-      "learning_rate": 6.7132991254397e-05,
       "loss": 0.0007,
-      "step": 27255
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.0009568997193127871,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.353,
-      "eval_samples_per_second": 21.249,
-      "eval_steps_per_second": 0.85,
-      "step": 27544
     },
     {
-      "epoch": 8.02,
-      "learning_rate": 6.657630619291962e-05,
-      "loss": 0.0008,
-      "step": 27600
-    },
-    {
-      "epoch": 8.12,
-      "learning_rate": 6.601962113144223e-05,
       "loss": 0.0006,
-      "step": 27945
     },
     {
-      "epoch": 8.22,
-      "learning_rate": 6.546293606996483e-05,
-      "loss": 0.0006,
-      "step": 28290
     },
     {
-      "epoch": 8.32,
-      "learning_rate": 6.490625100848742e-05,
-      "loss": 0.0007,
-      "step": 28635
     },
     {
-      "epoch": 8.42,
-      "learning_rate": 6.434956594701004e-05,
-      "loss": 0.0007,
-      "step": 28980
     },
     {
-      "epoch": 8.52,
-      "learning_rate": 6.379288088553265e-05,
-      "loss": 0.0008,
-      "step": 29325
     },
     {
-      "epoch": 8.62,
-      "learning_rate": 6.323619582405526e-05,
       "loss": 0.0006,
-      "step": 29670
     },
     {
-      "epoch": 8.72,
-      "learning_rate": 6.267951076257785e-05,
       "loss": 0.0006,
-      "step": 30015
     },
     {
-      "epoch": 8.82,
-      "learning_rate": 6.212282570110046e-05,
-      "loss": 0.0007,
-      "step": 30360
     },
     {
-      "epoch": 8.92,
-      "learning_rate": 6.156614063962308e-05,
       "loss": 0.0006,
-      "step": 30705
     },
     {
       "epoch": 9.0,
-      "eval_loss": 0.001235798466950655,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.3847,
-      "eval_samples_per_second": 20.967,
-      "eval_steps_per_second": 0.839,
-      "step": 30987
-    },
-    {
-      "epoch": 9.02,
-      "learning_rate": 6.100945557814568e-05,
-      "loss": 0.0007,
-      "step": 31050
     },
     {
-      "epoch": 9.12,
-      "learning_rate": 6.045277051666828e-05,
-      "loss": 0.0006,
-      "step": 31395
     },
     {
-      "epoch": 9.22,
-      "learning_rate": 5.989608545519089e-05,
       "loss": 0.0005,
-      "step": 31740
     },
     {
-      "epoch": 9.32,
-      "learning_rate": 5.9339400393713494e-05,
       "loss": 0.0006,
-      "step": 32085
     },
     {
-      "epoch": 9.42,
-      "learning_rate": 5.878271533223611e-05,
       "loss": 0.0007,
-      "step": 32430
     },
     {
-      "epoch": 9.52,
-      "learning_rate": 5.822603027075871e-05,
-      "loss": 0.0006,
-      "step": 32775
     },
     {
-      "epoch": 9.62,
-      "learning_rate": 5.766934520928131e-05,
-      "loss": 0.0006,
-      "step": 33120
     },
     {
-      "epoch": 9.72,
-      "learning_rate": 5.711266014780392e-05,
       "loss": 0.0006,
-      "step": 33465
     },
     {
-      "epoch": 9.82,
-      "learning_rate": 5.655597508632653e-05,
-      "loss": 0.0006,
-      "step": 33810
     },
     {
-      "epoch": 9.92,
-      "learning_rate": 5.599929002484914e-05,
-      "loss": 0.0006,
-      "step": 34155
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.0008162627927958965,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.4197,
-      "eval_samples_per_second": 20.663,
-      "eval_steps_per_second": 0.827,
-      "step": 34430
     },
     {
-      "epoch": 10.02,
-      "learning_rate": 5.544260496337174e-05,
-      "loss": 0.0006,
-      "step": 34500
     },
     {
-      "epoch": 10.12,
-      "learning_rate": 5.4885919901894344e-05,
       "loss": 0.0005,
-      "step": 34845
     },
     {
-      "epoch": 10.22,
-      "learning_rate": 5.432923484041696e-05,
-      "loss": 0.0006,
-      "step": 35190
     },
     {
-      "epoch": 10.32,
-      "learning_rate": 5.377254977893956e-05,
-      "loss": 0.0005,
-      "step": 35535
     },
     {
-      "epoch": 10.42,
-      "learning_rate": 5.321586471746216e-05,
-      "loss": 0.0005,
-      "step": 35880
     },
     {
-      "epoch": 10.52,
-      "learning_rate": 5.265917965598477e-05,
-      "loss": 0.0006,
-      "step": 36225
     },
     {
-      "epoch": 10.62,
-      "learning_rate": 5.2102494594507375e-05,
       "loss": 0.0006,
-      "step": 36570
     },
     {
-      "epoch": 10.72,
-      "learning_rate": 5.154580953302999e-05,
-      "loss": 0.0006,
-      "step": 36915
     },
     {
-      "epoch": 10.82,
-      "learning_rate": 5.098912447155259e-05,
-      "loss": 0.0005,
-      "step": 37260
     },
     {
-      "epoch": 10.92,
-      "learning_rate": 5.0432439410075194e-05,
-      "loss": 0.0006,
-      "step": 37605
     },
     {
       "epoch": 11.0,
-      "eval_loss": 0.000511307327542454,
-      "eval_max_distance": 0,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.378,
-      "eval_samples_per_second": 21.026,
-      "eval_steps_per_second": 0.841,
-      "step": 37873
     },
     {
-      "epoch": 11.02,
-      "learning_rate": 4.98757543485978e-05,
       "loss": 0.0005,
-      "step": 37950
     },
     {
-      "epoch": 11.12,
-      "learning_rate": 4.931906928712041e-05,
-      "loss": 0.0006,
-      "step": 38295
     },
     {
-      "epoch": 11.22,
-      "learning_rate": 4.876238422564301e-05,
-      "loss": 0.0005,
-      "step": 38640
     },
     {
-      "epoch": 11.32,
-      "learning_rate": 4.820569916416562e-05,
-      "loss": 0.0005,
-      "step": 38985
     },
     {
-      "epoch": 11.42,
-      "learning_rate": 4.7649014102688226e-05,
-      "loss": 0.0005,
-      "step": 39330
     },
     {
-      "epoch": 11.52,
-      "learning_rate": 4.709232904121083e-05,
       "loss": 0.0005,
-      "step": 39675
     },
     {
-      "epoch": 11.62,
-      "learning_rate": 4.653564397973344e-05,
       "loss": 0.0005,
-      "step": 40020
     },
     {
-      "epoch": 11.72,
-      "learning_rate": 4.5978958918256045e-05,
-      "loss": 0.0006,
-      "step": 40365
     },
     {
-      "epoch": 11.82,
-      "learning_rate": 4.542227385677865e-05,
-      "loss": 0.0007,
-      "step": 40710
     },
     {
-      "epoch": 11.92,
-      "learning_rate": 4.486558879530126e-05,
       "loss": 0.0005,
-      "step": 41055
     },
     {
       "epoch": 12.0,
-      "eval_loss": 0.0007161315297707915,
-      "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.3647,
-      "eval_samples_per_second": 21.145,
-      "eval_steps_per_second": 0.846,
-      "step": 41316
     },
     {
-      "epoch": 12.02,
-      "learning_rate": 4.430890373382386e-05,
       "loss": 0.0005,
-      "step": 41400
     },
     {
-      "epoch": 12.12,
-      "learning_rate": 4.375221867234647e-05,
       "loss": 0.0005,
-      "step": 41745
     },
     {
-      "epoch": 12.22,
-      "learning_rate": 4.3195533610869076e-05,
       "loss": 0.0005,
-      "step": 42090
     },
     {
-      "epoch": 12.33,
-      "learning_rate": 4.263884854939168e-05,
-      "loss": 0.0006,
-      "step": 42435
     },
     {
-      "epoch": 12.43,
-      "learning_rate": 4.208216348791429e-05,
-      "loss": 0.0006,
-      "step": 42780
     },
     {
-      "epoch": 12.53,
-      "learning_rate": 4.1525478426436895e-05,
       "loss": 0.0005,
-      "step": 43125
     },
     {
-      "epoch": 12.63,
-      "learning_rate": 4.09687933649595e-05,
       "loss": 0.0005,
-      "step": 43470
     },
     {
-      "epoch": 12.73,
-      "learning_rate": 4.041210830348211e-05,
-      "loss": 0.0005,
-      "step": 43815
     },
     {
-      "epoch": 12.83,
-      "learning_rate": 3.9855423242004714e-05,
-      "loss": 0.0007,
-      "step": 44160
     },
     {
-      "epoch": 12.93,
-      "learning_rate": 3.929873818052732e-05,
       "loss": 0.0004,
-      "step": 44505
     },
     {
       "epoch": 13.0,
-      "eval_loss": 0.0006984297069720924,
       "eval_max_distance": 0,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.3638,
-      "eval_samples_per_second": 21.153,
-      "eval_steps_per_second": 0.846,
-      "step": 44759
     },
     {
-      "epoch": 13.03,
-      "learning_rate": 3.8742053119049926e-05,
       "loss": 0.0005,
-      "step": 44850
     },
     {
-      "epoch": 13.13,
-      "learning_rate": 3.818536805757253e-05,
       "loss": 0.0006,
-      "step": 45195
     },
     {
-      "epoch": 13.23,
-      "learning_rate": 3.762868299609514e-05,
       "loss": 0.0005,
-      "step": 45540
     },
     {
-      "epoch": 13.33,
-      "learning_rate": 3.7071997934617745e-05,
-      "loss": 0.0005,
-      "step": 45885
     },
     {
-      "epoch": 13.43,
-      "learning_rate": 3.651531287314035e-05,
-      "loss": 0.0005,
-      "step": 46230
     },
     {
-      "epoch": 13.53,
-      "learning_rate": 3.595862781166296e-05,
-      "loss": 0.0006,
-      "step": 46575
     },
     {
-      "epoch": 13.63,
-      "learning_rate": 3.5401942750185564e-05,
-      "loss": 0.0005,
-      "step": 46920
     },
     {
-      "epoch": 13.73,
-      "learning_rate": 3.484525768870817e-05,
-      "loss": 0.0005,
-      "step": 47265
     },
     {
-      "epoch": 13.83,
-      "learning_rate": 3.4288572627230776e-05,
-      "loss": 0.0004,
-      "step": 47610
     },
     {
-      "epoch": 13.93,
-      "learning_rate": 3.373188756575338e-05,
-      "loss": 0.0006,
-      "step": 47955
     },
     {
       "epoch": 14.0,
-      "eval_loss": 0.001082880888134241,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.3639,
-      "eval_samples_per_second": 21.152,
-      "eval_steps_per_second": 0.846,
-      "step": 48202
     },
     {
-      "epoch": 14.03,
-      "learning_rate": 3.317520250427599e-05,
-      "loss": 0.0005,
-      "step": 48300
     },
     {
-      "epoch": 14.13,
-      "learning_rate": 3.2618517442798595e-05,
-      "loss": 0.0005,
-      "step": 48645
     },
     {
-      "epoch": 14.23,
-      "learning_rate": 3.20618323813212e-05,
       "loss": 0.0005,
-      "step": 48990
     },
     {
-      "epoch": 14.33,
-      "learning_rate": 3.150514731984381e-05,
       "loss": 0.0004,
-      "step": 49335
     },
     {
-      "epoch": 14.43,
-      "learning_rate": 3.0948462258366414e-05,
-      "loss": 0.0005,
-      "step": 49680
     },
     {
-      "epoch": 14.53,
-      "learning_rate": 3.039177719688902e-05,
       "loss": 0.0004,
-      "step": 50025
     },
     {
-      "epoch": 14.63,
-      "learning_rate": 2.9835092135411623e-05,
       "loss": 0.0005,
-      "step": 50370
     },
     {
-      "epoch": 14.73,
-      "learning_rate": 2.9278407073934233e-05,
-      "loss": 0.0005,
-      "step": 50715
     },
     {
-      "epoch": 14.83,
-      "learning_rate": 2.8721722012456836e-05,
-      "loss": 0.0005,
-      "step": 51060
     },
     {
-      "epoch": 14.93,
-      "learning_rate": 2.8165036950979445e-05,
-      "loss": 0.0005,
-      "step": 51405
     },
     {
       "epoch": 15.0,
-      "eval_loss": 0.0008490388281643391,
-      "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.3846,
-      "eval_samples_per_second": 20.967,
-      "eval_steps_per_second": 0.839,
-      "step": 51645
-    },
-    {
-      "epoch": 15.03,
-      "learning_rate": 2.760835188950205e-05,
-      "loss": 0.0005,
-      "step": 51750
     },
     {
-      "epoch": 15.13,
-      "learning_rate": 2.7051666828024658e-05,
-      "loss": 0.0005,
-      "step": 52095
     },
     {
-      "epoch": 15.23,
-      "learning_rate": 2.649498176654726e-05,
       "loss": 0.0004,
-      "step": 52440
     },
     {
-      "epoch": 15.33,
-      "learning_rate": 2.593829670506987e-05,
       "loss": 0.0005,
-      "step": 52785
     },
     {
-      "epoch": 15.43,
-      "learning_rate": 2.5381611643592473e-05,
       "loss": 0.0004,
-      "step": 53130
     },
     {
-      "epoch": 15.53,
-      "learning_rate": 2.4824926582115083e-05,
       "loss": 0.0004,
-      "step": 53475
     },
     {
-      "epoch": 15.63,
-      "learning_rate": 2.426824152063769e-05,
       "loss": 0.0005,
-      "step": 53820
     },
     {
-      "epoch": 15.73,
-      "learning_rate": 2.3711556459160296e-05,
-      "loss": 0.0005,
-      "step": 54165
     },
     {
-      "epoch": 15.83,
-      "learning_rate": 2.3154871397682902e-05,
       "loss": 0.0004,
-      "step": 54510
     },
     {
-      "epoch": 15.93,
-      "learning_rate": 2.2598186336205508e-05,
-      "loss": 0.0005,
-      "step": 54855
     },
     {
       "epoch": 16.0,
-      "eval_loss": 0.0008035104838199914,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.3835,
-      "eval_samples_per_second": 20.978,
-      "eval_steps_per_second": 0.839,
-      "step": 55088
     },
     {
-      "epoch": 16.03,
-      "learning_rate": 2.2041501274728115e-05,
-      "loss": 0.0005,
-      "step": 55200
     },
     {
-      "epoch": 16.13,
-      "learning_rate": 2.1484816213250717e-05,
       "loss": 0.0004,
-      "step": 55545
     },
     {
-      "epoch": 16.23,
-      "learning_rate": 2.0928131151773324e-05,
       "loss": 0.0004,
-      "step": 55890
     },
     {
-      "epoch": 16.33,
-      "learning_rate": 2.037144609029593e-05,
-      "loss": 0.0005,
-      "step": 56235
     },
     {
-      "epoch": 16.43,
-      "learning_rate": 1.9814761028818536e-05,
       "loss": 0.0005,
-      "step": 56580
     },
     {
-      "epoch": 16.53,
-      "learning_rate": 1.9258075967341143e-05,
-      "loss": 0.0004,
-      "step": 56925
     },
     {
-      "epoch": 16.63,
-      "learning_rate": 1.870139090586375e-05,
-      "loss": 0.0005,
-      "step": 57270
     },
     {
-      "epoch": 16.73,
-      "learning_rate": 1.8144705844386355e-05,
-      "loss": 0.0004,
-      "step": 57615
     },
     {
-      "epoch": 16.83,
-      "learning_rate": 1.758802078290896e-05,
-      "loss": 0.0004,
-      "step": 57960
     },
     {
-      "epoch": 16.93,
-      "learning_rate": 1.7031335721431568e-05,
-      "loss": 0.0005,
-      "step": 58305
     },
     {
       "epoch": 17.0,
-      "eval_loss": 0.000769978913012892,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.3886,
-      "eval_samples_per_second": 20.933,
-      "eval_steps_per_second": 0.837,
-      "step": 58531
     },
     {
-      "epoch": 17.03,
-      "learning_rate": 1.6474650659954174e-05,
       "loss": 0.0005,
-      "step": 58650
     },
     {
-      "epoch": 17.13,
-      "learning_rate": 1.591796559847678e-05,
       "loss": 0.0004,
-      "step": 58995
     },
     {
-      "epoch": 17.23,
-      "learning_rate": 1.5361280536999387e-05,
-      "loss": 0.0005,
-      "step": 59340
     },
     {
-      "epoch": 17.34,
-      "learning_rate": 1.4804595475521993e-05,
-      "loss": 0.0005,
-      "step": 59685
     },
     {
-      "epoch": 17.44,
-      "learning_rate": 1.4247910414044599e-05,
-      "loss": 0.0004,
-      "step": 60030
     },
     {
-      "epoch": 17.54,
-      "learning_rate": 1.3691225352567205e-05,
       "loss": 0.0004,
-      "step": 60375
     },
     {
-      "epoch": 17.64,
-      "learning_rate": 1.3134540291089812e-05,
-      "loss": 0.0004,
-      "step": 60720
     },
     {
-      "epoch": 17.74,
-      "learning_rate": 1.2577855229612418e-05,
       "loss": 0.0004,
-      "step": 61065
     },
     {
-      "epoch": 17.84,
-      "learning_rate": 1.2021170168135024e-05,
-      "loss": 0.0004,
-      "step": 61410
     },
     {
-      "epoch": 17.94,
-      "learning_rate": 1.146448510665763e-05,
       "loss": 0.0004,
-      "step": 61755
     },
     {
       "epoch": 18.0,
-      "eval_loss": 0.0007153275073505938,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.3591,
-      "eval_samples_per_second": 21.194,
-      "eval_steps_per_second": 0.848,
-      "step": 61974
     },
     {
-      "epoch": 18.04,
-      "learning_rate": 1.0907800045180237e-05,
       "loss": 0.0003,
-      "step": 62100
     },
     {
-      "epoch": 18.14,
-      "learning_rate": 1.0351114983702843e-05,
-      "loss": 0.0004,
-      "step": 62445
     },
     {
-      "epoch": 18.24,
-      "learning_rate": 9.79442992222545e-06,
-      "loss": 0.0004,
-      "step": 62790
     },
     {
-      "epoch": 18.34,
-      "learning_rate": 9.237744860748056e-06,
       "loss": 0.0004,
-      "step": 63135
     },
     {
-      "epoch": 18.44,
-      "learning_rate": 8.681059799270662e-06,
       "loss": 0.0004,
-      "step": 63480
     },
     {
-      "epoch": 18.54,
-      "learning_rate": 8.124374737793268e-06,
       "loss": 0.0004,
-      "step": 63825
     },
     {
-      "epoch": 18.64,
-      "learning_rate": 7.5676896763158745e-06,
-      "loss": 0.0004,
-      "step": 64170
     },
     {
-      "epoch": 18.74,
-      "learning_rate": 7.01100461483848e-06,
-      "loss": 0.0005,
-      "step": 64515
     },
     {
-      "epoch": 18.84,
-      "learning_rate": 6.454319553361088e-06,
       "loss": 0.0004,
-      "step": 64860
     },
     {
-      "epoch": 18.94,
-      "learning_rate": 5.897634491883693e-06,
       "loss": 0.0004,
-      "step": 65205
     },
     {
       "epoch": 19.0,
-      "eval_loss": 0.0007207673625089228,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.3645,
-      "eval_samples_per_second": 21.147,
-      "eval_steps_per_second": 0.846,
-      "step": 65417
     },
     {
-      "epoch": 19.04,
-      "learning_rate": 5.3409494304063e-06,
-      "loss": 0.0004,
-      "step": 65550
-    },
-    {
-      "epoch": 19.14,
-      "learning_rate": 4.784264368928906e-06,
-      "loss": 0.0004,
-      "step": 65895
     },
     {
-      "epoch": 19.24,
-      "learning_rate": 4.227579307451512e-06,
-      "loss": 0.0004,
-      "step": 66240
     },
     {
-      "epoch": 19.34,
-      "learning_rate": 3.6708942459741184e-06,
       "loss": 0.0003,
-      "step": 66585
     },
     {
-      "epoch": 19.44,
-      "learning_rate": 3.1142091844967247e-06,
       "loss": 0.0004,
-      "step": 66930
     },
     {
-      "epoch": 19.54,
-      "learning_rate": 2.557524123019331e-06,
-      "loss": 0.0004,
-      "step": 67275
     },
     {
-      "epoch": 19.64,
-      "learning_rate": 2.000839061541937e-06,
-      "loss": 0.0005,
-      "step": 67620
     },
     {
-      "epoch": 19.74,
-      "learning_rate": 1.4441540000645434e-06,
-      "loss": 0.0005,
-      "step": 67965
     },
     {
-      "epoch": 19.84,
-      "learning_rate": 8.874689385871494e-07,
       "loss": 0.0004,
-      "step": 68310
     },
     {
-      "epoch": 19.94,
-      "learning_rate": 3.307838771097557e-07,
-      "loss": 0.0005,
-      "step": 68655
     },
     {
       "epoch": 20.0,
-      "eval_loss": 0.0007007673266343772,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
-      "eval_runtime": 2.376,
-      "eval_samples_per_second": 21.044,
-      "eval_steps_per_second": 0.842,
-      "step": 68860
     },
     {
       "epoch": 20.0,
-      "step": 68860,
-      "total_flos": 4.025961075861504e+16,
-      "train_loss": 0.0010230464439000071,
-      "train_runtime": 6513.3096,
-      "train_samples_per_second": 317.166,
-      "train_steps_per_second": 10.572
     }
   ],
-  "logging_steps": 345,
-  "max_steps": 68860,
   "num_train_epochs": 20,
-  "save_steps": 689,
-  "total_flos": 4.025961075861504e+16,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 20.0,
   "eval_steps": 500,
+  "global_step": 69180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 1.4455044810638915e-08,
       "loss": 0.0,
       "step": 1
     },
     {
       "epoch": 0.1,
+      "learning_rate": 5.001445504481065e-06,
+      "loss": 0.0054,
+      "step": 346
     },
     {
       "epoch": 0.2,
+      "learning_rate": 1.000289100896213e-05,
+      "loss": 0.0038,
+      "step": 692
     },
     {
       "epoch": 0.3,
+      "learning_rate": 1.5004336513443193e-05,
+      "loss": 0.0027,
+      "step": 1038
     },
     {
       "epoch": 0.4,
+      "learning_rate": 2.000578201792426e-05,
+      "loss": 0.0019,
+      "step": 1384
     },
     {
       "epoch": 0.5,
+      "learning_rate": 2.5007227522405318e-05,
+      "loss": 0.0012,
+      "step": 1730
     },
     {
       "epoch": 0.6,
+      "learning_rate": 3.0008673026886387e-05,
+      "loss": 0.0011,
+      "step": 2076
     },
     {
       "epoch": 0.7,
+      "learning_rate": 3.5010118531367445e-05,
+      "loss": 0.0012,
+      "step": 2422
     },
     {
       "epoch": 0.8,
+      "learning_rate": 4.001156403584852e-05,
+      "loss": 0.0011,
+      "step": 2768
     },
     {
       "epoch": 0.9,
+      "learning_rate": 4.5013009540329577e-05,
+      "loss": 0.001,
+      "step": 3114
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.0005217896541580558,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1674,
+      "eval_samples_per_second": 23.069,
+      "eval_steps_per_second": 0.923,
+      "step": 3459
     },
     {
       "epoch": 1.0,
+      "learning_rate": 5.0014455044810635e-05,
+      "loss": 0.001,
+      "step": 3460
     },
     {
       "epoch": 1.1,
+      "learning_rate": 5.501590054929171e-05,
+      "loss": 0.001,
+      "step": 3806
     },
     {
       "epoch": 1.2,
+      "learning_rate": 6.001734605377277e-05,
+      "loss": 0.0008,
+      "step": 4152
     },
     {
       "epoch": 1.3,
+      "learning_rate": 6.501879155825383e-05,
+      "loss": 0.0009,
+      "step": 4498
     },
     {
       "epoch": 1.4,
+      "learning_rate": 7.002023706273489e-05,
+      "loss": 0.0011,
+      "step": 4844
     },
     {
       "epoch": 1.5,
+      "learning_rate": 7.502168256721596e-05,
+      "loss": 0.001,
+      "step": 5190
     },
     {
       "epoch": 1.6,
+      "learning_rate": 8.002312807169704e-05,
+      "loss": 0.0008,
+      "step": 5536
     },
     {
       "epoch": 1.7,
+      "learning_rate": 8.50245735761781e-05,
+      "loss": 0.0009,
+      "step": 5882
     },
     {
       "epoch": 1.8,
+      "learning_rate": 9.002601908065915e-05,
+      "loss": 0.0011,
+      "step": 6228
     },
     {
       "epoch": 1.9,
+      "learning_rate": 9.502746458514021e-05,
+      "loss": 0.0007,
+      "step": 6574
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.0005328759434632957,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1588,
+      "eval_samples_per_second": 23.161,
+      "eval_steps_per_second": 0.926,
+      "step": 6918
     },
     {
       "epoch": 2.0,
+      "learning_rate": 9.999678776781987e-05,
+      "loss": 0.001,
+      "step": 6920
     },
     {
       "epoch": 2.1,
+      "learning_rate": 9.94410716006553e-05,
+      "loss": 0.0007,
+      "step": 7266
     },
     {
       "epoch": 2.2,
+      "learning_rate": 9.888535543349073e-05,
+      "loss": 0.0009,
+      "step": 7612
     },
     {
       "epoch": 2.3,
+      "learning_rate": 9.832963926632618e-05,
+      "loss": 0.0008,
+      "step": 7958
     },
     {
       "epoch": 2.4,
+      "learning_rate": 9.777392309916162e-05,
+      "loss": 0.0009,
+      "step": 8304
     },
     {
+      "epoch": 2.5,
+      "learning_rate": 9.721820693199704e-05,
+      "loss": 0.0008,
+      "step": 8650
     },
     {
+      "epoch": 2.6,
+      "learning_rate": 9.666249076483249e-05,
+      "loss": 0.0008,
+      "step": 8996
     },
     {
+      "epoch": 2.7,
+      "learning_rate": 9.610677459766793e-05,
+      "loss": 0.0009,
+      "step": 9342
     },
     {
+      "epoch": 2.8,
+      "learning_rate": 9.555105843050336e-05,
+      "loss": 0.0008,
+      "step": 9688
     },
     {
+      "epoch": 2.9,
+      "learning_rate": 9.49953422633388e-05,
+      "loss": 0.0008,
+      "step": 10034
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.0005345833487808704,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1807,
+      "eval_samples_per_second": 22.928,
+      "eval_steps_per_second": 0.917,
+      "step": 10377
     },
     {
+      "epoch": 3.0,
+      "learning_rate": 9.443962609617424e-05,
+      "loss": 0.0012,
+      "step": 10380
     },
     {
+      "epoch": 3.1,
+      "learning_rate": 9.388390992900967e-05,
+      "loss": 0.0008,
+      "step": 10726
     },
     {
+      "epoch": 3.2,
+      "learning_rate": 9.332819376184511e-05,
+      "loss": 0.0006,
+      "step": 11072
     },
     {
+      "epoch": 3.3,
+      "learning_rate": 9.277247759468054e-05,
+      "loss": 0.0009,
+      "step": 11418
     },
     {
+      "epoch": 3.4,
+      "learning_rate": 9.221676142751598e-05,
+      "loss": 0.0007,
+      "step": 11764
     },
     {
+      "epoch": 3.5,
+      "learning_rate": 9.166104526035142e-05,
+      "loss": 0.0006,
+      "step": 12110
     },
     {
+      "epoch": 3.6,
+      "learning_rate": 9.110532909318687e-05,
+      "loss": 0.0007,
+      "step": 12456
     },
     {
+      "epoch": 3.7,
+      "learning_rate": 9.05496129260223e-05,
+      "loss": 0.0008,
+      "step": 12802
     },
     {
+      "epoch": 3.8,
+      "learning_rate": 8.999389675885773e-05,
+      "loss": 0.0008,
+      "step": 13148
     },
     {
+      "epoch": 3.9,
+      "learning_rate": 8.943818059169318e-05,
+      "loss": 0.0007,
+      "step": 13494
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.0006046278867870569,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1455,
+      "eval_samples_per_second": 23.305,
+      "eval_steps_per_second": 0.932,
+      "step": 13836
     },
     {
+      "epoch": 4.0,
+      "learning_rate": 8.888246442452861e-05,
+      "loss": 0.0008,
+      "step": 13840
     },
     {
+      "epoch": 4.1,
+      "learning_rate": 8.832674825736405e-05,
+      "loss": 0.0005,
+      "step": 14186
     },
     {
+      "epoch": 4.2,
+      "learning_rate": 8.777103209019947e-05,
+      "loss": 0.0006,
+      "step": 14532
     },
     {
+      "epoch": 4.3,
+      "learning_rate": 8.721531592303492e-05,
       "loss": 0.0009,
+      "step": 14878
     },
     {
+      "epoch": 4.4,
+      "learning_rate": 8.665959975587036e-05,
+      "loss": 0.0005,
+      "step": 15224
     },
     {
+      "epoch": 4.5,
+      "learning_rate": 8.61038835887058e-05,
+      "loss": 0.0006,
+      "step": 15570
     },
     {
+      "epoch": 4.6,
+      "learning_rate": 8.554816742154123e-05,
+      "loss": 0.0007,
+      "step": 15916
     },
     {
+      "epoch": 4.7,
+      "learning_rate": 8.499245125437667e-05,
+      "loss": 0.0006,
+      "step": 16262
     },
     {
+      "epoch": 4.8,
+      "learning_rate": 8.44367350872121e-05,
+      "loss": 0.0008,
+      "step": 16608
     },
     {
+      "epoch": 4.9,
+      "learning_rate": 8.388101892004755e-05,
+      "loss": 0.0006,
+      "step": 16954
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.0002887483569793403,
+      "eval_max_distance": 0,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1519,
+      "eval_samples_per_second": 23.235,
+      "eval_steps_per_second": 0.929,
+      "step": 17295
     },
     {
+      "epoch": 5.0,
+      "learning_rate": 8.332530275288298e-05,
+      "loss": 0.0007,
+      "step": 17300
     },
     {
+      "epoch": 5.1,
+      "learning_rate": 8.276958658571841e-05,
+      "loss": 0.0006,
+      "step": 17646
     },
     {
+      "epoch": 5.2,
+      "learning_rate": 8.221387041855386e-05,
+      "loss": 0.0006,
+      "step": 17992
     },
     {
+      "epoch": 5.3,
+      "learning_rate": 8.16581542513893e-05,
+      "loss": 0.0006,
+      "step": 18338
     },
     {
+      "epoch": 5.4,
+      "learning_rate": 8.110243808422474e-05,
+      "loss": 0.0006,
+      "step": 18684
     },
     {
+      "epoch": 5.5,
+      "learning_rate": 8.054672191706016e-05,
+      "loss": 0.0007,
+      "step": 19030
     },
     {
+      "epoch": 5.6,
+      "learning_rate": 7.999100574989561e-05,
+      "loss": 0.0007,
+      "step": 19376
     },
     {
+      "epoch": 5.7,
+      "learning_rate": 7.943528958273105e-05,
+      "loss": 0.0005,
+      "step": 19722
     },
     {
+      "epoch": 5.8,
+      "learning_rate": 7.887957341556648e-05,
+      "loss": 0.0007,
+      "step": 20068
     },
     {
+      "epoch": 5.9,
+      "learning_rate": 7.832385724840192e-05,
+      "loss": 0.0006,
+      "step": 20414
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.00028923238278366625,
+      "eval_max_distance": 0,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.139,
+      "eval_samples_per_second": 23.376,
+      "eval_steps_per_second": 0.935,
+      "step": 20754
     },
     {
+      "epoch": 6.0,
+      "learning_rate": 7.776814108123735e-05,
+      "loss": 0.0007,
+      "step": 20760
     },
     {
+      "epoch": 6.1,
+      "learning_rate": 7.721242491407279e-05,
+      "loss": 0.0006,
+      "step": 21106
     },
     {
+      "epoch": 6.2,
+      "learning_rate": 7.665670874690823e-05,
+      "loss": 0.0007,
+      "step": 21452
     },
     {
+      "epoch": 6.3,
+      "learning_rate": 7.610099257974366e-05,
+      "loss": 0.0006,
+      "step": 21798
     },
     {
+      "epoch": 6.4,
+      "learning_rate": 7.55452764125791e-05,
+      "loss": 0.0005,
+      "step": 22144
     },
     {
+      "epoch": 6.5,
+      "learning_rate": 7.498956024541455e-05,
+      "loss": 0.0006,
+      "step": 22490
     },
     {
+      "epoch": 6.6,
+      "learning_rate": 7.443384407824999e-05,
+      "loss": 0.0005,
+      "step": 22836
     },
     {
+      "epoch": 6.7,
+      "learning_rate": 7.387812791108541e-05,
+      "loss": 0.0006,
+      "step": 23182
     },
     {
+      "epoch": 6.8,
+      "learning_rate": 7.332241174392085e-05,
+      "loss": 0.0006,
+      "step": 23528
     },
     {
+      "epoch": 6.9,
+      "learning_rate": 7.27666955767563e-05,
+      "loss": 0.0005,
+      "step": 23874
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.00023660251463297755,
+      "eval_max_distance": 0,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1425,
+      "eval_samples_per_second": 23.338,
+      "eval_steps_per_second": 0.934,
+      "step": 24213
     },
     {
+      "epoch": 7.0,
+      "learning_rate": 7.221097940959173e-05,
+      "loss": 0.0006,
+      "step": 24220
     },
     {
+      "epoch": 7.1,
+      "learning_rate": 7.165526324242716e-05,
+      "loss": 0.0005,
+      "step": 24566
     },
     {
+      "epoch": 7.2,
+      "learning_rate": 7.10995470752626e-05,
+      "loss": 0.0006,
+      "step": 24912
     },
     {
+      "epoch": 7.3,
+      "learning_rate": 7.054383090809804e-05,
+      "loss": 0.0006,
+      "step": 25258
     },
     {
+      "epoch": 7.4,
+      "learning_rate": 6.998811474093348e-05,
+      "loss": 0.0005,
+      "step": 25604
     },
     {
+      "epoch": 7.5,
+      "learning_rate": 6.943239857376891e-05,
       "loss": 0.0006,
+      "step": 25950
     },
     {
+      "epoch": 7.6,
+      "learning_rate": 6.887668240660435e-05,
+      "loss": 0.0004,
+      "step": 26296
     },
     {
+      "epoch": 7.7,
+      "learning_rate": 6.832096623943979e-05,
+      "loss": 0.0007,
+      "step": 26642
     },
     {
+      "epoch": 7.8,
+      "learning_rate": 6.776525007227524e-05,
       "loss": 0.0007,
+      "step": 26988
+    },
+    {
+      "epoch": 7.9,
+      "learning_rate": 6.720953390511066e-05,
+      "loss": 0.0006,
+      "step": 27334
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.0004639440739993006,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1108,
+      "eval_samples_per_second": 23.687,
+      "eval_steps_per_second": 0.947,
+      "step": 27672
     },
     {
+      "epoch": 8.0,
+      "learning_rate": 6.66538177379461e-05,
       "loss": 0.0006,
+      "step": 27680
     },
     {
+      "epoch": 8.1,
+      "learning_rate": 6.609810157078153e-05,
+      "loss": 0.0005,
+      "step": 28026
     },
     {
+      "epoch": 8.2,
+      "learning_rate": 6.554238540361698e-05,
+      "loss": 0.0005,
+      "step": 28372
     },
     {
+      "epoch": 8.3,
+      "learning_rate": 6.498666923645242e-05,
+      "loss": 0.0004,
+      "step": 28718
     },
     {
+      "epoch": 8.4,
+      "learning_rate": 6.443095306928784e-05,
+      "loss": 0.0004,
+      "step": 29064
     },
     {
+      "epoch": 8.5,
+      "learning_rate": 6.387523690212329e-05,
       "loss": 0.0006,
+      "step": 29410
+    },
+    {
+      "epoch": 8.6,
+      "learning_rate": 6.331952073495873e-05,
+      "loss": 0.0008,
+      "step": 29756
     },
     {
+      "epoch": 8.7,
+      "learning_rate": 6.276380456779417e-05,
       "loss": 0.0006,
+      "step": 30102
     },
     {
+      "epoch": 8.8,
+      "learning_rate": 6.22080884006296e-05,
+      "loss": 0.0005,
+      "step": 30448
     },
     {
+      "epoch": 8.9,
+      "learning_rate": 6.165237223346504e-05,
       "loss": 0.0006,
+      "step": 30794
     },
     {
       "epoch": 9.0,
+      "eval_loss": 0.0005358799826353788,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1129,
+      "eval_samples_per_second": 23.664,
+      "eval_steps_per_second": 0.947,
+      "step": 31131
     },
     {
+      "epoch": 9.0,
+      "learning_rate": 6.109665606630047e-05,
+      "loss": 0.0004,
+      "step": 31140
     },
     {
+      "epoch": 9.1,
+      "learning_rate": 6.054093989913592e-05,
       "loss": 0.0005,
+      "step": 31486
     },
     {
+      "epoch": 9.2,
+      "learning_rate": 5.9985223731971354e-05,
       "loss": 0.0006,
+      "step": 31832
+    },
+    {
+      "epoch": 9.3,
+      "learning_rate": 5.9429507564806783e-05,
+      "loss": 0.0004,
+      "step": 32178
     },
     {
+      "epoch": 9.4,
+      "learning_rate": 5.887379139764222e-05,
       "loss": 0.0007,
+      "step": 32524
     },
     {
+      "epoch": 9.5,
+      "learning_rate": 5.831807523047766e-05,
+      "loss": 0.0005,
+      "step": 32870
     },
     {
+      "epoch": 9.6,
+      "learning_rate": 5.77623590633131e-05,
+      "loss": 0.0004,
+      "step": 33216
     },
     {
+      "epoch": 9.7,
+      "learning_rate": 5.720664289614853e-05,
       "loss": 0.0006,
+      "step": 33562
     },
     {
+      "epoch": 9.8,
+      "learning_rate": 5.665092672898398e-05,
+      "loss": 0.0005,
+      "step": 33908
     },
     {
+      "epoch": 9.9,
+      "learning_rate": 5.609521056181941e-05,
+      "loss": 0.0005,
+      "step": 34254
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.0005827790591865778,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.188,
+      "eval_samples_per_second": 22.852,
+      "eval_steps_per_second": 0.914,
+      "step": 34590
     },
     {
+      "epoch": 10.0,
+      "learning_rate": 5.5539494394654845e-05,
+      "loss": 0.0005,
+      "step": 34600
     },
     {
+      "epoch": 10.1,
+      "learning_rate": 5.498377822749029e-05,
       "loss": 0.0005,
+      "step": 34946
     },
     {
+      "epoch": 10.2,
+      "learning_rate": 5.4428062060325725e-05,
+      "loss": 0.0004,
+      "step": 35292
     },
     {
+      "epoch": 10.3,
+      "learning_rate": 5.387234589316116e-05,
+      "loss": 0.0004,
+      "step": 35638
     },
     {
+      "epoch": 10.4,
+      "learning_rate": 5.3316629725996604e-05,
+      "loss": 0.0004,
+      "step": 35984
     },
     {
+      "epoch": 10.5,
+      "learning_rate": 5.2760913558832034e-05,
+      "loss": 0.0005,
+      "step": 36330
     },
     {
+      "epoch": 10.6,
+      "learning_rate": 5.220519739166747e-05,
       "loss": 0.0006,
+      "step": 36676
     },
     {
+      "epoch": 10.7,
+      "learning_rate": 5.164948122450291e-05,
+      "loss": 0.0005,
+      "step": 37022
     },
     {
+      "epoch": 10.8,
+      "learning_rate": 5.109376505733835e-05,
+      "loss": 0.0004,
+      "step": 37368
     },
     {
+      "epoch": 10.9,
+      "learning_rate": 5.0538048890173786e-05,
+      "loss": 0.0004,
+      "step": 37714
     },
     {
       "epoch": 11.0,
+      "eval_loss": 0.0005017376388423145,
+      "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1154,
+      "eval_samples_per_second": 23.636,
+      "eval_steps_per_second": 0.945,
+      "step": 38049
     },
     {
+      "epoch": 11.0,
+      "learning_rate": 4.998233272300922e-05,
       "loss": 0.0005,
+      "step": 38060
     },
     {
+      "epoch": 11.1,
+      "learning_rate": 4.942661655584466e-05,
+      "loss": 0.0004,
+      "step": 38406
     },
     {
+      "epoch": 11.2,
+      "learning_rate": 4.8870900388680096e-05,
+      "loss": 0.0004,
+      "step": 38752
     },
     {
+      "epoch": 11.3,
+      "learning_rate": 4.831518422151554e-05,
+      "loss": 0.0004,
+      "step": 39098
     },
     {
+      "epoch": 11.4,
+      "learning_rate": 4.775946805435097e-05,
+      "loss": 0.0007,
+      "step": 39444
     },
     {
+      "epoch": 11.5,
+      "learning_rate": 4.720375188718641e-05,
       "loss": 0.0005,
+      "step": 39790
     },
     {
+      "epoch": 11.6,
+      "learning_rate": 4.664803572002184e-05,
       "loss": 0.0005,
+      "step": 40136
     },
     {
+      "epoch": 11.7,
+      "learning_rate": 4.6092319552857284e-05,
+      "loss": 0.0007,
+      "step": 40482
     },
     {
+      "epoch": 11.8,
+      "learning_rate": 4.553660338569272e-05,
+      "loss": 0.0006,
+      "step": 40828
     },
     {
+      "epoch": 11.9,
+      "learning_rate": 4.498088721852816e-05,
       "loss": 0.0005,
+      "step": 41174
     },
     {
       "epoch": 12.0,
+      "eval_loss": 0.0003966529038734734,
+      "eval_max_distance": 0,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1167,
+      "eval_samples_per_second": 23.622,
+      "eval_steps_per_second": 0.945,
+      "step": 41508
     },
     {
+      "epoch": 12.0,
+      "learning_rate": 4.4425171051363594e-05,
       "loss": 0.0005,
+      "step": 41520
     },
     {
+      "epoch": 12.1,
+      "learning_rate": 4.386945488419903e-05,
       "loss": 0.0005,
+      "step": 41866
     },
     {
+      "epoch": 12.2,
+      "learning_rate": 4.3313738717034466e-05,
       "loss": 0.0005,
+      "step": 42212
     },
     {
+      "epoch": 12.3,
+      "learning_rate": 4.275802254986991e-05,
+      "loss": 0.0004,
+      "step": 42558
     },
     {
+      "epoch": 12.4,
+      "learning_rate": 4.220230638270534e-05,
+      "loss": 0.0004,
+      "step": 42904
     },
     {
+      "epoch": 12.5,
+      "learning_rate": 4.164659021554078e-05,
       "loss": 0.0005,
+      "step": 43250
     },
     {
+      "epoch": 12.6,
+      "learning_rate": 4.109087404837622e-05,
       "loss": 0.0005,
+      "step": 43596
     },
     {
+      "epoch": 12.7,
+      "learning_rate": 4.0535157881211655e-05,
+      "loss": 0.0004,
+      "step": 43942
     },
     {
+      "epoch": 12.8,
+      "learning_rate": 3.997944171404709e-05,
+      "loss": 0.0004,
+      "step": 44288
     },
     {
+      "epoch": 12.9,
+      "learning_rate": 3.942372554688253e-05,
       "loss": 0.0004,
+      "step": 44634
     },
     {
       "epoch": 13.0,
+      "eval_loss": 0.0004018562030978501,
       "eval_max_distance": 0,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1157,
+      "eval_samples_per_second": 23.633,
+      "eval_steps_per_second": 0.945,
+      "step": 44967
     },
     {
+      "epoch": 13.0,
+      "learning_rate": 3.886800937971797e-05,
       "loss": 0.0005,
+      "step": 44980
     },
     {
+      "epoch": 13.1,
+      "learning_rate": 3.831229321255341e-05,
       "loss": 0.0006,
+      "step": 45326
     },
     {
+      "epoch": 13.2,
+      "learning_rate": 3.7756577045388844e-05,
       "loss": 0.0005,
+      "step": 45672
     },
     {
+      "epoch": 13.3,
+      "learning_rate": 3.720086087822428e-05,
+      "loss": 0.0004,
+      "step": 46018
     },
     {
+      "epoch": 13.4,
+      "learning_rate": 3.664514471105972e-05,
+      "loss": 0.0004,
+      "step": 46364
     },
     {
+      "epoch": 13.5,
+      "learning_rate": 3.608942854389515e-05,
+      "loss": 0.0004,
+      "step": 46710
     },
     {
+      "epoch": 13.6,
+      "learning_rate": 3.5533712376730596e-05,
+      "loss": 0.0004,
+      "step": 47056
     },
     {
+      "epoch": 13.7,
+      "learning_rate": 3.4977996209566026e-05,
+      "loss": 0.0003,
+      "step": 47402
     },
     {
+      "epoch": 13.8,
+      "learning_rate": 3.442228004240147e-05,
+      "loss": 0.0006,
+      "step": 47748
     },
     {
+      "epoch": 13.9,
+      "learning_rate": 3.3866563875236906e-05,
+      "loss": 0.0004,
+      "step": 48094
     },
     {
       "epoch": 14.0,
+      "eval_loss": 0.00045212701661512256,
+      "eval_max_distance": 0,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.109,
+      "eval_samples_per_second": 23.708,
+      "eval_steps_per_second": 0.948,
+      "step": 48426
     },
     {
+      "epoch": 14.0,
+      "learning_rate": 3.331084770807234e-05,
+      "loss": 0.0004,
+      "step": 48440
     },
     {
+      "epoch": 14.1,
+      "learning_rate": 3.275513154090778e-05,
+      "loss": 0.0004,
+      "step": 48786
     },
     {
+      "epoch": 14.2,
+      "learning_rate": 3.2199415373743215e-05,
       "loss": 0.0005,
+      "step": 49132
     },
     {
+      "epoch": 14.3,
+      "learning_rate": 3.164369920657865e-05,
       "loss": 0.0004,
+      "step": 49478
     },
     {
+      "epoch": 14.4,
+      "learning_rate": 3.1087983039414094e-05,
+      "loss": 0.0004,
+      "step": 49824
     },
     {
+      "epoch": 14.5,
+      "learning_rate": 3.0532266872249524e-05,
       "loss": 0.0004,
+      "step": 50170
     },
     {
+      "epoch": 14.6,
+      "learning_rate": 2.9976550705084967e-05,
       "loss": 0.0005,
+      "step": 50516
     },
     {
+      "epoch": 14.7,
+      "learning_rate": 2.94208345379204e-05,
+      "loss": 0.0003,
+      "step": 50862
     },
     {
+      "epoch": 14.8,
+      "learning_rate": 2.886511837075584e-05,
+      "loss": 0.0004,
+      "step": 51208
     },
     {
+      "epoch": 14.9,
+      "learning_rate": 2.830940220359128e-05,
+      "loss": 0.0004,
+      "step": 51554
     },
     {
       "epoch": 15.0,
+      "eval_loss": 0.0004186382284387946,
+      "eval_max_distance": 0,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1163,
+      "eval_samples_per_second": 23.626,
+      "eval_steps_per_second": 0.945,
+      "step": 51885
     },
     {
+      "epoch": 15.0,
+      "learning_rate": 2.7753686036426713e-05,
+      "loss": 0.0004,
+      "step": 51900
     },
     {
+      "epoch": 15.1,
+      "learning_rate": 2.7197969869262153e-05,
       "loss": 0.0004,
+      "step": 52246
     },
     {
+      "epoch": 15.2,
+      "learning_rate": 2.6642253702097592e-05,
       "loss": 0.0005,
+      "step": 52592
     },
     {
+      "epoch": 15.3,
+      "learning_rate": 2.6086537534933025e-05,
       "loss": 0.0004,
+      "step": 52938
     },
     {
+      "epoch": 15.4,
+      "learning_rate": 2.5530821367768465e-05,
       "loss": 0.0004,
+      "step": 53284
     },
     {
+      "epoch": 15.5,
+      "learning_rate": 2.49751052006039e-05,
       "loss": 0.0005,
+      "step": 53630
     },
     {
+      "epoch": 15.6,
+      "learning_rate": 2.4419389033439338e-05,
+      "loss": 0.0004,
+      "step": 53976
     },
     {
+      "epoch": 15.7,
+      "learning_rate": 2.3863672866274774e-05,
       "loss": 0.0004,
+      "step": 54322
     },
     {
+      "epoch": 15.8,
+      "learning_rate": 2.330795669911021e-05,
+      "loss": 0.0004,
+      "step": 54668
+    },
+    {
+      "epoch": 15.9,
+      "learning_rate": 2.275224053194565e-05,
+      "loss": 0.0004,
+      "step": 55014
     },
     {
       "epoch": 16.0,
+      "eval_loss": 0.00046242817188613117,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1198,
+      "eval_samples_per_second": 23.587,
+      "eval_steps_per_second": 0.943,
+      "step": 55344
     },
     {
+      "epoch": 16.0,
+      "learning_rate": 2.2196524364781087e-05,
+      "loss": 0.0003,
+      "step": 55360
     },
     {
+      "epoch": 16.1,
+      "learning_rate": 2.1640808197616523e-05,
       "loss": 0.0004,
+      "step": 55706
     },
     {
+      "epoch": 16.2,
+      "learning_rate": 2.108509203045196e-05,
       "loss": 0.0004,
+      "step": 56052
     },
     {
+      "epoch": 16.3,
+      "learning_rate": 2.05293758632874e-05,
+      "loss": 0.0003,
+      "step": 56398
     },
     {
+      "epoch": 16.4,
+      "learning_rate": 1.9973659696122836e-05,
       "loss": 0.0005,
+      "step": 56744
     },
     {
+      "epoch": 16.5,
+      "learning_rate": 1.9417943528958272e-05,
+      "loss": 0.0003,
+      "step": 57090
     },
     {
+      "epoch": 16.6,
+      "learning_rate": 1.8862227361793712e-05,
+      "loss": 0.0003,
+      "step": 57436
     },
     {
+      "epoch": 16.7,
+      "learning_rate": 1.830651119462915e-05,
+      "loss": 0.0003,
+      "step": 57782
     },
     {
+      "epoch": 16.8,
+      "learning_rate": 1.7750795027464585e-05,
+      "loss": 0.0006,
+      "step": 58128
     },
     {
+      "epoch": 16.9,
+      "learning_rate": 1.7195078860300025e-05,
+      "loss": 0.0004,
+      "step": 58474
     },
     {
       "epoch": 17.0,
+      "eval_loss": 0.0004974314360879362,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1095,
+      "eval_samples_per_second": 23.702,
+      "eval_steps_per_second": 0.948,
+      "step": 58803
     },
     {
+      "epoch": 17.0,
+      "learning_rate": 1.663936269313546e-05,
       "loss": 0.0005,
+      "step": 58820
     },
     {
+      "epoch": 17.1,
+      "learning_rate": 1.6083646525970898e-05,
       "loss": 0.0004,
+      "step": 59166
     },
     {
+      "epoch": 17.2,
+      "learning_rate": 1.5527930358806337e-05,
+      "loss": 0.0003,
+      "step": 59512
     },
     {
+      "epoch": 17.31,
+      "learning_rate": 1.4972214191641772e-05,
+      "loss": 0.0003,
+      "step": 59858
     },
     {
+      "epoch": 17.41,
+      "learning_rate": 1.441649802447721e-05,
+      "loss": 0.0005,
+      "step": 60204
     },
     {
+      "epoch": 17.51,
+      "learning_rate": 1.3860781857312647e-05,
       "loss": 0.0004,
+      "step": 60550
     },
     {
+      "epoch": 17.61,
+      "learning_rate": 1.3305065690148087e-05,
+      "loss": 0.0003,
+      "step": 60896
     },
     {
+      "epoch": 17.71,
+      "learning_rate": 1.2749349522983523e-05,
       "loss": 0.0004,
+      "step": 61242
     },
     {
+      "epoch": 17.81,
+      "learning_rate": 1.219363335581896e-05,
+      "loss": 0.0005,
+      "step": 61588
     },
     {
+      "epoch": 17.91,
+      "learning_rate": 1.1637917188654396e-05,
       "loss": 0.0004,
+      "step": 61934
     },
     {
       "epoch": 18.0,
+      "eval_loss": 0.0004895007587037981,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1247,
+      "eval_samples_per_second": 23.533,
+      "eval_steps_per_second": 0.941,
+      "step": 62262
     },
     {
+      "epoch": 18.01,
+      "learning_rate": 1.1082201021489834e-05,
       "loss": 0.0003,
+      "step": 62280
     },
     {
+      "epoch": 18.11,
+      "learning_rate": 1.052648485432527e-05,
+      "loss": 0.0003,
+      "step": 62626
     },
     {
+      "epoch": 18.21,
+      "learning_rate": 9.970768687160708e-06,
+      "loss": 0.0005,
+      "step": 62972
     },
     {
+      "epoch": 18.31,
+      "learning_rate": 9.415052519996145e-06,
       "loss": 0.0004,
+      "step": 63318
     },
     {
+      "epoch": 18.41,
+      "learning_rate": 8.859336352831583e-06,
       "loss": 0.0004,
+      "step": 63664
     },
     {
+      "epoch": 18.51,
+      "learning_rate": 8.303620185667021e-06,
       "loss": 0.0004,
+      "step": 64010
     },
     {
+      "epoch": 18.61,
+      "learning_rate": 7.747904018502457e-06,
+      "loss": 0.0005,
+      "step": 64356
     },
     {
+      "epoch": 18.71,
+      "learning_rate": 7.192187851337895e-06,
+      "loss": 0.0004,
+      "step": 64702
     },
     {
+      "epoch": 18.81,
+      "learning_rate": 6.636471684173333e-06,
       "loss": 0.0004,
+      "step": 65048
     },
     {
+      "epoch": 18.91,
+      "learning_rate": 6.08075551700877e-06,
       "loss": 0.0004,
+      "step": 65394
     },
     {
       "epoch": 19.0,
+      "eval_loss": 0.00047712118248455226,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.1311,
+      "eval_samples_per_second": 23.462,
+      "eval_steps_per_second": 0.938,
+      "step": 65721
     },
     {
+      "epoch": 19.01,
+      "learning_rate": 5.525039349844207e-06,
+      "loss": 0.0003,
+      "step": 65740
     },
     {
+      "epoch": 19.11,
+      "learning_rate": 4.9693231826796444e-06,
+      "loss": 0.0003,
+      "step": 66086
     },
     {
+      "epoch": 19.21,
+      "learning_rate": 4.413607015515082e-06,
       "loss": 0.0003,
+      "step": 66432
     },
     {
+      "epoch": 19.31,
+      "learning_rate": 3.857890848350519e-06,
       "loss": 0.0004,
+      "step": 66778
     },
     {
+      "epoch": 19.41,
+      "learning_rate": 3.3021746811859566e-06,
+      "loss": 0.0005,
+      "step": 67124
     },
     {
+      "epoch": 19.51,
+      "learning_rate": 2.7464585140213935e-06,
+      "loss": 0.0003,
+      "step": 67470
     },
     {
+      "epoch": 19.61,
+      "learning_rate": 2.1907423468568307e-06,
+      "loss": 0.0003,
+      "step": 67816
     },
     {
+      "epoch": 19.71,
+      "learning_rate": 1.6350261796922682e-06,
+      "loss": 0.0003,
+      "step": 68162
+    },
+    {
+      "epoch": 19.81,
+      "learning_rate": 1.0793100125277054e-06,
       "loss": 0.0004,
+      "step": 68508
     },
     {
+      "epoch": 19.91,
+      "learning_rate": 5.235938453631429e-07,
+      "loss": 0.0004,
+      "step": 68854
     },
     {
       "epoch": 20.0,
+      "eval_loss": 0.00047323742182925344,
       "eval_max_distance": 3,
       "eval_mean_distance": 0,
+      "eval_runtime": 2.107,
+      "eval_samples_per_second": 23.73,
+      "eval_steps_per_second": 0.949,
+      "step": 69180
     },
     {
       "epoch": 20.0,
+      "step": 69180,
+      "total_flos": 4.132028143466496e+16,
+      "train_loss": 0.0006141960998232213,
+      "train_runtime": 5700.2515,
+      "train_samples_per_second": 364.026,
+      "train_steps_per_second": 12.136
     }
   ],
+  "logging_steps": 346,
+  "max_steps": 69180,
   "num_train_epochs": 20,
+  "save_steps": 692,
+  "total_flos": 4.132028143466496e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:586ed9c845a3561a92f038b449b118f6c3411340e86cc6c2b3ab167a6c2d8141
 size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ff9a45a1856b589146f47267598b22d90e7e52ab28683ae682ed9c4e684ceb8
 size 4091