alexue4
/

text-normalization-ru-new

@@ -1,27 +1,119 @@
 ---
 license: mit
-language:
-- ru
-library_name: transformers
 tags:
-- text-generation-inference
 ---
-# text-normalization-ru-new
-Normalization for Russian text. Couldn't find any existing solutions (besides algorithms, don't like those) so made this.
-It was designed for Silero TTS model which cant handle english and numbers for russian text to speach.
-This model is a fine-tuned version of [cointegrated/rut5-small](https://huggingface.co/cointegrated/rut5-small) on https://www.kaggle.com/c/text-normalization-challenge-russian-language and additional dataset prepared by me using typical messages.
 It achieves the following results on the evaluation set:
-- Loss: 0.0177
 - Mean Distance: 0
-- Max Distance: 15
 ## Model description
-Tiny T5 trained from scratch for normalizing Russian texts:
-- translating numbers into words
-- expanding abbreviations into phonetic letter combinations
-- transliterating english into russian letters
-- whatever else was in the dataset (see below)

 ---
 license: mit
+base_model: cointegrated/rut5-small
 tags:
+- generated_from_trainer
+model-index:
+- name: text-normalization-ru-new
+  results: []
 ---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# text-normalization-ru-new
+This model is a fine-tuned version of [cointegrated/rut5-small](https://huggingface.co/cointegrated/rut5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0318
 - Mean Distance: 0
+- Max Distance: 11
 ## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.001
+- train_batch_size: 30
+- eval_batch_size: 30
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 60
+### Training results
+| Training Loss | Epoch | Step   | Validation Loss | Mean Distance | Max Distance |
+|:-------------:|:-----:|:------:|:---------------:|:-------------:|:------------:|
+| 0.2251        | 1.0   | 3334   | 0.1190          | 3             | 29           |
+| 0.1179        | 2.0   | 6668   | 0.0574          | 2             | 31           |
+| 0.0848        | 3.0   | 10002  | 0.0436          | 1             | 15           |
+| 0.0618        | 4.0   | 13336  | 0.0359          | 1             | 20           |
+| 0.0532        | 5.0   | 16670  | 0.0315          | 0             | 11           |
+| 0.0446        | 6.0   | 20004  | 0.0299          | 0             | 16           |
+| 0.0388        | 7.0   | 23338  | 0.0295          | 0             | 15           |
+| 0.0311        | 8.0   | 26672  | 0.0287          | 0             | 15           |
+| 0.0269        | 9.0   | 30006  | 0.0241          | 0             | 15           |
+| 0.0232        | 10.0  | 33340  | 0.0228          | 0             | 13           |
+| 0.0203        | 11.0  | 36674  | 0.0243          | 0             | 16           |
+| 0.0173        | 12.0  | 40008  | 0.0250          | 0             | 15           |
+| 0.0151        | 13.0  | 43342  | 0.0244          | 0             | 9            |
+| 0.0136        | 14.0  | 46676  | 0.0234          | 0             | 15           |
+| 0.0123        | 15.0  | 50010  | 0.0221          | 0             | 9            |
+| 0.0113        | 16.0  | 53344  | 0.0244          | 0             | 12           |
+| 0.01          | 17.0  | 56678  | 0.0226          | 0             | 13           |
+| 0.0089        | 18.0  | 60012  | 0.0271          | 0             | 13           |
+| 0.0085        | 19.0  | 63346  | 0.0248          | 0             | 13           |
+| 0.0074        | 20.0  | 66680  | 0.0277          | 0             | 12           |
+| 0.007         | 21.0  | 70014  | 0.0309          | 0             | 13           |
+| 0.0066        | 22.0  | 73348  | 0.0306          | 0             | 11           |
+| 0.0056        | 23.0  | 76682  | 0.0287          | 0             | 10           |
+| 0.0053        | 24.0  | 80016  | 0.0312          | 0             | 12           |
+| 0.0049        | 25.0  | 83350  | 0.0276          | 0             | 11           |
+| 0.0053        | 26.0  | 86684  | 0.0308          | 0             | 10           |
+| 0.0041        | 27.0  | 90018  | 0.0279          | 0             | 10           |
+| 0.0041        | 28.0  | 93352  | 0.0292          | 0             | 11           |
+| 0.0037        | 29.0  | 96686  | 0.0306          | 0             | 11           |
+| 0.0035        | 30.0  | 100020 | 0.0272          | 0             | 12           |
+| 0.0032        | 31.0  | 103354 | 0.0255          | 0             | 9            |
+| 0.0031        | 32.0  | 106688 | 0.0293          | 0             | 10           |
+| 0.0029        | 33.0  | 110022 | 0.0300          | 0             | 13           |
+| 0.0026        | 34.0  | 113356 | 0.0305          | 0             | 11           |
+| 0.0024        | 35.0  | 116690 | 0.0273          | 0             | 9            |
+| 0.0023        | 36.0  | 120024 | 0.0284          | 0             | 10           |
+| 0.0022        | 37.0  | 123358 | 0.0313          | 0             | 13           |
+| 0.002         | 38.0  | 126692 | 0.0341          | 0             | 13           |
+| 0.0017        | 39.0  | 130026 | 0.0301          | 0             | 13           |
+| 0.0017        | 40.0  | 133360 | 0.0330          | 0             | 11           |
+| 0.0016        | 41.0  | 136694 | 0.0344          | 0             | 11           |
+| 0.0014        | 42.0  | 140028 | 0.0337          | 0             | 10           |
+| 0.0013        | 43.0  | 143362 | 0.0292          | 0             | 12           |
+| 0.0012        | 44.0  | 146696 | 0.0339          | 0             | 11           |
+| 0.0012        | 45.0  | 150030 | 0.0330          | 0             | 11           |
+| 0.001         | 46.0  | 153364 | 0.0307          | 0             | 11           |
+| 0.001         | 47.0  | 156698 | 0.0330          | 0             | 10           |
+| 0.0009        | 48.0  | 160032 | 0.0338          | 0             | 11           |
+| 0.0009        | 49.0  | 163366 | 0.0288          | 0             | 10           |
+| 0.0008        | 50.0  | 166700 | 0.0256          | 0             | 10           |
+| 0.0007        | 51.0  | 170034 | 0.0284          | 0             | 11           |
+| 0.0006        | 52.0  | 173368 | 0.0342          | 0             | 10           |
+| 0.0006        | 53.0  | 176702 | 0.0312          | 0             | 10           |
+| 0.0005        | 54.0  | 180036 | 0.0326          | 0             | 10           |
+| 0.0005        | 55.0  | 183370 | 0.0304          | 0             | 11           |
+| 0.0005        | 56.0  | 186704 | 0.0300          | 0             | 11           |
+| 0.0004        | 57.0  | 190038 | 0.0313          | 0             | 11           |
+| 0.0003        | 58.0  | 193372 | 0.0321          | 0             | 11           |
+| 0.0003        | 59.0  | 196706 | 0.0316          | 0             | 10           |
+| 0.0004        | 60.0  | 200040 | 0.0318          | 0             | 11           |
+### Framework versions
+- Transformers 4.32.1
+- Pytorch 2.0.1+cu117
+- Datasets 2.14.4
+- Tokenizers 0.13.3

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67c7f076dd09ccc14ee16c69cabf6f1ca5b674bd9bd1bf502d509b46230e8f17
 size 258643461

 version https://git-lfs.github.com/spec/v1
+oid sha256:640ab93c6e6932ab1eb56e93439e8e20cf9ed1484ccd6ca0aa7250c2acf8ab00
 size 258643461

trainer_state.json CHANGED Viewed

@@ -3,1826 +3,1826 @@
   "best_model_checkpoint": null,
   "epoch": 60.0,
   "eval_steps": 500,
-  "global_step": 197880,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 5.0535678188801295e-08,
-      "loss": 12.7149,
       "step": 1
     },
     {
       "epoch": 0.3,
-      "learning_rate": 5.0030321406913285e-05,
-      "loss": 3.3584,
-      "step": 990
     },
     {
       "epoch": 0.6,
-      "learning_rate": 0.00010006064281382657,
-      "loss": 0.3384,
-      "step": 1980
     },
     {
       "epoch": 0.9,
-      "learning_rate": 0.00015009096422073984,
-      "loss": 0.2236,
-      "step": 2970
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.11203870922327042,
-      "eval_max_distance": 133,
-      "eval_mean_distance": 5,
-      "eval_runtime": 0.5965,
-      "eval_samples_per_second": 83.828,
-      "eval_steps_per_second": 3.353,
-      "step": 3298
     },
     {
       "epoch": 1.2,
-      "learning_rate": 0.00020012128562765314,
-      "loss": 0.1679,
-      "step": 3960
     },
     {
       "epoch": 1.5,
-      "learning_rate": 0.0002501516070345664,
-      "loss": 0.1395,
-      "step": 4950
     },
     {
       "epoch": 1.8,
-      "learning_rate": 0.0003001819284414797,
       "loss": 0.1179,
-      "step": 5940
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.05475025996565819,
-      "eval_max_distance": 82,
-      "eval_mean_distance": 3,
-      "eval_runtime": 0.5422,
-      "eval_samples_per_second": 92.223,
-      "eval_steps_per_second": 3.689,
-      "step": 6596
     },
     {
       "epoch": 2.1,
-      "learning_rate": 0.0003502122498483929,
-      "loss": 0.1022,
-      "step": 6930
     },
     {
       "epoch": 2.4,
-      "learning_rate": 0.0004002425712553063,
-      "loss": 0.0917,
-      "step": 7920
     },
     {
       "epoch": 2.7,
-      "learning_rate": 0.0004502728926622195,
-      "loss": 0.0829,
-      "step": 8910
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.042510777711868286,
-      "eval_max_distance": 46,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.5158,
-      "eval_samples_per_second": 96.928,
-      "eval_steps_per_second": 3.877,
-      "step": 9894
     },
     {
       "epoch": 3.0,
-      "learning_rate": 0.0005003032140691328,
-      "loss": 0.0769,
-      "step": 9900
     },
     {
       "epoch": 3.3,
-      "learning_rate": 0.0005503335354760462,
-      "loss": 0.0667,
-      "step": 10890
     },
     {
       "epoch": 3.6,
-      "learning_rate": 0.0006003638568829594,
       "loss": 0.0653,
-      "step": 11880
     },
     {
       "epoch": 3.9,
-      "learning_rate": 0.0006503941782898727,
-      "loss": 0.0643,
-      "step": 12870
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.03110930137336254,
-      "eval_max_distance": 64,
       "eval_mean_distance": 1,
-      "eval_runtime": 0.4848,
-      "eval_samples_per_second": 103.129,
-      "eval_steps_per_second": 4.125,
-      "step": 13192
     },
     {
       "epoch": 4.2,
-      "learning_rate": 0.0007004244996967858,
-      "loss": 0.0589,
-      "step": 13860
     },
     {
       "epoch": 4.5,
-      "learning_rate": 0.0007504548211036993,
-      "loss": 0.0549,
-      "step": 14850
     },
     {
       "epoch": 4.8,
-      "learning_rate": 0.0008004851425106126,
-      "loss": 0.0538,
-      "step": 15840
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.026651622727513313,
-      "eval_max_distance": 48,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.5057,
-      "eval_samples_per_second": 98.878,
-      "eval_steps_per_second": 3.955,
-      "step": 16490
     },
     {
       "epoch": 5.1,
-      "learning_rate": 0.0008505154639175257,
-      "loss": 0.048,
-      "step": 16830
     },
     {
       "epoch": 5.4,
-      "learning_rate": 0.000900545785324439,
-      "loss": 0.0461,
-      "step": 17820
     },
     {
       "epoch": 5.7,
-      "learning_rate": 0.0009505761067313523,
-      "loss": 0.0469,
-      "step": 18810
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.039574604481458664,
-      "eval_max_distance": 80,
-      "eval_mean_distance": 2,
-      "eval_runtime": 0.5179,
-      "eval_samples_per_second": 96.548,
-      "eval_steps_per_second": 3.862,
-      "step": 19788
     },
     {
       "epoch": 6.0,
-      "learning_rate": 0.0009999326190957482,
-      "loss": 0.0464,
-      "step": 19800
     },
     {
-      "epoch": 6.3,
-      "learning_rate": 0.0009943736944949802,
-      "loss": 0.0393,
-      "step": 20790
     },
     {
-      "epoch": 6.6,
-      "learning_rate": 0.000988814769894212,
-      "loss": 0.0426,
-      "step": 21780
     },
     {
-      "epoch": 6.9,
-      "learning_rate": 0.000983255845293444,
-      "loss": 0.0385,
-      "step": 22770
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.026188833639025688,
-      "eval_max_distance": 73,
-      "eval_mean_distance": 2,
-      "eval_runtime": 0.4896,
-      "eval_samples_per_second": 102.115,
-      "eval_steps_per_second": 4.085,
-      "step": 23086
     },
     {
-      "epoch": 7.2,
-      "learning_rate": 0.0009776969206926756,
-      "loss": 0.034,
-      "step": 23760
     },
     {
-      "epoch": 7.5,
-      "learning_rate": 0.0009721379960919076,
-      "loss": 0.0315,
-      "step": 24750
     },
     {
-      "epoch": 7.8,
-      "learning_rate": 0.0009665790714911395,
-      "loss": 0.0316,
-      "step": 25740
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.02234221063554287,
-      "eval_max_distance": 40,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4837,
-      "eval_samples_per_second": 103.365,
-      "eval_steps_per_second": 4.135,
-      "step": 26384
     },
     {
-      "epoch": 8.1,
-      "learning_rate": 0.0009610201468903713,
-      "loss": 0.0305,
-      "step": 26730
     },
     {
       "epoch": 8.41,
-      "learning_rate": 0.0009554612222896032,
-      "loss": 0.0271,
-      "step": 27720
     },
     {
       "epoch": 8.71,
-      "learning_rate": 0.0009499022976888349,
-      "loss": 0.0263,
-      "step": 28710
     },
     {
       "epoch": 9.0,
-      "eval_loss": 0.023996921256184578,
-      "eval_max_distance": 69,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4894,
-      "eval_samples_per_second": 102.167,
-      "eval_steps_per_second": 4.087,
-      "step": 29682
     },
     {
       "epoch": 9.01,
-      "learning_rate": 0.0009443433730880669,
-      "loss": 0.0282,
-      "step": 29700
     },
     {
       "epoch": 9.31,
-      "learning_rate": 0.0009387844484872987,
-      "loss": 0.0229,
-      "step": 30690
     },
     {
       "epoch": 9.61,
-      "learning_rate": 0.0009332255238865306,
-      "loss": 0.0226,
-      "step": 31680
     },
     {
       "epoch": 9.91,
-      "learning_rate": 0.0009276665992857625,
-      "loss": 0.0226,
-      "step": 32670
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.02030733972787857,
-      "eval_max_distance": 60,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4797,
-      "eval_samples_per_second": 104.236,
-      "eval_steps_per_second": 4.169,
-      "step": 32980
     },
     {
       "epoch": 10.21,
-      "learning_rate": 0.0009221076746849943,
-      "loss": 0.0209,
-      "step": 33660
     },
     {
       "epoch": 10.51,
-      "learning_rate": 0.0009165487500842261,
-      "loss": 0.02,
-      "step": 34650
     },
     {
       "epoch": 10.81,
-      "learning_rate": 0.000910989825483458,
       "loss": 0.0203,
-      "step": 35640
     },
     {
       "epoch": 11.0,
-      "eval_loss": 0.017732510343194008,
-      "eval_max_distance": 54,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4814,
-      "eval_samples_per_second": 103.858,
-      "eval_steps_per_second": 4.154,
-      "step": 36278
     },
     {
       "epoch": 11.11,
-      "learning_rate": 0.0009054309008826899,
-      "loss": 0.0183,
-      "step": 36630
     },
     {
       "epoch": 11.41,
-      "learning_rate": 0.0008998719762819217,
-      "loss": 0.0174,
-      "step": 37620
     },
     {
       "epoch": 11.71,
-      "learning_rate": 0.0008943130516811536,
-      "loss": 0.0178,
-      "step": 38610
     },
     {
       "epoch": 12.0,
-      "eval_loss": 0.018777821213006973,
-      "eval_max_distance": 61,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4893,
-      "eval_samples_per_second": 102.185,
-      "eval_steps_per_second": 4.087,
-      "step": 39576
     },
     {
       "epoch": 12.01,
-      "learning_rate": 0.0008887541270803853,
-      "loss": 0.0174,
-      "step": 39600
     },
     {
       "epoch": 12.31,
-      "learning_rate": 0.0008831952024796173,
-      "loss": 0.0153,
-      "step": 40590
     },
     {
       "epoch": 12.61,
-      "learning_rate": 0.0008776362778788492,
-      "loss": 0.015,
-      "step": 41580
     },
     {
       "epoch": 12.91,
-      "learning_rate": 0.000872077353278081,
-      "loss": 0.0154,
-      "step": 42570
     },
     {
       "epoch": 13.0,
-      "eval_loss": 0.029613599181175232,
-      "eval_max_distance": 65,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4669,
-      "eval_samples_per_second": 107.079,
-      "eval_steps_per_second": 4.283,
-      "step": 42874
     },
     {
       "epoch": 13.21,
-      "learning_rate": 0.0008665184286773129,
-      "loss": 0.014,
-      "step": 43560
     },
     {
       "epoch": 13.51,
-      "learning_rate": 0.0008609595040765447,
-      "loss": 0.0135,
-      "step": 44550
     },
     {
       "epoch": 13.81,
-      "learning_rate": 0.0008554005794757766,
-      "loss": 0.0138,
-      "step": 45540
     },
     {
       "epoch": 14.0,
-      "eval_loss": 0.02011469565331936,
-      "eval_max_distance": 55,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.5034,
-      "eval_samples_per_second": 99.332,
-      "eval_steps_per_second": 3.973,
-      "step": 46172
     },
     {
       "epoch": 14.11,
-      "learning_rate": 0.0008498416548750084,
-      "loss": 0.0128,
-      "step": 46530
     },
     {
       "epoch": 14.41,
-      "learning_rate": 0.0008442827302742403,
       "loss": 0.0121,
-      "step": 47520
     },
     {
       "epoch": 14.71,
-      "learning_rate": 0.0008387238056734722,
-      "loss": 0.012,
-      "step": 48510
     },
     {
       "epoch": 15.0,
-      "eval_loss": 0.026753582060337067,
-      "eval_max_distance": 67,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4716,
-      "eval_samples_per_second": 106.031,
-      "eval_steps_per_second": 4.241,
-      "step": 49470
     },
     {
       "epoch": 15.01,
-      "learning_rate": 0.000833164881072704,
-      "loss": 0.0123,
-      "step": 49500
     },
     {
       "epoch": 15.31,
-      "learning_rate": 0.0008276059564719359,
-      "loss": 0.0104,
-      "step": 50490
     },
     {
       "epoch": 15.61,
-      "learning_rate": 0.0008220470318711677,
-      "loss": 0.0109,
-      "step": 51480
     },
     {
       "epoch": 15.91,
-      "learning_rate": 0.0008164881072703996,
-      "loss": 0.0109,
-      "step": 52470
     },
     {
       "epoch": 16.0,
-      "eval_loss": 0.01633359119296074,
-      "eval_max_distance": 35,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4971,
-      "eval_samples_per_second": 100.579,
-      "eval_steps_per_second": 4.023,
-      "step": 52768
     },
     {
       "epoch": 16.21,
-      "learning_rate": 0.0008109291826696314,
-      "loss": 0.0098,
-      "step": 53460
     },
     {
       "epoch": 16.51,
-      "learning_rate": 0.0008053702580688633,
-      "loss": 0.0094,
-      "step": 54450
     },
     {
       "epoch": 16.81,
-      "learning_rate": 0.0007998113334680952,
-      "loss": 0.0105,
-      "step": 55440
     },
     {
       "epoch": 17.0,
-      "eval_loss": 0.013592842034995556,
-      "eval_max_distance": 26,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.48,
-      "eval_samples_per_second": 104.157,
-      "eval_steps_per_second": 4.166,
-      "step": 56066
     },
     {
       "epoch": 17.11,
-      "learning_rate": 0.000794252408867327,
-      "loss": 0.0097,
-      "step": 56430
     },
     {
       "epoch": 17.41,
-      "learning_rate": 0.0007886934842665589,
-      "loss": 0.0083,
-      "step": 57420
     },
     {
       "epoch": 17.71,
-      "learning_rate": 0.0007831345596657907,
-      "loss": 0.0092,
-      "step": 58410
     },
     {
       "epoch": 18.0,
-      "eval_loss": 0.020196767523884773,
-      "eval_max_distance": 65,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4567,
-      "eval_samples_per_second": 109.487,
-      "eval_steps_per_second": 4.379,
-      "step": 59364
     },
     {
       "epoch": 18.01,
-      "learning_rate": 0.0007775756350650226,
-      "loss": 0.009,
-      "step": 59400
     },
     {
       "epoch": 18.31,
-      "learning_rate": 0.0007720167104642545,
       "loss": 0.0075,
-      "step": 60390
     },
     {
       "epoch": 18.61,
-      "learning_rate": 0.0007664577858634864,
-      "loss": 0.0078,
-      "step": 61380
     },
     {
-      "epoch": 18.91,
-      "learning_rate": 0.0007608988612627181,
-      "loss": 0.0087,
-      "step": 62370
     },
     {
       "epoch": 19.0,
-      "eval_loss": 0.02213277295231819,
-      "eval_max_distance": 65,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4707,
-      "eval_samples_per_second": 106.233,
-      "eval_steps_per_second": 4.249,
-      "step": 62662
     },
     {
-      "epoch": 19.21,
-      "learning_rate": 0.00075533993666195,
-      "loss": 0.0077,
-      "step": 63360
     },
     {
-      "epoch": 19.51,
-      "learning_rate": 0.0007497810120611818,
-      "loss": 0.0071,
-      "step": 64350
     },
     {
-      "epoch": 19.81,
-      "learning_rate": 0.0007442220874604138,
-      "loss": 0.0075,
-      "step": 65340
     },
     {
       "epoch": 20.0,
-      "eval_loss": 0.020336275920271873,
-      "eval_max_distance": 33,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4773,
-      "eval_samples_per_second": 104.749,
-      "eval_steps_per_second": 4.19,
-      "step": 65960
     },
     {
-      "epoch": 20.11,
-      "learning_rate": 0.0007386631628596457,
-      "loss": 0.0073,
-      "step": 66330
     },
     {
-      "epoch": 20.41,
-      "learning_rate": 0.0007331042382588774,
-      "loss": 0.0063,
-      "step": 67320
     },
     {
-      "epoch": 20.71,
-      "learning_rate": 0.0007275453136581093,
-      "loss": 0.0067,
-      "step": 68310
     },
     {
       "epoch": 21.0,
-      "eval_loss": 0.022562623023986816,
-      "eval_max_distance": 26,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.5033,
-      "eval_samples_per_second": 99.35,
-      "eval_steps_per_second": 3.974,
-      "step": 69258
     },
     {
-      "epoch": 21.01,
-      "learning_rate": 0.0007219863890573411,
-      "loss": 0.007,
-      "step": 69300
     },
     {
-      "epoch": 21.31,
-      "learning_rate": 0.000716427464456573,
-      "loss": 0.0061,
-      "step": 70290
     },
     {
-      "epoch": 21.61,
-      "learning_rate": 0.0007108685398558049,
-      "loss": 0.006,
-      "step": 71280
     },
     {
-      "epoch": 21.91,
-      "learning_rate": 0.0007053096152550368,
-      "loss": 0.0062,
-      "step": 72270
     },
     {
       "epoch": 22.0,
-      "eval_loss": 0.01839238964021206,
-      "eval_max_distance": 24,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4856,
-      "eval_samples_per_second": 102.959,
-      "eval_steps_per_second": 4.118,
-      "step": 72556
     },
     {
-      "epoch": 22.21,
-      "learning_rate": 0.0006997506906542685,
-      "loss": 0.0057,
-      "step": 73260
     },
     {
-      "epoch": 22.51,
-      "learning_rate": 0.0006941917660535004,
-      "loss": 0.0058,
-      "step": 74250
     },
     {
-      "epoch": 22.81,
-      "learning_rate": 0.0006886328414527323,
-      "loss": 0.0059,
-      "step": 75240
     },
     {
       "epoch": 23.0,
-      "eval_loss": 0.013111269101500511,
-      "eval_max_distance": 18,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.5001,
-      "eval_samples_per_second": 99.983,
-      "eval_steps_per_second": 3.999,
-      "step": 75854
     },
     {
-      "epoch": 23.11,
-      "learning_rate": 0.0006830739168519642,
-      "loss": 0.0055,
-      "step": 76230
     },
     {
-      "epoch": 23.41,
-      "learning_rate": 0.0006775149922511961,
-      "loss": 0.0051,
-      "step": 77220
     },
     {
-      "epoch": 23.71,
-      "learning_rate": 0.0006719560676504279,
-      "loss": 0.0054,
-      "step": 78210
     },
     {
       "epoch": 24.0,
-      "eval_loss": 0.026959825307130814,
-      "eval_max_distance": 58,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4725,
-      "eval_samples_per_second": 105.825,
-      "eval_steps_per_second": 4.233,
-      "step": 79152
     },
     {
-      "epoch": 24.01,
-      "learning_rate": 0.0006663971430496597,
-      "loss": 0.0055,
-      "step": 79200
     },
     {
-      "epoch": 24.31,
-      "learning_rate": 0.0006608382184488915,
-      "loss": 0.0046,
-      "step": 80190
     },
     {
-      "epoch": 24.61,
-      "learning_rate": 0.0006552792938481235,
-      "loss": 0.005,
-      "step": 81180
     },
     {
       "epoch": 24.92,
-      "learning_rate": 0.0006497203692473554,
-      "loss": 0.0052,
-      "step": 82170
     },
     {
       "epoch": 25.0,
-      "eval_loss": 0.024379713460803032,
-      "eval_max_distance": 45,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.47,
-      "eval_samples_per_second": 106.387,
-      "eval_steps_per_second": 4.255,
-      "step": 82450
     },
     {
       "epoch": 25.22,
-      "learning_rate": 0.0006441614446465872,
-      "loss": 0.0048,
-      "step": 83160
     },
     {
       "epoch": 25.52,
-      "learning_rate": 0.000638602520045819,
       "loss": 0.0045,
-      "step": 84150
     },
     {
       "epoch": 25.82,
-      "learning_rate": 0.0006330435954450508,
-      "loss": 0.0044,
-      "step": 85140
     },
     {
       "epoch": 26.0,
-      "eval_loss": 0.014908027835190296,
-      "eval_max_distance": 23,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4819,
-      "eval_samples_per_second": 103.748,
-      "eval_steps_per_second": 4.15,
-      "step": 85748
     },
     {
       "epoch": 26.12,
-      "learning_rate": 0.0006274846708442828,
-      "loss": 0.0044,
-      "step": 86130
     },
     {
       "epoch": 26.42,
-      "learning_rate": 0.0006219257462435146,
-      "loss": 0.0042,
-      "step": 87120
     },
     {
       "epoch": 26.72,
-      "learning_rate": 0.0006163668216427465,
-      "loss": 0.0043,
-      "step": 88110
     },
     {
       "epoch": 27.0,
-      "eval_loss": 0.0256387647241354,
-      "eval_max_distance": 63,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.5104,
-      "eval_samples_per_second": 97.954,
-      "eval_steps_per_second": 3.918,
-      "step": 89046
     },
     {
       "epoch": 27.02,
-      "learning_rate": 0.0006108078970419783,
       "loss": 0.0043,
-      "step": 89100
     },
     {
       "epoch": 27.32,
-      "learning_rate": 0.0006052489724412101,
-      "loss": 0.004,
-      "step": 90090
     },
     {
       "epoch": 27.62,
-      "learning_rate": 0.0005996900478404421,
-      "loss": 0.0037,
-      "step": 91080
     },
     {
       "epoch": 27.92,
-      "learning_rate": 0.0005941311232396739,
-      "loss": 0.0038,
-      "step": 92070
     },
     {
       "epoch": 28.0,
-      "eval_loss": 0.017227506265044212,
-      "eval_max_distance": 30,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4632,
-      "eval_samples_per_second": 107.934,
-      "eval_steps_per_second": 4.317,
-      "step": 92344
     },
     {
       "epoch": 28.22,
-      "learning_rate": 0.0005885721986389058,
       "loss": 0.0037,
-      "step": 93060
     },
     {
       "epoch": 28.52,
-      "learning_rate": 0.0005830132740381376,
-      "loss": 0.0038,
-      "step": 94050
     },
     {
       "epoch": 28.82,
-      "learning_rate": 0.0005774543494373694,
-      "loss": 0.0036,
-      "step": 95040
     },
     {
       "epoch": 29.0,
-      "eval_loss": 0.022354494780302048,
-      "eval_max_distance": 37,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4846,
-      "eval_samples_per_second": 103.187,
-      "eval_steps_per_second": 4.127,
-      "step": 95642
     },
     {
       "epoch": 29.12,
-      "learning_rate": 0.0005718954248366013,
-      "loss": 0.0037,
-      "step": 96030
     },
     {
       "epoch": 29.42,
-      "learning_rate": 0.0005663365002358332,
       "loss": 0.0033,
-      "step": 97020
     },
     {
       "epoch": 29.72,
-      "learning_rate": 0.000560777575635065,
-      "loss": 0.0033,
-      "step": 98010
     },
     {
       "epoch": 30.0,
-      "eval_loss": 0.01936698891222477,
-      "eval_max_distance": 30,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4829,
-      "eval_samples_per_second": 103.544,
-      "eval_steps_per_second": 4.142,
-      "step": 98940
     },
     {
       "epoch": 30.02,
-      "learning_rate": 0.0005552186510342969,
-      "loss": 0.0035,
-      "step": 99000
     },
     {
       "epoch": 30.32,
-      "learning_rate": 0.0005496597264335288,
       "loss": 0.003,
-      "step": 99990
     },
     {
       "epoch": 30.62,
-      "learning_rate": 0.0005441008018327606,
-      "loss": 0.0033,
-      "step": 100980
     },
     {
       "epoch": 30.92,
-      "learning_rate": 0.0005385418772319925,
-      "loss": 0.0031,
-      "step": 101970
     },
     {
       "epoch": 31.0,
-      "eval_loss": 0.023793019354343414,
-      "eval_max_distance": 59,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.5012,
-      "eval_samples_per_second": 99.754,
-      "eval_steps_per_second": 3.99,
-      "step": 102238
     },
     {
       "epoch": 31.22,
-      "learning_rate": 0.0005329829526312243,
-      "loss": 0.0029,
-      "step": 102960
     },
     {
-      "epoch": 31.52,
-      "learning_rate": 0.0005274240280304562,
-      "loss": 0.003,
-      "step": 103950
     },
     {
-      "epoch": 31.82,
-      "learning_rate": 0.000521865103429688,
-      "loss": 0.003,
-      "step": 104940
     },
     {
       "epoch": 32.0,
-      "eval_loss": 0.02003033086657524,
-      "eval_max_distance": 28,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.475,
-      "eval_samples_per_second": 105.268,
-      "eval_steps_per_second": 4.211,
-      "step": 105536
     },
     {
-      "epoch": 32.12,
-      "learning_rate": 0.00051630617882892,
       "loss": 0.0028,
-      "step": 105930
     },
     {
-      "epoch": 32.42,
-      "learning_rate": 0.0005107472542281517,
-      "loss": 0.0027,
-      "step": 106920
     },
     {
-      "epoch": 32.72,
-      "learning_rate": 0.0005051883296273836,
-      "loss": 0.0028,
-      "step": 107910
     },
     {
       "epoch": 33.0,
-      "eval_loss": 0.01606147363781929,
-      "eval_max_distance": 18,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4673,
-      "eval_samples_per_second": 107.008,
-      "eval_steps_per_second": 4.28,
-      "step": 108834
     },
     {
-      "epoch": 33.02,
-      "learning_rate": 0.0004996294050266155,
-      "loss": 0.0028,
-      "step": 108900
     },
     {
-      "epoch": 33.32,
-      "learning_rate": 0.0004940704804258473,
-      "loss": 0.0026,
-      "step": 109890
     },
     {
-      "epoch": 33.62,
-      "learning_rate": 0.0004885115558250792,
       "loss": 0.0026,
-      "step": 110880
     },
     {
-      "epoch": 33.92,
-      "learning_rate": 0.00048295263122431103,
-      "loss": 0.0027,
-      "step": 111870
     },
     {
       "epoch": 34.0,
-      "eval_loss": 0.021506933495402336,
-      "eval_max_distance": 26,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4763,
-      "eval_samples_per_second": 104.968,
-      "eval_steps_per_second": 4.199,
-      "step": 112132
     },
     {
-      "epoch": 34.22,
-      "learning_rate": 0.00047739370662354294,
-      "loss": 0.0024,
-      "step": 112860
     },
     {
-      "epoch": 34.52,
-      "learning_rate": 0.00047183478202277474,
       "loss": 0.0023,
-      "step": 113850
     },
     {
-      "epoch": 34.82,
-      "learning_rate": 0.0004662758574220066,
-      "loss": 0.0025,
-      "step": 114840
     },
     {
       "epoch": 35.0,
-      "eval_loss": 0.019841769710183144,
-      "eval_max_distance": 19,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4767,
-      "eval_samples_per_second": 104.884,
-      "eval_steps_per_second": 4.195,
-      "step": 115430
     },
     {
-      "epoch": 35.12,
-      "learning_rate": 0.00046071693282123845,
-      "loss": 0.0023,
-      "step": 115830
     },
     {
-      "epoch": 35.42,
-      "learning_rate": 0.0004551580082204703,
-      "loss": 0.0021,
-      "step": 116820
     },
     {
-      "epoch": 35.72,
-      "learning_rate": 0.0004495990836197022,
       "loss": 0.0023,
-      "step": 117810
     },
     {
       "epoch": 36.0,
-      "eval_loss": 0.01675160974264145,
-      "eval_max_distance": 24,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4591,
-      "eval_samples_per_second": 108.901,
-      "eval_steps_per_second": 4.356,
-      "step": 118728
     },
     {
-      "epoch": 36.02,
-      "learning_rate": 0.000444040159018934,
-      "loss": 0.0023,
-      "step": 118800
     },
     {
-      "epoch": 36.32,
-      "learning_rate": 0.0004384812344181659,
-      "loss": 0.0021,
-      "step": 119790
     },
     {
-      "epoch": 36.62,
-      "learning_rate": 0.0004329223098173978,
-      "loss": 0.0021,
-      "step": 120780
     },
     {
-      "epoch": 36.92,
-      "learning_rate": 0.0004273633852166296,
-      "loss": 0.002,
-      "step": 121770
     },
     {
       "epoch": 37.0,
-      "eval_loss": 0.022139811888337135,
-      "eval_max_distance": 32,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4713,
-      "eval_samples_per_second": 106.08,
-      "eval_steps_per_second": 4.243,
-      "step": 122026
     },
     {
-      "epoch": 37.22,
-      "learning_rate": 0.0004218044606158615,
-      "loss": 0.002,
-      "step": 122760
     },
     {
-      "epoch": 37.52,
-      "learning_rate": 0.00041624553601509335,
       "loss": 0.0019,
-      "step": 123750
     },
     {
-      "epoch": 37.82,
-      "learning_rate": 0.00041068661141432515,
-      "loss": 0.0019,
-      "step": 124740
     },
     {
       "epoch": 38.0,
-      "eval_loss": 0.02140805311501026,
-      "eval_max_distance": 32,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4808,
-      "eval_samples_per_second": 104.001,
-      "eval_steps_per_second": 4.16,
-      "step": 125324
     },
     {
-      "epoch": 38.12,
-      "learning_rate": 0.00040512768681355706,
-      "loss": 0.0019,
-      "step": 125730
     },
     {
-      "epoch": 38.42,
-      "learning_rate": 0.0003995687622127889,
       "loss": 0.0018,
-      "step": 126720
     },
     {
-      "epoch": 38.72,
-      "learning_rate": 0.0003940098376120208,
       "loss": 0.0017,
-      "step": 127710
     },
     {
       "epoch": 39.0,
-      "eval_loss": 0.018618840724229813,
-      "eval_max_distance": 19,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4752,
-      "eval_samples_per_second": 105.222,
-      "eval_steps_per_second": 4.209,
-      "step": 128622
     },
     {
-      "epoch": 39.02,
-      "learning_rate": 0.00038845091301125263,
-      "loss": 0.002,
-      "step": 128700
     },
     {
-      "epoch": 39.32,
-      "learning_rate": 0.0003828919884104845,
       "loss": 0.0016,
-      "step": 129690
     },
     {
-      "epoch": 39.62,
-      "learning_rate": 0.00037733306380971634,
       "loss": 0.0017,
-      "step": 130680
     },
     {
-      "epoch": 39.92,
-      "learning_rate": 0.0003717741392089482,
       "loss": 0.0017,
-      "step": 131670
     },
     {
       "epoch": 40.0,
-      "eval_loss": 0.017086679115891457,
-      "eval_max_distance": 23,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.458,
-      "eval_samples_per_second": 109.178,
-      "eval_steps_per_second": 4.367,
-      "step": 131920
     },
     {
-      "epoch": 40.22,
-      "learning_rate": 0.00036621521460818,
       "loss": 0.0015,
-      "step": 132660
     },
     {
-      "epoch": 40.52,
-      "learning_rate": 0.0003606562900074119,
-      "loss": 0.0016,
-      "step": 133650
     },
     {
-      "epoch": 40.82,
-      "learning_rate": 0.00035509736540664376,
       "loss": 0.0016,
-      "step": 134640
     },
     {
       "epoch": 41.0,
-      "eval_loss": 0.01638130471110344,
-      "eval_max_distance": 17,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4581,
-      "eval_samples_per_second": 109.147,
-      "eval_steps_per_second": 4.366,
-      "step": 135218
     },
     {
-      "epoch": 41.12,
-      "learning_rate": 0.0003495384408058756,
       "loss": 0.0015,
-      "step": 135630
     },
     {
       "epoch": 41.43,
-      "learning_rate": 0.0003439795162051075,
       "loss": 0.0014,
-      "step": 136620
     },
     {
       "epoch": 41.73,
-      "learning_rate": 0.00033842059160433933,
-      "loss": 0.0015,
-      "step": 137610
     },
     {
       "epoch": 42.0,
-      "eval_loss": 0.016585057601332664,
-      "eval_max_distance": 21,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.479,
-      "eval_samples_per_second": 104.393,
-      "eval_steps_per_second": 4.176,
-      "step": 138516
     },
     {
       "epoch": 42.03,
-      "learning_rate": 0.0003328616670035712,
-      "loss": 0.0014,
-      "step": 138600
     },
     {
       "epoch": 42.33,
-      "learning_rate": 0.00032730274240280304,
-      "loss": 0.0015,
-      "step": 139590
     },
     {
       "epoch": 42.63,
-      "learning_rate": 0.00032174381780203495,
-      "loss": 0.0015,
-      "step": 140580
     },
     {
       "epoch": 42.93,
-      "learning_rate": 0.00031618489320126675,
-      "loss": 0.0014,
-      "step": 141570
     },
     {
       "epoch": 43.0,
-      "eval_loss": 0.016704820096492767,
-      "eval_max_distance": 21,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4809,
-      "eval_samples_per_second": 103.976,
-      "eval_steps_per_second": 4.159,
-      "step": 141814
     },
     {
       "epoch": 43.23,
-      "learning_rate": 0.0003106259686004986,
-      "loss": 0.0011,
-      "step": 142560
     },
     {
       "epoch": 43.53,
-      "learning_rate": 0.0003050670439997305,
-      "loss": 0.0013,
-      "step": 143550
     },
     {
-      "epoch": 43.83,
-      "learning_rate": 0.0002995081193989623,
-      "loss": 0.0019,
-      "step": 144540
     },
     {
       "epoch": 44.0,
-      "eval_loss": 0.019240867346525192,
-      "eval_max_distance": 32,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.6494,
-      "eval_samples_per_second": 76.999,
-      "eval_steps_per_second": 3.08,
-      "step": 145112
     },
     {
-      "epoch": 44.13,
-      "learning_rate": 0.00029394919479819423,
       "loss": 0.0012,
-      "step": 145530
     },
     {
-      "epoch": 44.43,
-      "learning_rate": 0.00028839027019742603,
       "loss": 0.0011,
-      "step": 146520
     },
     {
-      "epoch": 44.73,
-      "learning_rate": 0.0002828313455966579,
-      "loss": 0.0011,
-      "step": 147510
     },
     {
       "epoch": 45.0,
-      "eval_loss": 0.02091757208108902,
-      "eval_max_distance": 27,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4646,
-      "eval_samples_per_second": 107.608,
-      "eval_steps_per_second": 4.304,
-      "step": 148410
-    },
-    {
-      "epoch": 45.03,
-      "learning_rate": 0.0002772724209958898,
-      "loss": 0.0011,
-      "step": 148500
     },
     {
-      "epoch": 45.33,
-      "learning_rate": 0.0002717134963951216,
-      "loss": 0.0011,
-      "step": 149490
     },
     {
-      "epoch": 45.63,
-      "learning_rate": 0.0002661545717943535,
       "loss": 0.001,
-      "step": 150480
     },
     {
-      "epoch": 45.93,
-      "learning_rate": 0.00026059564719358537,
       "loss": 0.0011,
-      "step": 151470
     },
     {
       "epoch": 46.0,
-      "eval_loss": 0.02175173908472061,
-      "eval_max_distance": 23,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4863,
-      "eval_samples_per_second": 102.827,
-      "eval_steps_per_second": 4.113,
-      "step": 151708
     },
     {
-      "epoch": 46.23,
-      "learning_rate": 0.00025503672259281717,
       "loss": 0.001,
-      "step": 152460
     },
     {
-      "epoch": 46.53,
-      "learning_rate": 0.0002494777979920491,
-      "loss": 0.001,
-      "step": 153450
     },
     {
-      "epoch": 46.83,
-      "learning_rate": 0.0002439188733912809,
       "loss": 0.001,
-      "step": 154440
     },
     {
       "epoch": 47.0,
-      "eval_loss": 0.01951581984758377,
-      "eval_max_distance": 25,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4608,
-      "eval_samples_per_second": 108.512,
-      "eval_steps_per_second": 4.34,
-      "step": 155006
     },
     {
-      "epoch": 47.13,
-      "learning_rate": 0.0002383599487905128,
-      "loss": 0.001,
-      "step": 155430
     },
     {
-      "epoch": 47.43,
-      "learning_rate": 0.00023280102418974464,
       "loss": 0.0009,
-      "step": 156420
     },
     {
-      "epoch": 47.73,
-      "learning_rate": 0.00022724209958897647,
       "loss": 0.0009,
-      "step": 157410
     },
     {
       "epoch": 48.0,
-      "eval_loss": 0.01657327450811863,
-      "eval_max_distance": 15,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4688,
-      "eval_samples_per_second": 106.651,
-      "eval_steps_per_second": 4.266,
-      "step": 158304
     },
     {
-      "epoch": 48.03,
-      "learning_rate": 0.00022168317498820833,
       "loss": 0.0009,
-      "step": 158400
     },
     {
-      "epoch": 48.33,
-      "learning_rate": 0.0002161242503874402,
       "loss": 0.0008,
-      "step": 159390
     },
     {
-      "epoch": 48.63,
-      "learning_rate": 0.00021056532578667207,
-      "loss": 0.0008,
-      "step": 160380
     },
     {
-      "epoch": 48.93,
-      "learning_rate": 0.00020500640118590392,
-      "loss": 0.0008,
-      "step": 161370
     },
     {
       "epoch": 49.0,
-      "eval_loss": 0.020961837843060493,
-      "eval_max_distance": 31,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4893,
-      "eval_samples_per_second": 102.188,
-      "eval_steps_per_second": 4.088,
-      "step": 161602
     },
     {
-      "epoch": 49.23,
-      "learning_rate": 0.00019944747658513578,
       "loss": 0.0008,
-      "step": 162360
     },
     {
-      "epoch": 49.53,
-      "learning_rate": 0.00019388855198436764,
       "loss": 0.0008,
-      "step": 163350
     },
     {
-      "epoch": 49.83,
-      "learning_rate": 0.0001883296273835995,
       "loss": 0.0008,
-      "step": 164340
     },
     {
       "epoch": 50.0,
-      "eval_loss": 0.022983456030488014,
-      "eval_max_distance": 22,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.479,
-      "eval_samples_per_second": 104.39,
-      "eval_steps_per_second": 4.176,
-      "step": 164900
     },
     {
-      "epoch": 50.13,
-      "learning_rate": 0.00018277070278283135,
-      "loss": 0.0008,
-      "step": 165330
     },
     {
-      "epoch": 50.43,
-      "learning_rate": 0.0001772117781820632,
       "loss": 0.0007,
-      "step": 166320
     },
     {
-      "epoch": 50.73,
-      "learning_rate": 0.00017165285358129506,
-      "loss": 0.0008,
-      "step": 167310
     },
     {
       "epoch": 51.0,
-      "eval_loss": 0.018444916233420372,
-      "eval_max_distance": 15,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4866,
-      "eval_samples_per_second": 102.75,
-      "eval_steps_per_second": 4.11,
-      "step": 168198
     },
     {
-      "epoch": 51.03,
-      "learning_rate": 0.00016609392898052691,
       "loss": 0.0007,
-      "step": 168300
     },
     {
-      "epoch": 51.33,
-      "learning_rate": 0.0001605350043797588,
       "loss": 0.0007,
-      "step": 169290
     },
     {
-      "epoch": 51.63,
-      "learning_rate": 0.00015497607977899065,
-      "loss": 0.0007,
-      "step": 170280
     },
     {
-      "epoch": 51.93,
-      "learning_rate": 0.00014941715517822248,
-      "loss": 0.0007,
-      "step": 171270
     },
     {
       "epoch": 52.0,
-      "eval_loss": 0.01832015998661518,
-      "eval_max_distance": 15,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4672,
-      "eval_samples_per_second": 107.025,
-      "eval_steps_per_second": 4.281,
-      "step": 171496
     },
     {
-      "epoch": 52.23,
-      "learning_rate": 0.00014385823057745434,
       "loss": 0.0006,
-      "step": 172260
     },
     {
-      "epoch": 52.53,
-      "learning_rate": 0.00013829930597668622,
       "loss": 0.0006,
-      "step": 173250
     },
     {
-      "epoch": 52.83,
-      "learning_rate": 0.00013274038137591808,
       "loss": 0.0006,
-      "step": 174240
     },
     {
       "epoch": 53.0,
-      "eval_loss": 0.023398304358124733,
-      "eval_max_distance": 32,
-      "eval_mean_distance": 1,
-      "eval_runtime": 0.4822,
-      "eval_samples_per_second": 103.698,
-      "eval_steps_per_second": 4.148,
-      "step": 174794
     },
     {
-      "epoch": 53.13,
-      "learning_rate": 0.0001271814567751499,
       "loss": 0.0006,
-      "step": 175230
     },
     {
-      "epoch": 53.43,
-      "learning_rate": 0.00012162253217438179,
-      "loss": 0.0006,
-      "step": 176220
     },
     {
-      "epoch": 53.73,
-      "learning_rate": 0.00011606360757361364,
       "loss": 0.0005,
-      "step": 177210
     },
     {
       "epoch": 54.0,
-      "eval_loss": 0.022733934223651886,
-      "eval_max_distance": 24,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4789,
-      "eval_samples_per_second": 104.41,
-      "eval_steps_per_second": 4.176,
-      "step": 178092
     },
     {
-      "epoch": 54.03,
-      "learning_rate": 0.0001105046829728455,
       "loss": 0.0005,
-      "step": 178200
     },
     {
-      "epoch": 54.33,
-      "learning_rate": 0.00010494575837207735,
-      "loss": 0.0005,
-      "step": 179190
     },
     {
-      "epoch": 54.63,
-      "learning_rate": 9.938683377130921e-05,
       "loss": 0.0005,
-      "step": 180180
     },
     {
-      "epoch": 54.93,
-      "learning_rate": 9.382790917054107e-05,
-      "loss": 0.0004,
-      "step": 181170
     },
     {
       "epoch": 55.0,
-      "eval_loss": 0.018815917894244194,
-      "eval_max_distance": 15,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4798,
-      "eval_samples_per_second": 104.21,
-      "eval_steps_per_second": 4.168,
-      "step": 181390
     },
     {
-      "epoch": 55.23,
-      "learning_rate": 8.826898456977294e-05,
       "loss": 0.0005,
-      "step": 182160
     },
     {
-      "epoch": 55.53,
-      "learning_rate": 8.271005996900478e-05,
       "loss": 0.0004,
-      "step": 183150
     },
     {
-      "epoch": 55.83,
-      "learning_rate": 7.715113536823665e-05,
       "loss": 0.0005,
-      "step": 184140
     },
     {
       "epoch": 56.0,
-      "eval_loss": 0.01906018890440464,
-      "eval_max_distance": 15,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.48,
-      "eval_samples_per_second": 104.168,
-      "eval_steps_per_second": 4.167,
-      "step": 184688
     },
     {
-      "epoch": 56.13,
-      "learning_rate": 7.15922107674685e-05,
       "loss": 0.0004,
-      "step": 185130
     },
     {
-      "epoch": 56.43,
-      "learning_rate": 6.603328616670036e-05,
       "loss": 0.0004,
-      "step": 186120
     },
     {
-      "epoch": 56.73,
-      "learning_rate": 6.0474361565932214e-05,
       "loss": 0.0004,
-      "step": 187110
     },
     {
       "epoch": 57.0,
-      "eval_loss": 0.018282707780599594,
-      "eval_max_distance": 15,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4797,
-      "eval_samples_per_second": 104.233,
-      "eval_steps_per_second": 4.169,
-      "step": 187986
     },
     {
-      "epoch": 57.03,
-      "learning_rate": 5.491543696516407e-05,
       "loss": 0.0004,
-      "step": 188100
     },
     {
-      "epoch": 57.33,
-      "learning_rate": 4.935651236439593e-05,
       "loss": 0.0004,
-      "step": 189090
     },
     {
-      "epoch": 57.63,
-      "learning_rate": 4.379758776362779e-05,
       "loss": 0.0004,
-      "step": 190080
     },
     {
-      "epoch": 57.94,
-      "learning_rate": 3.823866316285965e-05,
       "loss": 0.0003,
-      "step": 191070
     },
     {
       "epoch": 58.0,
-      "eval_loss": 0.018019111827015877,
-      "eval_max_distance": 15,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4619,
-      "eval_samples_per_second": 108.242,
-      "eval_steps_per_second": 4.33,
-      "step": 191284
     },
     {
-      "epoch": 58.24,
-      "learning_rate": 3.2679738562091506e-05,
-      "loss": 0.0004,
-      "step": 192060
     },
     {
-      "epoch": 58.54,
-      "learning_rate": 2.7120813961323362e-05,
       "loss": 0.0004,
-      "step": 193050
     },
     {
-      "epoch": 58.84,
-      "learning_rate": 2.1561889360555218e-05,
       "loss": 0.0003,
-      "step": 194040
     },
     {
       "epoch": 59.0,
-      "eval_loss": 0.01795811764895916,
-      "eval_max_distance": 15,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.475,
-      "eval_samples_per_second": 105.265,
-      "eval_steps_per_second": 4.211,
-      "step": 194582
     },
     {
-      "epoch": 59.14,
-      "learning_rate": 1.6002964759787074e-05,
-      "loss": 0.0004,
-      "step": 195030
     },
     {
-      "epoch": 59.44,
-      "learning_rate": 1.0444040159018933e-05,
-      "loss": 0.0004,
-      "step": 196020
     },
     {
-      "epoch": 59.74,
-      "learning_rate": 4.885115558250792e-06,
       "loss": 0.0004,
-      "step": 197010
     },
     {
       "epoch": 60.0,
-      "eval_loss": 0.017678335309028625,
-      "eval_max_distance": 15,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.4798,
-      "eval_samples_per_second": 104.214,
-      "eval_steps_per_second": 4.169,
-      "step": 197880
     },
     {
       "epoch": 60.0,
-      "step": 197880,
-      "total_flos": 1.1400109636858675e+17,
-      "train_loss": 0.031872519274052644,
-      "train_runtime": 16366.2485,
-      "train_samples_per_second": 362.656,
-      "train_steps_per_second": 12.091
     }
   ],
-  "logging_steps": 990,
-  "max_steps": 197880,
   "num_train_epochs": 60,
-  "save_steps": 1979,
-  "total_flos": 1.1400109636858675e+17,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 60.0,
   "eval_steps": 500,
+  "global_step": 200040,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 4.999000199960008e-08,
+      "loss": 13.1619,
       "step": 1
     },
     {
       "epoch": 0.3,
+      "learning_rate": 5.003999200159968e-05,
+      "loss": 3.3531,
+      "step": 1001
     },
     {
       "epoch": 0.6,
+      "learning_rate": 0.00010007998400319936,
+      "loss": 0.3338,
+      "step": 2002
     },
     {
       "epoch": 0.9,
+      "learning_rate": 0.00015011997600479905,
+      "loss": 0.2251,
+      "step": 3003
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.118980273604393,
+      "eval_max_distance": 29,
+      "eval_mean_distance": 3,
+      "eval_runtime": 0.3245,
+      "eval_samples_per_second": 154.076,
+      "eval_steps_per_second": 6.163,
+      "step": 3334
     },
     {
       "epoch": 1.2,
+      "learning_rate": 0.00020015996800639872,
+      "loss": 0.1668,
+      "step": 4004
     },
     {
       "epoch": 1.5,
+      "learning_rate": 0.0002501999600079984,
+      "loss": 0.1375,
+      "step": 5005
     },
     {
       "epoch": 1.8,
+      "learning_rate": 0.0003002399520095981,
       "loss": 0.1179,
+      "step": 6006
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.057394467294216156,
+      "eval_max_distance": 31,
+      "eval_mean_distance": 2,
+      "eval_runtime": 0.2749,
+      "eval_samples_per_second": 181.873,
+      "eval_steps_per_second": 7.275,
+      "step": 6668
     },
     {
       "epoch": 2.1,
+      "learning_rate": 0.00035027994401119777,
+      "loss": 0.0992,
+      "step": 7007
     },
     {
       "epoch": 2.4,
+      "learning_rate": 0.00040031993601279744,
+      "loss": 0.0886,
+      "step": 8008
     },
     {
       "epoch": 2.7,
+      "learning_rate": 0.0004503599280143971,
+      "loss": 0.0848,
+      "step": 9009
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.043563079088926315,
+      "eval_max_distance": 15,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.2795,
+      "eval_samples_per_second": 178.881,
+      "eval_steps_per_second": 7.155,
+      "step": 10002
     },
     {
       "epoch": 3.0,
+      "learning_rate": 0.0005003999200159968,
+      "loss": 0.0757,
+      "step": 10010
     },
     {
       "epoch": 3.3,
+      "learning_rate": 0.0005504399120175964,
+      "loss": 0.0681,
+      "step": 11011
     },
     {
       "epoch": 3.6,
+      "learning_rate": 0.0006004799040191962,
       "loss": 0.0653,
+      "step": 12012
     },
     {
       "epoch": 3.9,
+      "learning_rate": 0.0006505198960207959,
+      "loss": 0.0618,
+      "step": 13013
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.035945579409599304,
+      "eval_max_distance": 20,
       "eval_mean_distance": 1,
+      "eval_runtime": 0.2802,
+      "eval_samples_per_second": 178.422,
+      "eval_steps_per_second": 7.137,
+      "step": 13336
     },
     {
       "epoch": 4.2,
+      "learning_rate": 0.0007005598880223955,
+      "loss": 0.0564,
+      "step": 14014
     },
     {
       "epoch": 4.5,
+      "learning_rate": 0.0007505998800239953,
+      "loss": 0.0537,
+      "step": 15015
     },
     {
       "epoch": 4.8,
+      "learning_rate": 0.0008006398720255949,
+      "loss": 0.0532,
+      "step": 16016
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.031485434621572495,
+      "eval_max_distance": 11,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2717,
+      "eval_samples_per_second": 184.007,
+      "eval_steps_per_second": 7.36,
+      "step": 16670
     },
     {
       "epoch": 5.1,
+      "learning_rate": 0.0008506798640271945,
+      "loss": 0.05,
+      "step": 17017
     },
     {
       "epoch": 5.4,
+      "learning_rate": 0.0009007198560287942,
+      "loss": 0.0468,
+      "step": 18018
     },
     {
       "epoch": 5.7,
+      "learning_rate": 0.000950759848030394,
+      "loss": 0.0446,
+      "step": 19019
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.0298615675419569,
+      "eval_max_distance": 16,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2573,
+      "eval_samples_per_second": 194.348,
+      "eval_steps_per_second": 7.774,
+      "step": 20004
     },
     {
       "epoch": 6.0,
+      "learning_rate": 0.000999911128885334,
+      "loss": 0.0465,
+      "step": 20020
     },
     {
+      "epoch": 6.31,
+      "learning_rate": 0.0009943511297740451,
+      "loss": 0.0384,
+      "step": 21021
     },
     {
+      "epoch": 6.61,
+      "learning_rate": 0.0009887911306627564,
+      "loss": 0.0378,
+      "step": 22022
     },
     {
+      "epoch": 6.91,
+      "learning_rate": 0.0009832311315514674,
+      "loss": 0.0388,
+      "step": 23023
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.029532546177506447,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2674,
+      "eval_samples_per_second": 187.01,
+      "eval_steps_per_second": 7.48,
+      "step": 23338
     },
     {
+      "epoch": 7.21,
+      "learning_rate": 0.0009776711324401787,
+      "loss": 0.0336,
+      "step": 24024
     },
     {
+      "epoch": 7.51,
+      "learning_rate": 0.0009721111333288898,
+      "loss": 0.032,
+      "step": 25025
     },
     {
+      "epoch": 7.81,
+      "learning_rate": 0.000966551134217601,
+      "loss": 0.0311,
+      "step": 26026
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.02873826026916504,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2674,
+      "eval_samples_per_second": 186.98,
+      "eval_steps_per_second": 7.479,
+      "step": 26672
     },
     {
+      "epoch": 8.11,
+      "learning_rate": 0.0009609911351063121,
+      "loss": 0.0304,
+      "step": 27027
     },
     {
       "epoch": 8.41,
+      "learning_rate": 0.0009554311359950233,
+      "loss": 0.0267,
+      "step": 28028
     },
     {
       "epoch": 8.71,
+      "learning_rate": 0.0009498711368837344,
+      "loss": 0.0269,
+      "step": 29029
     },
     {
       "epoch": 9.0,
+      "eval_loss": 0.02408006228506565,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2548,
+      "eval_samples_per_second": 196.242,
+      "eval_steps_per_second": 7.85,
+      "step": 30006
     },
     {
       "epoch": 9.01,
+      "learning_rate": 0.0009443111377724454,
+      "loss": 0.0269,
+      "step": 30030
     },
     {
       "epoch": 9.31,
+      "learning_rate": 0.0009387511386611567,
+      "loss": 0.022,
+      "step": 31031
     },
     {
       "epoch": 9.61,
+      "learning_rate": 0.0009331911395498677,
+      "loss": 0.0231,
+      "step": 32032
     },
     {
       "epoch": 9.91,
+      "learning_rate": 0.000927631140438579,
+      "loss": 0.0232,
+      "step": 33033
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.022765493020415306,
+      "eval_max_distance": 13,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2488,
+      "eval_samples_per_second": 200.959,
+      "eval_steps_per_second": 8.038,
+      "step": 33340
     },
     {
       "epoch": 10.21,
+      "learning_rate": 0.00092207114132729,
+      "loss": 0.0199,
+      "step": 34034
     },
     {
       "epoch": 10.51,
+      "learning_rate": 0.0009165111422160013,
+      "loss": 0.0196,
+      "step": 35035
     },
     {
       "epoch": 10.81,
+      "learning_rate": 0.0009109511431047123,
       "loss": 0.0203,
+      "step": 36036
     },
     {
       "epoch": 11.0,
+      "eval_loss": 0.024308495223522186,
+      "eval_max_distance": 16,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2617,
+      "eval_samples_per_second": 191.039,
+      "eval_steps_per_second": 7.642,
+      "step": 36674
     },
     {
       "epoch": 11.11,
+      "learning_rate": 0.0009053911439934236,
+      "loss": 0.0186,
+      "step": 37037
     },
     {
       "epoch": 11.41,
+      "learning_rate": 0.0008998311448821347,
+      "loss": 0.0167,
+      "step": 38038
     },
     {
       "epoch": 11.71,
+      "learning_rate": 0.0008942711457708459,
+      "loss": 0.0173,
+      "step": 39039
     },
     {
       "epoch": 12.0,
+      "eval_loss": 0.0250206608325243,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2565,
+      "eval_samples_per_second": 194.951,
+      "eval_steps_per_second": 7.798,
+      "step": 40008
     },
     {
       "epoch": 12.01,
+      "learning_rate": 0.000888711146659557,
+      "loss": 0.0178,
+      "step": 40040
     },
     {
       "epoch": 12.31,
+      "learning_rate": 0.0008831511475482682,
+      "loss": 0.0146,
+      "step": 41041
     },
     {
       "epoch": 12.61,
+      "learning_rate": 0.0008775911484369793,
+      "loss": 0.0149,
+      "step": 42042
     },
     {
       "epoch": 12.91,
+      "learning_rate": 0.0008720311493256904,
+      "loss": 0.0151,
+      "step": 43043
     },
     {
       "epoch": 13.0,
+      "eval_loss": 0.024401402100920677,
+      "eval_max_distance": 9,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2582,
+      "eval_samples_per_second": 193.662,
+      "eval_steps_per_second": 7.746,
+      "step": 43342
     },
     {
       "epoch": 13.21,
+      "learning_rate": 0.0008664711502144016,
+      "loss": 0.0138,
+      "step": 44044
     },
     {
       "epoch": 13.51,
+      "learning_rate": 0.0008609111511031127,
+      "loss": 0.0137,
+      "step": 45045
     },
     {
       "epoch": 13.81,
+      "learning_rate": 0.0008553511519918239,
+      "loss": 0.0136,
+      "step": 46046
     },
     {
       "epoch": 14.0,
+      "eval_loss": 0.023412013426423073,
+      "eval_max_distance": 15,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2465,
+      "eval_samples_per_second": 202.834,
+      "eval_steps_per_second": 8.113,
+      "step": 46676
     },
     {
       "epoch": 14.11,
+      "learning_rate": 0.000849791152880535,
+      "loss": 0.0126,
+      "step": 47047
     },
     {
       "epoch": 14.41,
+      "learning_rate": 0.0008442311537692462,
       "loss": 0.0121,
+      "step": 48048
     },
     {
       "epoch": 14.71,
+      "learning_rate": 0.0008386711546579573,
+      "loss": 0.0123,
+      "step": 49049
     },
     {
       "epoch": 15.0,
+      "eval_loss": 0.022092605009675026,
+      "eval_max_distance": 9,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2607,
+      "eval_samples_per_second": 191.77,
+      "eval_steps_per_second": 7.671,
+      "step": 50010
     },
     {
       "epoch": 15.01,
+      "learning_rate": 0.0008331111555466685,
+      "loss": 0.0125,
+      "step": 50050
     },
     {
       "epoch": 15.31,
+      "learning_rate": 0.0008275511564353796,
+      "loss": 0.0101,
+      "step": 51051
     },
     {
       "epoch": 15.61,
+      "learning_rate": 0.0008219911573240908,
+      "loss": 0.0108,
+      "step": 52052
     },
     {
       "epoch": 15.91,
+      "learning_rate": 0.0008164311582128019,
+      "loss": 0.0113,
+      "step": 53053
     },
     {
       "epoch": 16.0,
+      "eval_loss": 0.024386152625083923,
+      "eval_max_distance": 12,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2455,
+      "eval_samples_per_second": 203.682,
+      "eval_steps_per_second": 8.147,
+      "step": 53344
     },
     {
       "epoch": 16.21,
+      "learning_rate": 0.0008108711591015131,
+      "loss": 0.0099,
+      "step": 54054
     },
     {
       "epoch": 16.51,
+      "learning_rate": 0.0008053111599902242,
+      "loss": 0.0096,
+      "step": 55055
     },
     {
       "epoch": 16.81,
+      "learning_rate": 0.0007997511608789353,
+      "loss": 0.01,
+      "step": 56056
     },
     {
       "epoch": 17.0,
+      "eval_loss": 0.02255043014883995,
+      "eval_max_distance": 13,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2506,
+      "eval_samples_per_second": 199.486,
+      "eval_steps_per_second": 7.979,
+      "step": 56678
     },
     {
       "epoch": 17.11,
+      "learning_rate": 0.0007941911617676465,
+      "loss": 0.0093,
+      "step": 57057
     },
     {
       "epoch": 17.41,
+      "learning_rate": 0.0007886311626563576,
+      "loss": 0.0087,
+      "step": 58058
     },
     {
       "epoch": 17.71,
+      "learning_rate": 0.0007830711635450687,
+      "loss": 0.0089,
+      "step": 59059
     },
     {
       "epoch": 18.0,
+      "eval_loss": 0.027119183912873268,
+      "eval_max_distance": 13,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2424,
+      "eval_samples_per_second": 206.232,
+      "eval_steps_per_second": 8.249,
+      "step": 60012
     },
     {
       "epoch": 18.01,
+      "learning_rate": 0.0007775111644337799,
+      "loss": 0.0091,
+      "step": 60060
     },
     {
       "epoch": 18.31,
+      "learning_rate": 0.0007719511653224912,
       "loss": 0.0075,
+      "step": 61061
     },
     {
       "epoch": 18.61,
+      "learning_rate": 0.0007663911662112022,
+      "loss": 0.0079,
+      "step": 62062
     },
     {
+      "epoch": 18.92,
+      "learning_rate": 0.0007608311670999134,
+      "loss": 0.0085,
+      "step": 63063
     },
     {
       "epoch": 19.0,
+      "eval_loss": 0.024822326377034187,
+      "eval_max_distance": 13,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2416,
+      "eval_samples_per_second": 206.915,
+      "eval_steps_per_second": 8.277,
+      "step": 63346
     },
     {
+      "epoch": 19.22,
+      "learning_rate": 0.0007552711679886245,
+      "loss": 0.0071,
+      "step": 64064
     },
     {
+      "epoch": 19.52,
+      "learning_rate": 0.0007497111688773357,
+      "loss": 0.0074,
+      "step": 65065
     },
     {
+      "epoch": 19.82,
+      "learning_rate": 0.0007441511697660468,
+      "loss": 0.0074,
+      "step": 66066
     },
     {
       "epoch": 20.0,
+      "eval_loss": 0.027729548513889313,
+      "eval_max_distance": 12,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2481,
+      "eval_samples_per_second": 201.568,
+      "eval_steps_per_second": 8.063,
+      "step": 66680
     },
     {
+      "epoch": 20.12,
+      "learning_rate": 0.000738591170654758,
+      "loss": 0.007,
+      "step": 67067
     },
     {
+      "epoch": 20.42,
+      "learning_rate": 0.0007330311715434691,
+      "loss": 0.0061,
+      "step": 68068
     },
     {
+      "epoch": 20.72,
+      "learning_rate": 0.0007274711724321802,
+      "loss": 0.007,
+      "step": 69069
     },
     {
       "epoch": 21.0,
+      "eval_loss": 0.030854225158691406,
+      "eval_max_distance": 13,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2457,
+      "eval_samples_per_second": 203.54,
+      "eval_steps_per_second": 8.142,
+      "step": 70014
     },
     {
+      "epoch": 21.02,
+      "learning_rate": 0.0007219111733208914,
+      "loss": 0.0069,
+      "step": 70070
     },
     {
+      "epoch": 21.32,
+      "learning_rate": 0.0007163511742096025,
+      "loss": 0.006,
+      "step": 71071
     },
     {
+      "epoch": 21.62,
+      "learning_rate": 0.0007107911750983137,
+      "loss": 0.0061,
+      "step": 72072
     },
     {
+      "epoch": 21.92,
+      "learning_rate": 0.0007052311759870248,
+      "loss": 0.0066,
+      "step": 73073
     },
     {
       "epoch": 22.0,
+      "eval_loss": 0.030563361942768097,
+      "eval_max_distance": 11,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2419,
+      "eval_samples_per_second": 206.734,
+      "eval_steps_per_second": 8.269,
+      "step": 73348
     },
     {
+      "epoch": 22.22,
+      "learning_rate": 0.000699671176875736,
+      "loss": 0.0054,
+      "step": 74074
     },
     {
+      "epoch": 22.52,
+      "learning_rate": 0.0006941111777644471,
+      "loss": 0.0061,
+      "step": 75075
     },
     {
+      "epoch": 22.82,
+      "learning_rate": 0.0006885511786531583,
+      "loss": 0.0056,
+      "step": 76076
     },
     {
       "epoch": 23.0,
+      "eval_loss": 0.028730520978569984,
+      "eval_max_distance": 10,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2431,
+      "eval_samples_per_second": 205.684,
+      "eval_steps_per_second": 8.227,
+      "step": 76682
     },
     {
+      "epoch": 23.12,
+      "learning_rate": 0.0006829911795418694,
+      "loss": 0.0054,
+      "step": 77077
     },
     {
+      "epoch": 23.42,
+      "learning_rate": 0.0006774311804305806,
+      "loss": 0.0052,
+      "step": 78078
     },
     {
+      "epoch": 23.72,
+      "learning_rate": 0.0006718711813192917,
+      "loss": 0.0053,
+      "step": 79079
     },
     {
       "epoch": 24.0,
+      "eval_loss": 0.031197942793369293,
+      "eval_max_distance": 12,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2517,
+      "eval_samples_per_second": 198.643,
+      "eval_steps_per_second": 7.946,
+      "step": 80016
     },
     {
+      "epoch": 24.02,
+      "learning_rate": 0.0006663111822080029,
+      "loss": 0.0054,
+      "step": 80080
     },
     {
+      "epoch": 24.32,
+      "learning_rate": 0.000660751183096714,
+      "loss": 0.0044,
+      "step": 81081
     },
     {
+      "epoch": 24.62,
+      "learning_rate": 0.000655191183985425,
+      "loss": 0.0048,
+      "step": 82082
     },
     {
       "epoch": 24.92,
+      "learning_rate": 0.0006496311848741363,
+      "loss": 0.0049,
+      "step": 83083
     },
     {
       "epoch": 25.0,
+      "eval_loss": 0.0276066605001688,
+      "eval_max_distance": 11,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2475,
+      "eval_samples_per_second": 202.046,
+      "eval_steps_per_second": 8.082,
+      "step": 83350
     },
     {
       "epoch": 25.22,
+      "learning_rate": 0.0006440711857628475,
+      "loss": 0.0045,
+      "step": 84084
     },
     {
       "epoch": 25.52,
+      "learning_rate": 0.0006385111866515586,
       "loss": 0.0045,
+      "step": 85085
     },
     {
       "epoch": 25.82,
+      "learning_rate": 0.0006329511875402698,
+      "loss": 0.0053,
+      "step": 86086
     },
     {
       "epoch": 26.0,
+      "eval_loss": 0.030818996950984,
+      "eval_max_distance": 10,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2424,
+      "eval_samples_per_second": 206.301,
+      "eval_steps_per_second": 8.252,
+      "step": 86684
     },
     {
       "epoch": 26.12,
+      "learning_rate": 0.0006273911884289809,
+      "loss": 0.0045,
+      "step": 87087
     },
     {
       "epoch": 26.42,
+      "learning_rate": 0.000621831189317692,
+      "loss": 0.0041,
+      "step": 88088
     },
     {
       "epoch": 26.72,
+      "learning_rate": 0.0006162711902064032,
+      "loss": 0.0041,
+      "step": 89089
     },
     {
       "epoch": 27.0,
+      "eval_loss": 0.027929000556468964,
+      "eval_max_distance": 10,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2471,
+      "eval_samples_per_second": 202.312,
+      "eval_steps_per_second": 8.092,
+      "step": 90018
     },
     {
       "epoch": 27.02,
+      "learning_rate": 0.0006107111910951143,
       "loss": 0.0043,
+      "step": 90090
     },
     {
       "epoch": 27.32,
+      "learning_rate": 0.0006051511919838255,
+      "loss": 0.0038,
+      "step": 91091
     },
     {
       "epoch": 27.62,
+      "learning_rate": 0.0005995911928725366,
+      "loss": 0.0038,
+      "step": 92092
     },
     {
       "epoch": 27.92,
+      "learning_rate": 0.0005940311937612478,
+      "loss": 0.0041,
+      "step": 93093
     },
     {
       "epoch": 28.0,
+      "eval_loss": 0.029230400919914246,
+      "eval_max_distance": 11,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2482,
+      "eval_samples_per_second": 201.481,
+      "eval_steps_per_second": 8.059,
+      "step": 93352
     },
     {
       "epoch": 28.22,
+      "learning_rate": 0.0005884711946499589,
       "loss": 0.0037,
+      "step": 94094
     },
     {
       "epoch": 28.52,
+      "learning_rate": 0.00058291119553867,
+      "loss": 0.0033,
+      "step": 95095
     },
     {
       "epoch": 28.82,
+      "learning_rate": 0.0005773511964273812,
+      "loss": 0.0037,
+      "step": 96096
     },
     {
       "epoch": 29.0,
+      "eval_loss": 0.030607566237449646,
+      "eval_max_distance": 11,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2429,
+      "eval_samples_per_second": 205.838,
+      "eval_steps_per_second": 8.234,
+      "step": 96686
     },
     {
       "epoch": 29.12,
+      "learning_rate": 0.0005717911973160923,
+      "loss": 0.0036,
+      "step": 97097
     },
     {
       "epoch": 29.42,
+      "learning_rate": 0.0005662311982048035,
       "loss": 0.0033,
+      "step": 98098
     },
     {
       "epoch": 29.72,
+      "learning_rate": 0.0005606711990935146,
+      "loss": 0.0035,
+      "step": 99099
     },
     {
       "epoch": 30.0,
+      "eval_loss": 0.027241094037890434,
+      "eval_max_distance": 12,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2466,
+      "eval_samples_per_second": 202.757,
+      "eval_steps_per_second": 8.11,
+      "step": 100020
     },
     {
       "epoch": 30.02,
+      "learning_rate": 0.0005551111999822258,
+      "loss": 0.0033,
+      "step": 100100
     },
     {
       "epoch": 30.32,
+      "learning_rate": 0.0005495512008709369,
       "loss": 0.003,
+      "step": 101101
     },
     {
       "epoch": 30.62,
+      "learning_rate": 0.0005439912017596481,
+      "loss": 0.0031,
+      "step": 102102
     },
     {
       "epoch": 30.92,
+      "learning_rate": 0.0005384312026483592,
+      "loss": 0.0032,
+      "step": 103103
     },
     {
       "epoch": 31.0,
+      "eval_loss": 0.0254651065915823,
+      "eval_max_distance": 9,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2446,
+      "eval_samples_per_second": 204.388,
+      "eval_steps_per_second": 8.176,
+      "step": 103354
     },
     {
       "epoch": 31.22,
+      "learning_rate": 0.0005328712035370704,
+      "loss": 0.0028,
+      "step": 104104
     },
     {
+      "epoch": 31.53,
+      "learning_rate": 0.0005273112044257815,
+      "loss": 0.0029,
+      "step": 105105
     },
     {
+      "epoch": 31.83,
+      "learning_rate": 0.0005217512053144927,
+      "loss": 0.0031,
+      "step": 106106
     },
     {
       "epoch": 32.0,
+      "eval_loss": 0.02928677573800087,
+      "eval_max_distance": 10,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2518,
+      "eval_samples_per_second": 198.594,
+      "eval_steps_per_second": 7.944,
+      "step": 106688
     },
     {
+      "epoch": 32.13,
+      "learning_rate": 0.0005161912062032039,
       "loss": 0.0028,
+      "step": 107107
     },
     {
+      "epoch": 32.43,
+      "learning_rate": 0.0005106312070919149,
+      "loss": 0.0026,
+      "step": 108108
     },
     {
+      "epoch": 32.73,
+      "learning_rate": 0.0005050712079806262,
+      "loss": 0.0029,
+      "step": 109109
     },
     {
       "epoch": 33.0,
+      "eval_loss": 0.029988963156938553,
+      "eval_max_distance": 13,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2465,
+      "eval_samples_per_second": 202.802,
+      "eval_steps_per_second": 8.112,
+      "step": 110022
     },
     {
+      "epoch": 33.03,
+      "learning_rate": 0.0004995112088693373,
+      "loss": 0.0027,
+      "step": 110110
     },
     {
+      "epoch": 33.33,
+      "learning_rate": 0.0004939512097580485,
+      "loss": 0.0025,
+      "step": 111111
     },
     {
+      "epoch": 33.63,
+      "learning_rate": 0.0004883912106467596,
       "loss": 0.0026,
+      "step": 112112
     },
     {
+      "epoch": 33.93,
+      "learning_rate": 0.0004828312115354707,
+      "loss": 0.0026,
+      "step": 113113
     },
     {
       "epoch": 34.0,
+      "eval_loss": 0.03050011210143566,
+      "eval_max_distance": 11,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2507,
+      "eval_samples_per_second": 199.458,
+      "eval_steps_per_second": 7.978,
+      "step": 113356
     },
     {
+      "epoch": 34.23,
+      "learning_rate": 0.00047727121242418185,
+      "loss": 0.0025,
+      "step": 114114
     },
     {
+      "epoch": 34.53,
+      "learning_rate": 0.00047171121331289294,
       "loss": 0.0023,
+      "step": 115115
     },
     {
+      "epoch": 34.83,
+      "learning_rate": 0.0004661512142016041,
+      "loss": 0.0024,
+      "step": 116116
     },
     {
       "epoch": 35.0,
+      "eval_loss": 0.027280788868665695,
+      "eval_max_distance": 9,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2447,
+      "eval_samples_per_second": 204.372,
+      "eval_steps_per_second": 8.175,
+      "step": 116690
     },
     {
+      "epoch": 35.13,
+      "learning_rate": 0.00046059121509031524,
+      "loss": 0.0024,
+      "step": 117117
     },
     {
+      "epoch": 35.43,
+      "learning_rate": 0.00045503121597902644,
+      "loss": 0.0022,
+      "step": 118118
     },
     {
+      "epoch": 35.73,
+      "learning_rate": 0.0004494712168677376,
       "loss": 0.0023,
+      "step": 119119
     },
     {
       "epoch": 36.0,
+      "eval_loss": 0.028403306379914284,
+      "eval_max_distance": 10,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2435,
+      "eval_samples_per_second": 205.364,
+      "eval_steps_per_second": 8.215,
+      "step": 120024
     },
     {
+      "epoch": 36.03,
+      "learning_rate": 0.00044391121775644874,
+      "loss": 0.0022,
+      "step": 120120
     },
     {
+      "epoch": 36.33,
+      "learning_rate": 0.0004383512186451599,
+      "loss": 0.002,
+      "step": 121121
     },
     {
+      "epoch": 36.63,
+      "learning_rate": 0.00043279121953387103,
+      "loss": 0.0022,
+      "step": 122122
     },
     {
+      "epoch": 36.93,
+      "learning_rate": 0.0004272312204225822,
+      "loss": 0.0022,
+      "step": 123123
     },
     {
       "epoch": 37.0,
+      "eval_loss": 0.03133893013000488,
+      "eval_max_distance": 13,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2436,
+      "eval_samples_per_second": 205.289,
+      "eval_steps_per_second": 8.212,
+      "step": 123358
     },
     {
+      "epoch": 37.23,
+      "learning_rate": 0.00042167122131129333,
+      "loss": 0.0019,
+      "step": 124124
     },
     {
+      "epoch": 37.53,
+      "learning_rate": 0.0004161112222000045,
       "loss": 0.0019,
+      "step": 125125
     },
     {
+      "epoch": 37.83,
+      "learning_rate": 0.0004105512230887156,
+      "loss": 0.002,
+      "step": 126126
     },
     {
       "epoch": 38.0,
+      "eval_loss": 0.034086938947439194,
+      "eval_max_distance": 13,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.242,
+      "eval_samples_per_second": 206.579,
+      "eval_steps_per_second": 8.263,
+      "step": 126692
     },
     {
+      "epoch": 38.13,
+      "learning_rate": 0.0004049912239774268,
+      "loss": 0.002,
+      "step": 127127
     },
     {
+      "epoch": 38.43,
+      "learning_rate": 0.00039943122486613787,
       "loss": 0.0018,
+      "step": 128128
     },
     {
+      "epoch": 38.73,
+      "learning_rate": 0.000393871225754849,
       "loss": 0.0017,
+      "step": 129129
     },
     {
       "epoch": 39.0,
+      "eval_loss": 0.03005034476518631,
+      "eval_max_distance": 13,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2407,
+      "eval_samples_per_second": 207.711,
+      "eval_steps_per_second": 8.308,
+      "step": 130026
     },
     {
+      "epoch": 39.03,
+      "learning_rate": 0.00038831122664356016,
+      "loss": 0.0018,
+      "step": 130130
     },
     {
+      "epoch": 39.33,
+      "learning_rate": 0.0003827512275322713,
       "loss": 0.0016,
+      "step": 131131
     },
     {
+      "epoch": 39.63,
+      "learning_rate": 0.00037719122842098246,
       "loss": 0.0017,
+      "step": 132132
     },
     {
+      "epoch": 39.93,
+      "learning_rate": 0.0003716312293096936,
       "loss": 0.0017,
+      "step": 133133
     },
     {
       "epoch": 40.0,
+      "eval_loss": 0.03297489508986473,
+      "eval_max_distance": 11,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2478,
+      "eval_samples_per_second": 201.796,
+      "eval_steps_per_second": 8.072,
+      "step": 133360
     },
     {
+      "epoch": 40.23,
+      "learning_rate": 0.00036607123019840476,
       "loss": 0.0015,
+      "step": 134134
     },
     {
+      "epoch": 40.53,
+      "learning_rate": 0.0003605112310871159,
+      "loss": 0.0015,
+      "step": 135135
     },
     {
+      "epoch": 40.83,
+      "learning_rate": 0.00035495123197582705,
       "loss": 0.0016,
+      "step": 136136
     },
     {
       "epoch": 41.0,
+      "eval_loss": 0.03444751352071762,
+      "eval_max_distance": 11,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2543,
+      "eval_samples_per_second": 196.583,
+      "eval_steps_per_second": 7.863,
+      "step": 136694
     },
     {
+      "epoch": 41.13,
+      "learning_rate": 0.0003493912328645382,
       "loss": 0.0015,
+      "step": 137137
     },
     {
       "epoch": 41.43,
+      "learning_rate": 0.00034383123375324935,
       "loss": 0.0014,
+      "step": 138138
     },
     {
       "epoch": 41.73,
+      "learning_rate": 0.0003382712346419605,
+      "loss": 0.0014,
+      "step": 139139
     },
     {
       "epoch": 42.0,
+      "eval_loss": 0.033661480993032455,
+      "eval_max_distance": 10,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.251,
+      "eval_samples_per_second": 199.199,
+      "eval_steps_per_second": 7.968,
+      "step": 140028
     },
     {
       "epoch": 42.03,
+      "learning_rate": 0.0003327112355306717,
+      "loss": 0.0015,
+      "step": 140140
     },
     {
       "epoch": 42.33,
+      "learning_rate": 0.0003271512364193828,
+      "loss": 0.0014,
+      "step": 141141
     },
     {
       "epoch": 42.63,
+      "learning_rate": 0.00032159123730809394,
+      "loss": 0.0014,
+      "step": 142142
     },
     {
       "epoch": 42.93,
+      "learning_rate": 0.0003160312381968051,
+      "loss": 0.0013,
+      "step": 143143
     },
     {
       "epoch": 43.0,
+      "eval_loss": 0.029230637475848198,
+      "eval_max_distance": 12,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2458,
+      "eval_samples_per_second": 203.394,
+      "eval_steps_per_second": 8.136,
+      "step": 143362
     },
     {
       "epoch": 43.23,
+      "learning_rate": 0.00031047123908551624,
+      "loss": 0.0012,
+      "step": 144144
     },
     {
       "epoch": 43.53,
+      "learning_rate": 0.0003049112399742274,
+      "loss": 0.0012,
+      "step": 145145
     },
     {
+      "epoch": 43.84,
+      "learning_rate": 0.00029935124086293854,
+      "loss": 0.0012,
+      "step": 146146
     },
     {
       "epoch": 44.0,
+      "eval_loss": 0.03386835753917694,
+      "eval_max_distance": 11,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.248,
+      "eval_samples_per_second": 201.602,
+      "eval_steps_per_second": 8.064,
+      "step": 146696
     },
     {
+      "epoch": 44.14,
+      "learning_rate": 0.0002937912417516497,
       "loss": 0.0012,
+      "step": 147147
     },
     {
+      "epoch": 44.44,
+      "learning_rate": 0.00028823124264036083,
       "loss": 0.0011,
+      "step": 148148
     },
     {
+      "epoch": 44.74,
+      "learning_rate": 0.000282671243529072,
+      "loss": 0.0012,
+      "step": 149149
     },
     {
       "epoch": 45.0,
+      "eval_loss": 0.03299795091152191,
+      "eval_max_distance": 11,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2516,
+      "eval_samples_per_second": 198.692,
+      "eval_steps_per_second": 7.948,
+      "step": 150030
     },
     {
+      "epoch": 45.04,
+      "learning_rate": 0.00027711124441778313,
+      "loss": 0.0012,
+      "step": 150150
     },
     {
+      "epoch": 45.34,
+      "learning_rate": 0.0002715512453064943,
       "loss": 0.001,
+      "step": 151151
     },
     {
+      "epoch": 45.64,
+      "learning_rate": 0.0002659912461952054,
       "loss": 0.0011,
+      "step": 152152
+    },
+    {
+      "epoch": 45.94,
+      "learning_rate": 0.0002604312470839166,
+      "loss": 0.001,
+      "step": 153153
     },
     {
       "epoch": 46.0,
+      "eval_loss": 0.030699940398335457,
+      "eval_max_distance": 11,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2486,
+      "eval_samples_per_second": 201.091,
+      "eval_steps_per_second": 8.044,
+      "step": 153364
     },
     {
+      "epoch": 46.24,
+      "learning_rate": 0.0002548712479726277,
       "loss": 0.001,
+      "step": 154154
     },
     {
+      "epoch": 46.54,
+      "learning_rate": 0.00024931124886133887,
+      "loss": 0.0009,
+      "step": 155155
     },
     {
+      "epoch": 46.84,
+      "learning_rate": 0.00024375124975005,
       "loss": 0.001,
+      "step": 156156
     },
     {
       "epoch": 47.0,
+      "eval_loss": 0.032952647656202316,
+      "eval_max_distance": 10,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2471,
+      "eval_samples_per_second": 202.373,
+      "eval_steps_per_second": 8.095,
+      "step": 156698
     },
     {
+      "epoch": 47.14,
+      "learning_rate": 0.00023819125063876117,
+      "loss": 0.0013,
+      "step": 157157
     },
     {
+      "epoch": 47.44,
+      "learning_rate": 0.0002326312515274723,
       "loss": 0.0009,
+      "step": 158158
     },
     {
+      "epoch": 47.74,
+      "learning_rate": 0.00022707125241618344,
       "loss": 0.0009,
+      "step": 159159
     },
     {
       "epoch": 48.0,
+      "eval_loss": 0.03382818400859833,
+      "eval_max_distance": 11,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2551,
+      "eval_samples_per_second": 195.998,
+      "eval_steps_per_second": 7.84,
+      "step": 160032
     },
     {
+      "epoch": 48.04,
+      "learning_rate": 0.00022151125330489458,
       "loss": 0.0009,
+      "step": 160160
     },
     {
+      "epoch": 48.34,
+      "learning_rate": 0.00021595125419360573,
       "loss": 0.0008,
+      "step": 161161
     },
     {
+      "epoch": 48.64,
+      "learning_rate": 0.00021039125508231688,
+      "loss": 0.0009,
+      "step": 162162
     },
     {
+      "epoch": 48.94,
+      "learning_rate": 0.00020483125597102803,
+      "loss": 0.0009,
+      "step": 163163
     },
     {
       "epoch": 49.0,
+      "eval_loss": 0.02877364680171013,
+      "eval_max_distance": 10,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2518,
+      "eval_samples_per_second": 198.574,
+      "eval_steps_per_second": 7.943,
+      "step": 163366
     },
     {
+      "epoch": 49.24,
+      "learning_rate": 0.00019927125685973918,
       "loss": 0.0008,
+      "step": 164164
     },
     {
+      "epoch": 49.54,
+      "learning_rate": 0.0001937112577484503,
       "loss": 0.0008,
+      "step": 165165
     },
     {
+      "epoch": 49.84,
+      "learning_rate": 0.00018815125863716145,
       "loss": 0.0008,
+      "step": 166166
     },
     {
       "epoch": 50.0,
+      "eval_loss": 0.02558927983045578,
+      "eval_max_distance": 10,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2461,
+      "eval_samples_per_second": 203.155,
+      "eval_steps_per_second": 8.126,
+      "step": 166700
     },
     {
+      "epoch": 50.14,
+      "learning_rate": 0.0001825912595258726,
+      "loss": 0.0007,
+      "step": 167167
     },
     {
+      "epoch": 50.44,
+      "learning_rate": 0.00017703126041458374,
       "loss": 0.0007,
+      "step": 168168
     },
     {
+      "epoch": 50.74,
+      "learning_rate": 0.00017147126130329492,
+      "loss": 0.0007,
+      "step": 169169
     },
     {
       "epoch": 51.0,
+      "eval_loss": 0.02841602824628353,
+      "eval_max_distance": 11,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2394,
+      "eval_samples_per_second": 208.815,
+      "eval_steps_per_second": 8.353,
+      "step": 170034
     },
     {
+      "epoch": 51.04,
+      "learning_rate": 0.00016591126219200607,
       "loss": 0.0007,
+      "step": 170170
     },
     {
+      "epoch": 51.34,
+      "learning_rate": 0.0001603512630807172,
       "loss": 0.0007,
+      "step": 171171
     },
     {
+      "epoch": 51.64,
+      "learning_rate": 0.00015479126396942834,
+      "loss": 0.0006,
+      "step": 172172
     },
     {
+      "epoch": 51.94,
+      "learning_rate": 0.00014923126485813948,
+      "loss": 0.0006,
+      "step": 173173
     },
     {
       "epoch": 52.0,
+      "eval_loss": 0.03416401892900467,
+      "eval_max_distance": 10,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2536,
+      "eval_samples_per_second": 197.147,
+      "eval_steps_per_second": 7.886,
+      "step": 173368
     },
     {
+      "epoch": 52.24,
+      "learning_rate": 0.00014367126574685063,
       "loss": 0.0006,
+      "step": 174174
     },
     {
+      "epoch": 52.54,
+      "learning_rate": 0.00013811126663556178,
       "loss": 0.0006,
+      "step": 175175
     },
     {
+      "epoch": 52.84,
+      "learning_rate": 0.00013255126752427293,
       "loss": 0.0006,
+      "step": 176176
     },
     {
       "epoch": 53.0,
+      "eval_loss": 0.031156664714217186,
+      "eval_max_distance": 10,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.2541,
+      "eval_samples_per_second": 196.804,
+      "eval_steps_per_second": 7.872,
+      "step": 176702
     },
     {
+      "epoch": 53.14,
+      "learning_rate": 0.00012699126841298408,
       "loss": 0.0006,
+      "step": 177177
     },
     {
+      "epoch": 53.44,
+      "learning_rate": 0.00012143126930169523,
+      "loss": 0.0005,
+      "step": 178178
     },
     {
+      "epoch": 53.74,
+      "learning_rate": 0.00011587127019040637,
       "loss": 0.0005,
+      "step": 179179
     },
     {
       "epoch": 54.0,
+      "eval_loss": 0.03255148231983185,
+      "eval_max_distance": 10,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2469,
+      "eval_samples_per_second": 202.55,
+      "eval_steps_per_second": 8.102,
+      "step": 180036
     },
     {
+      "epoch": 54.04,
+      "learning_rate": 0.00011031127107911751,
       "loss": 0.0005,
+      "step": 180180
     },
     {
+      "epoch": 54.34,
+      "learning_rate": 0.00010475127196782866,
+      "loss": 0.0006,
+      "step": 181181
     },
     {
+      "epoch": 54.64,
+      "learning_rate": 9.91912728565398e-05,
       "loss": 0.0005,
+      "step": 182182
     },
     {
+      "epoch": 54.94,
+      "learning_rate": 9.363127374525095e-05,
+      "loss": 0.0005,
+      "step": 183183
     },
     {
       "epoch": 55.0,
+      "eval_loss": 0.030407395213842392,
+      "eval_max_distance": 11,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2417,
+      "eval_samples_per_second": 206.906,
+      "eval_steps_per_second": 8.276,
+      "step": 183370
     },
     {
+      "epoch": 55.24,
+      "learning_rate": 8.80712746339621e-05,
       "loss": 0.0005,
+      "step": 184184
     },
     {
+      "epoch": 55.54,
+      "learning_rate": 8.251127552267325e-05,
       "loss": 0.0004,
+      "step": 185185
     },
     {
+      "epoch": 55.84,
+      "learning_rate": 7.695127641138438e-05,
       "loss": 0.0005,
+      "step": 186186
     },
     {
       "epoch": 56.0,
+      "eval_loss": 0.02997196838259697,
+      "eval_max_distance": 11,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2484,
+      "eval_samples_per_second": 201.291,
+      "eval_steps_per_second": 8.052,
+      "step": 186704
     },
     {
+      "epoch": 56.14,
+      "learning_rate": 7.139127730009553e-05,
       "loss": 0.0004,
+      "step": 187187
     },
     {
+      "epoch": 56.45,
+      "learning_rate": 6.583127818880668e-05,
       "loss": 0.0004,
+      "step": 188188
     },
     {
+      "epoch": 56.75,
+      "learning_rate": 6.027127907751783e-05,
       "loss": 0.0004,
+      "step": 189189
     },
     {
       "epoch": 57.0,
+      "eval_loss": 0.03127776086330414,
+      "eval_max_distance": 11,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2542,
+      "eval_samples_per_second": 196.708,
+      "eval_steps_per_second": 7.868,
+      "step": 190038
     },
     {
+      "epoch": 57.05,
+      "learning_rate": 5.471127996622898e-05,
       "loss": 0.0004,
+      "step": 190190
     },
     {
+      "epoch": 57.35,
+      "learning_rate": 4.9151280854940125e-05,
       "loss": 0.0004,
+      "step": 191191
     },
     {
+      "epoch": 57.65,
+      "learning_rate": 4.359128174365127e-05,
       "loss": 0.0004,
+      "step": 192192
     },
     {
+      "epoch": 57.95,
+      "learning_rate": 3.803128263236242e-05,
       "loss": 0.0003,
+      "step": 193193
     },
     {
       "epoch": 58.0,
+      "eval_loss": 0.03212800994515419,
+      "eval_max_distance": 11,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.236,
+      "eval_samples_per_second": 211.858,
+      "eval_steps_per_second": 8.474,
+      "step": 193372
     },
     {
+      "epoch": 58.25,
+      "learning_rate": 3.247128352107356e-05,
+      "loss": 0.0003,
+      "step": 194194
     },
     {
+      "epoch": 58.55,
+      "learning_rate": 2.691128440978471e-05,
       "loss": 0.0004,
+      "step": 195195
     },
     {
+      "epoch": 58.85,
+      "learning_rate": 2.135128529849586e-05,
       "loss": 0.0003,
+      "step": 196196
     },
     {
       "epoch": 59.0,
+      "eval_loss": 0.031559597700834274,
+      "eval_max_distance": 10,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2475,
+      "eval_samples_per_second": 201.99,
+      "eval_steps_per_second": 8.08,
+      "step": 196706
     },
     {
+      "epoch": 59.15,
+      "learning_rate": 1.5791286187207e-05,
+      "loss": 0.0003,
+      "step": 197197
     },
     {
+      "epoch": 59.45,
+      "learning_rate": 1.023128707591815e-05,
+      "loss": 0.0003,
+      "step": 198198
     },
     {
+      "epoch": 59.75,
+      "learning_rate": 4.671287964629296e-06,
       "loss": 0.0004,
+      "step": 199199
     },
     {
       "epoch": 60.0,
+      "eval_loss": 0.03177854046225548,
+      "eval_max_distance": 11,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.2438,
+      "eval_samples_per_second": 205.126,
+      "eval_steps_per_second": 8.205,
+      "step": 200040
     },
     {
       "epoch": 60.0,
+      "step": 200040,
+      "total_flos": 1.1617191885791232e+17,
+      "train_loss": 0.03170474885008116,
+      "train_runtime": 15592.8332,
+      "train_samples_per_second": 384.846,
+      "train_steps_per_second": 12.829
     }
   ],
+  "logging_steps": 1001,
+  "max_steps": 200040,
   "num_train_epochs": 60,
+  "save_steps": 2001,
+  "total_flos": 1.1617191885791232e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:970254644cb218db4599e9310f1083ff5880c007630cc4c6dbec952da37dd2a9
 size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:100e47428886cfceeb4983e829afe7caff9578529dd77c77ba43967c2229d9ca
 size 4091