{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.0,
  "eval_steps": 500,
  "global_step": 1682,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0011890606420927466,
      "grad_norm": 128.86566162109375,
      "learning_rate": 4.9970273483947685e-05,
      "loss": 9.559,
      "step": 1
    },
    {
      "epoch": 0.034482758620689655,
      "grad_norm": 23.844635009765625,
      "learning_rate": 4.913793103448276e-05,
      "loss": 2.0043,
      "step": 29
    },
    {
      "epoch": 0.06896551724137931,
      "grad_norm": 43.76908493041992,
      "learning_rate": 4.827586206896552e-05,
      "loss": 1.6394,
      "step": 58
    },
    {
      "epoch": 0.10344827586206896,
      "grad_norm": 112.72496032714844,
      "learning_rate": 4.741379310344828e-05,
      "loss": 1.1869,
      "step": 87
    },
    {
      "epoch": 0.13793103448275862,
      "grad_norm": 57.330135345458984,
      "learning_rate": 4.655172413793104e-05,
      "loss": 1.4015,
      "step": 116
    },
    {
      "epoch": 0.1724137931034483,
      "grad_norm": 12.192914962768555,
      "learning_rate": 4.5689655172413794e-05,
      "loss": 1.1619,
      "step": 145
    },
    {
      "epoch": 0.20689655172413793,
      "grad_norm": 49.972900390625,
      "learning_rate": 4.482758620689655e-05,
      "loss": 1.4928,
      "step": 174
    },
    {
      "epoch": 0.2413793103448276,
      "grad_norm": 28.061901092529297,
      "learning_rate": 4.396551724137931e-05,
      "loss": 1.1286,
      "step": 203
    },
    {
      "epoch": 0.27586206896551724,
      "grad_norm": 13.678406715393066,
      "learning_rate": 4.3103448275862066e-05,
      "loss": 0.9936,
      "step": 232
    },
    {
      "epoch": 0.3103448275862069,
      "grad_norm": 56.66800308227539,
      "learning_rate": 4.224137931034483e-05,
      "loss": 1.1352,
      "step": 261
    },
    {
      "epoch": 0.3448275862068966,
      "grad_norm": 18.401317596435547,
      "learning_rate": 4.1379310344827587e-05,
      "loss": 1.0754,
      "step": 290
    },
    {
      "epoch": 0.3793103448275862,
      "grad_norm": 28.412200927734375,
      "learning_rate": 4.0517241379310344e-05,
      "loss": 1.0104,
      "step": 319
    },
    {
      "epoch": 0.41379310344827586,
      "grad_norm": 62.137596130371094,
      "learning_rate": 3.965517241379311e-05,
      "loss": 0.9393,
      "step": 348
    },
    {
      "epoch": 0.4482758620689655,
      "grad_norm": 44.91804504394531,
      "learning_rate": 3.8793103448275865e-05,
      "loss": 0.727,
      "step": 377
    },
    {
      "epoch": 0.4827586206896552,
      "grad_norm": 15.308109283447266,
      "learning_rate": 3.793103448275862e-05,
      "loss": 0.8675,
      "step": 406
    },
    {
      "epoch": 0.5172413793103449,
      "grad_norm": 11.947402000427246,
      "learning_rate": 3.7068965517241385e-05,
      "loss": 0.7525,
      "step": 435
    },
    {
      "epoch": 0.5517241379310345,
      "grad_norm": 22.51788902282715,
      "learning_rate": 3.620689655172414e-05,
      "loss": 0.7872,
      "step": 464
    },
    {
      "epoch": 0.5862068965517241,
      "grad_norm": 39.137386322021484,
      "learning_rate": 3.53448275862069e-05,
      "loss": 0.7889,
      "step": 493
    },
    {
      "epoch": 0.6206896551724138,
      "grad_norm": 38.08049774169922,
      "learning_rate": 3.4482758620689657e-05,
      "loss": 0.7347,
      "step": 522
    },
    {
      "epoch": 0.6551724137931034,
      "grad_norm": 10.072871208190918,
      "learning_rate": 3.3620689655172414e-05,
      "loss": 0.7422,
      "step": 551
    },
    {
      "epoch": 0.6896551724137931,
      "grad_norm": 24.6478328704834,
      "learning_rate": 3.275862068965517e-05,
      "loss": 0.7217,
      "step": 580
    },
    {
      "epoch": 0.7241379310344828,
      "grad_norm": 8.815550804138184,
      "learning_rate": 3.1896551724137935e-05,
      "loss": 0.767,
      "step": 609
    },
    {
      "epoch": 0.7586206896551724,
      "grad_norm": 7.418780326843262,
      "learning_rate": 3.103448275862069e-05,
      "loss": 0.7365,
      "step": 638
    },
    {
      "epoch": 0.7931034482758621,
      "grad_norm": 16.163270950317383,
      "learning_rate": 3.017241379310345e-05,
      "loss": 0.6203,
      "step": 667
    },
    {
      "epoch": 0.8275862068965517,
      "grad_norm": 47.155818939208984,
      "learning_rate": 2.9310344827586206e-05,
      "loss": 0.7505,
      "step": 696
    },
    {
      "epoch": 0.8620689655172413,
      "grad_norm": 17.693836212158203,
      "learning_rate": 2.844827586206897e-05,
      "loss": 0.6014,
      "step": 725
    },
    {
      "epoch": 0.896551724137931,
      "grad_norm": 15.081289291381836,
      "learning_rate": 2.7586206896551727e-05,
      "loss": 0.5907,
      "step": 754
    },
    {
      "epoch": 0.9310344827586207,
      "grad_norm": 235.15663146972656,
      "learning_rate": 2.672413793103448e-05,
      "loss": 0.5196,
      "step": 783
    },
    {
      "epoch": 0.9655172413793104,
      "grad_norm": 13.673110961914062,
      "learning_rate": 2.5862068965517244e-05,
      "loss": 0.5441,
      "step": 812
    },
    {
      "epoch": 1.0,
      "grad_norm": 22.076805114746094,
      "learning_rate": 2.5e-05,
      "loss": 0.5455,
      "step": 841
    },
    {
      "epoch": 1.0,
      "eval_cer": 0.020121099208197483,
      "eval_loss": 0.46177592873573303,
      "eval_runtime": 644.2587,
      "eval_samples_per_second": 2.611,
      "eval_steps_per_second": 0.328,
      "step": 841
    },
    {
      "epoch": 1.0344827586206897,
      "grad_norm": 6.016767501831055,
      "learning_rate": 2.413793103448276e-05,
      "loss": 0.416,
      "step": 870
    },
    {
      "epoch": 1.0689655172413792,
      "grad_norm": 5.592987060546875,
      "learning_rate": 2.327586206896552e-05,
      "loss": 0.4161,
      "step": 899
    },
    {
      "epoch": 1.103448275862069,
      "grad_norm": 4.175529479980469,
      "learning_rate": 2.2413793103448276e-05,
      "loss": 0.4516,
      "step": 928
    },
    {
      "epoch": 1.1379310344827587,
      "grad_norm": 7.126400470733643,
      "learning_rate": 2.1551724137931033e-05,
      "loss": 0.4583,
      "step": 957
    },
    {
      "epoch": 1.1724137931034484,
      "grad_norm": 5.696765899658203,
      "learning_rate": 2.0689655172413793e-05,
      "loss": 0.3918,
      "step": 986
    },
    {
      "epoch": 1.206896551724138,
      "grad_norm": 11.261072158813477,
      "learning_rate": 1.9827586206896554e-05,
      "loss": 0.4423,
      "step": 1015
    },
    {
      "epoch": 1.2413793103448276,
      "grad_norm": 3.23542857170105,
      "learning_rate": 1.896551724137931e-05,
      "loss": 0.3769,
      "step": 1044
    },
    {
      "epoch": 1.2758620689655173,
      "grad_norm": 4.922264099121094,
      "learning_rate": 1.810344827586207e-05,
      "loss": 0.4311,
      "step": 1073
    },
    {
      "epoch": 1.3103448275862069,
      "grad_norm": 3.692586898803711,
      "learning_rate": 1.7241379310344828e-05,
      "loss": 0.3667,
      "step": 1102
    },
    {
      "epoch": 1.3448275862068966,
      "grad_norm": 2.88181471824646,
      "learning_rate": 1.6379310344827585e-05,
      "loss": 0.3167,
      "step": 1131
    },
    {
      "epoch": 1.3793103448275863,
      "grad_norm": 3.277984142303467,
      "learning_rate": 1.5517241379310346e-05,
      "loss": 0.3331,
      "step": 1160
    },
    {
      "epoch": 1.4137931034482758,
      "grad_norm": 7.566446304321289,
      "learning_rate": 1.4655172413793103e-05,
      "loss": 0.3046,
      "step": 1189
    },
    {
      "epoch": 1.4482758620689655,
      "grad_norm": 17.953258514404297,
      "learning_rate": 1.3793103448275863e-05,
      "loss": 0.3332,
      "step": 1218
    },
    {
      "epoch": 1.4827586206896552,
      "grad_norm": 11.560026168823242,
      "learning_rate": 1.2931034482758622e-05,
      "loss": 0.3299,
      "step": 1247
    },
    {
      "epoch": 1.5172413793103448,
      "grad_norm": 5.917276859283447,
      "learning_rate": 1.206896551724138e-05,
      "loss": 0.2961,
      "step": 1276
    },
    {
      "epoch": 1.5517241379310345,
      "grad_norm": 3.665133476257324,
      "learning_rate": 1.1206896551724138e-05,
      "loss": 0.3142,
      "step": 1305
    },
    {
      "epoch": 1.5862068965517242,
      "grad_norm": 2.3258779048919678,
      "learning_rate": 1.0344827586206897e-05,
      "loss": 0.3005,
      "step": 1334
    },
    {
      "epoch": 1.6206896551724137,
      "grad_norm": 2.856088638305664,
      "learning_rate": 9.482758620689655e-06,
      "loss": 0.2652,
      "step": 1363
    },
    {
      "epoch": 1.6551724137931034,
      "grad_norm": 8.568778991699219,
      "learning_rate": 8.620689655172414e-06,
      "loss": 0.2652,
      "step": 1392
    },
    {
      "epoch": 1.6896551724137931,
      "grad_norm": 4.4803667068481445,
      "learning_rate": 7.758620689655173e-06,
      "loss": 0.2541,
      "step": 1421
    },
    {
      "epoch": 1.7241379310344827,
      "grad_norm": 13.121492385864258,
      "learning_rate": 6.896551724137932e-06,
      "loss": 0.2754,
      "step": 1450
    },
    {
      "epoch": 1.7586206896551724,
      "grad_norm": 2.48468279838562,
      "learning_rate": 6.03448275862069e-06,
      "loss": 0.2379,
      "step": 1479
    },
    {
      "epoch": 1.793103448275862,
      "grad_norm": 1.497287631034851,
      "learning_rate": 5.172413793103448e-06,
      "loss": 0.2273,
      "step": 1508
    },
    {
      "epoch": 1.8275862068965516,
      "grad_norm": 2.972078800201416,
      "learning_rate": 4.310344827586207e-06,
      "loss": 0.2254,
      "step": 1537
    },
    {
      "epoch": 1.8620689655172413,
      "grad_norm": 12.911340713500977,
      "learning_rate": 3.448275862068966e-06,
      "loss": 0.2448,
      "step": 1566
    },
    {
      "epoch": 1.896551724137931,
      "grad_norm": 1.3689017295837402,
      "learning_rate": 2.586206896551724e-06,
      "loss": 0.2089,
      "step": 1595
    },
    {
      "epoch": 1.9310344827586206,
      "grad_norm": 4.04969596862793,
      "learning_rate": 1.724137931034483e-06,
      "loss": 0.2174,
      "step": 1624
    },
    {
      "epoch": 1.9655172413793105,
      "grad_norm": 2.9180474281311035,
      "learning_rate": 8.620689655172415e-07,
      "loss": 0.2381,
      "step": 1653
    },
    {
      "epoch": 2.0,
      "grad_norm": 4.1190409660339355,
      "learning_rate": 0.0,
      "loss": 0.2068,
      "step": 1682
    },
    {
      "epoch": 2.0,
      "eval_cer": 0.0032914143766495886,
      "eval_loss": 0.23910197615623474,
      "eval_runtime": 636.093,
      "eval_samples_per_second": 2.644,
      "eval_steps_per_second": 0.332,
      "step": 1682
    },
    {
      "epoch": 2.0,
      "step": 1682,
      "total_flos": 1.9906356553640313e+19,
      "train_loss": 0.6271170827069549,
      "train_runtime": 2733.4434,
      "train_samples_per_second": 4.92,
      "train_steps_per_second": 0.615
    }
  ],
  "logging_steps": 29,
  "max_steps": 1682,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.9906356553640313e+19,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}