{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.2826268197268005,
  "eval_steps": 250,
  "global_step": 5000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0002565253639453601,
      "grad_norm": 175.5614776611328,
      "learning_rate": 5e-06,
      "loss": 10.4885,
      "num_input_tokens_seen": 125588,
      "step": 1
    },
    {
      "epoch": 0.0002565253639453601,
      "loss": 10.224580764770508,
      "loss_ce": 6.224580764770508,
      "loss_iou": 1.15625,
      "loss_num": 0.337890625,
      "loss_xval": 4.0,
      "num_input_tokens_seen": 125588,
      "step": 1
    },
    {
      "epoch": 0.0005130507278907202,
      "grad_norm": 172.5997772216797,
      "learning_rate": 5e-06,
      "loss": 10.2395,
      "num_input_tokens_seen": 251900,
      "step": 2
    },
    {
      "epoch": 0.0005130507278907202,
      "loss": 10.229927062988281,
      "loss_ce": 6.075629234313965,
      "loss_iou": 1.203125,
      "loss_num": 0.349609375,
      "loss_xval": 4.15625,
      "num_input_tokens_seen": 251900,
      "step": 2
    },
    {
      "epoch": 0.0007695760918360803,
      "grad_norm": 175.2003936767578,
      "learning_rate": 5e-06,
      "loss": 10.4067,
      "num_input_tokens_seen": 377912,
      "step": 3
    },
    {
      "epoch": 0.0007695760918360803,
      "loss": 10.339284896850586,
      "loss_ce": 6.198660373687744,
      "loss_iou": 1.203125,
      "loss_num": 0.34765625,
      "loss_xval": 4.125,
      "num_input_tokens_seen": 377912,
      "step": 3
    },
    {
      "epoch": 0.0010261014557814403,
      "grad_norm": 173.7275848388672,
      "learning_rate": 5e-06,
      "loss": 10.1685,
      "num_input_tokens_seen": 504228,
      "step": 4
    },
    {
      "epoch": 0.0010261014557814403,
      "loss": 10.215723037719727,
      "loss_ce": 6.137598514556885,
      "loss_iou": 1.1875,
      "loss_num": 0.33984375,
      "loss_xval": 4.0625,
      "num_input_tokens_seen": 504228,
      "step": 4
    },
    {
      "epoch": 0.0012826268197268006,
      "grad_norm": 176.56124877929688,
      "learning_rate": 5e-06,
      "loss": 10.1392,
      "num_input_tokens_seen": 630944,
      "step": 5
    },
    {
      "epoch": 0.0012826268197268006,
      "eval_icons_CIoU": -0.17809736728668213,
      "eval_icons_GIoU": -0.11384276673197746,
      "eval_icons_IoU": 0.0024869858752936125,
      "eval_icons_MAE_all": 0.3313166946172714,
      "eval_icons_MAE_h": 0.2745002806186676,
      "eval_icons_MAE_w": 0.3184145539999008,
      "eval_icons_MAE_x_boxes": 0.22741428017616272,
      "eval_icons_MAE_y_boxes": 0.244306780397892,
      "eval_icons_NUM_probability": 4.184053250355646e-05,
      "eval_icons_inside_bbox": 0.0,
      "eval_icons_loss": 12.817168235778809,
      "eval_icons_loss_ce": 8.93913221359253,
      "eval_icons_loss_iou": 1.12841796875,
      "eval_icons_loss_num": 0.33642578125,
      "eval_icons_loss_xval": 3.943359375,
      "eval_icons_runtime": 40.2915,
      "eval_icons_samples_per_second": 1.241,
      "eval_icons_steps_per_second": 0.05,
      "num_input_tokens_seen": 630944,
      "step": 5
    },
    {
      "epoch": 0.0012826268197268006,
      "eval_screenspot_CIoU": -0.20609864592552185,
      "eval_screenspot_GIoU": -0.2205975204706192,
      "eval_screenspot_IoU": 0.01432670404513677,
      "eval_screenspot_MAE_all": 0.3268027603626251,
      "eval_screenspot_MAE_h": 0.3270023465156555,
      "eval_screenspot_MAE_w": 0.25847244759400684,
      "eval_screenspot_MAE_x_boxes": 0.34576526284217834,
      "eval_screenspot_MAE_y_boxes": 0.2279253453016281,
      "eval_screenspot_NUM_probability": 2.5402678147656843e-05,
      "eval_screenspot_inside_bbox": 0.020833333333333332,
      "eval_screenspot_loss": 13.033950805664062,
      "eval_screenspot_loss_ce": 8.956350644429525,
      "eval_screenspot_loss_iou": 1.2249348958333333,
      "eval_screenspot_loss_num": 0.3285319010416667,
      "eval_screenspot_loss_xval": 4.09375,
      "eval_screenspot_runtime": 74.2469,
      "eval_screenspot_samples_per_second": 1.199,
      "eval_screenspot_steps_per_second": 0.04,
      "num_input_tokens_seen": 630944,
      "step": 5
    },
    {
      "epoch": 0.0012826268197268006,
      "loss": 13.121145248413086,
      "loss_ce": 8.898488998413086,
      "loss_iou": 1.265625,
      "loss_num": 0.33984375,
      "loss_xval": 4.21875,
      "num_input_tokens_seen": 630944,
      "step": 5
    },
    {
      "epoch": 0.0015391521836721606,
      "grad_norm": 176.07150268554688,
      "learning_rate": 5e-06,
      "loss": 10.2281,
      "num_input_tokens_seen": 755984,
      "step": 6
    },
    {
      "epoch": 0.0015391521836721606,
      "loss": 10.349876403808594,
      "loss_ce": 6.2346415519714355,
      "loss_iou": 1.2109375,
      "loss_num": 0.337890625,
      "loss_xval": 4.125,
      "num_input_tokens_seen": 755984,
      "step": 6
    },
    {
      "epoch": 0.0017956775476175206,
      "grad_norm": 178.9892120361328,
      "learning_rate": 5e-06,
      "loss": 10.3456,
      "num_input_tokens_seen": 880952,
      "step": 7
    },
    {
      "epoch": 0.0017956775476175206,
      "loss": 10.55301284790039,
      "loss_ce": 6.431919574737549,
      "loss_iou": 1.2265625,
      "loss_num": 0.33203125,
      "loss_xval": 4.125,
      "num_input_tokens_seen": 880952,
      "step": 7
    },
    {
      "epoch": 0.0020522029115628807,
      "grad_norm": 175.2893829345703,
      "learning_rate": 5e-06,
      "loss": 10.2219,
      "num_input_tokens_seen": 1005892,
      "step": 8
    },
    {
      "epoch": 0.0020522029115628807,
      "loss": 9.759332656860352,
      "loss_ce": 5.85698938369751,
      "loss_iou": 1.1875,
      "loss_num": 0.306640625,
      "loss_xval": 3.90625,
      "num_input_tokens_seen": 1005892,
      "step": 8
    },
    {
      "epoch": 0.0023087282755082407,
      "grad_norm": 172.658203125,
      "learning_rate": 5e-06,
      "loss": 10.114,
      "num_input_tokens_seen": 1131996,
      "step": 9
    },
    {
      "epoch": 0.0023087282755082407,
      "loss": 10.199831008911133,
      "loss_ce": 6.137331008911133,
      "loss_iou": 1.2265625,
      "loss_num": 0.322265625,
      "loss_xval": 4.0625,
      "num_input_tokens_seen": 1131996,
      "step": 9
    },
    {
      "epoch": 0.002565253639453601,
      "grad_norm": 178.62509155273438,
      "learning_rate": 5e-06,
      "loss": 10.1674,
      "num_input_tokens_seen": 1259348,
      "step": 10
    },
    {
      "epoch": 0.002565253639453601,
      "loss": 10.38125991821289,
      "loss_ce": 6.471104145050049,
      "loss_iou": 1.234375,
      "loss_num": 0.287109375,
      "loss_xval": 3.90625,
      "num_input_tokens_seen": 1259348,
      "step": 10
    },
    {
      "epoch": 0.002821779003398961,
      "grad_norm": 179.45404052734375,
      "learning_rate": 5e-06,
      "loss": 10.005,
      "num_input_tokens_seen": 1385172,
      "step": 11
    },
    {
      "epoch": 0.002821779003398961,
      "loss": 10.153079986572266,
      "loss_ce": 6.158939361572266,
      "loss_iou": 1.2734375,
      "loss_num": 0.287109375,
      "loss_xval": 4.0,
      "num_input_tokens_seen": 1385172,
      "step": 11
    },
    {
      "epoch": 0.0030783043673443212,
      "grad_norm": 174.1383819580078,
      "learning_rate": 5e-06,
      "loss": 9.9514,
      "num_input_tokens_seen": 1511108,
      "step": 12
    },
    {
      "epoch": 0.0030783043673443212,
      "loss": 9.887187004089355,
      "loss_ce": 5.9789838790893555,
      "loss_iou": 1.2734375,
      "loss_num": 0.2734375,
      "loss_xval": 3.90625,
      "num_input_tokens_seen": 1511108,
      "step": 12
    },
    {
      "epoch": 0.0033348297312896812,
      "grad_norm": 176.49696350097656,
      "learning_rate": 5e-06,
      "loss": 9.7729,
      "num_input_tokens_seen": 1638300,
      "step": 13
    },
    {
      "epoch": 0.0033348297312896812,
      "loss": 9.945709228515625,
      "loss_ce": 5.961334705352783,
      "loss_iou": 1.3046875,
      "loss_num": 0.2734375,
      "loss_xval": 3.984375,
      "num_input_tokens_seen": 1638300,
      "step": 13
    },
    {
      "epoch": 0.0035913550952350413,
      "grad_norm": 177.7743377685547,
      "learning_rate": 5e-06,
      "loss": 9.7995,
      "num_input_tokens_seen": 1764828,
      "step": 14
    },
    {
      "epoch": 0.0035913550952350413,
      "loss": 9.700210571289062,
      "loss_ce": 5.811538219451904,
      "loss_iou": 1.296875,
      "loss_num": 0.259765625,
      "loss_xval": 3.890625,
      "num_input_tokens_seen": 1764828,
      "step": 14
    },
    {
      "epoch": 0.0038478804591804013,
      "grad_norm": 181.67364501953125,
      "learning_rate": 5e-06,
      "loss": 9.9675,
      "num_input_tokens_seen": 1890356,
      "step": 15
    },
    {
      "epoch": 0.0038478804591804013,
      "loss": 10.097586631774902,
      "loss_ce": 6.230399131774902,
      "loss_iou": 1.3125,
      "loss_num": 0.2490234375,
      "loss_xval": 3.875,
      "num_input_tokens_seen": 1890356,
      "step": 15
    },
    {
      "epoch": 0.004104405823125761,
      "grad_norm": 176.5181884765625,
      "learning_rate": 5e-06,
      "loss": 9.8289,
      "num_input_tokens_seen": 2016784,
      "step": 16
    },
    {
      "epoch": 0.004104405823125761,
      "loss": 9.674615859985352,
      "loss_ce": 5.910944938659668,
      "loss_iou": 1.2890625,
      "loss_num": 0.236328125,
      "loss_xval": 3.765625,
      "num_input_tokens_seen": 2016784,
      "step": 16
    },
    {
      "epoch": 0.004360931187071122,
      "grad_norm": 190.3811492919922,
      "learning_rate": 5e-06,
      "loss": 9.7344,
      "num_input_tokens_seen": 2141264,
      "step": 17
    },
    {
      "epoch": 0.004360931187071122,
      "loss": 9.899660110473633,
      "loss_ce": 6.012940406799316,
      "loss_iou": 1.3359375,
      "loss_num": 0.2431640625,
      "loss_xval": 3.890625,
      "num_input_tokens_seen": 2141264,
      "step": 17
    },
    {
      "epoch": 0.004617456551016481,
      "grad_norm": 183.88711547851562,
      "learning_rate": 5e-06,
      "loss": 9.3412,
      "num_input_tokens_seen": 2268080,
      "step": 18
    },
    {
      "epoch": 0.004617456551016481,
      "loss": 9.590524673461914,
      "loss_ce": 5.6706037521362305,
      "loss_iou": 1.3359375,
      "loss_num": 0.25,
      "loss_xval": 3.921875,
      "num_input_tokens_seen": 2268080,
      "step": 18
    },
    {
      "epoch": 0.004873981914961842,
      "grad_norm": 178.27174377441406,
      "learning_rate": 5e-06,
      "loss": 9.177,
      "num_input_tokens_seen": 2393516,
      "step": 19
    },
    {
      "epoch": 0.004873981914961842,
      "loss": 9.073789596557617,
      "loss_ce": 5.386290073394775,
      "loss_iou": 1.2734375,
      "loss_num": 0.228515625,
      "loss_xval": 3.6875,
      "num_input_tokens_seen": 2393516,
      "step": 19
    },
    {
      "epoch": 0.005130507278907202,
      "grad_norm": 183.88156127929688,
      "learning_rate": 5e-06,
      "loss": 9.1972,
      "num_input_tokens_seen": 2519136,
      "step": 20
    },
    {
      "epoch": 0.005130507278907202,
      "loss": 9.260429382324219,
      "loss_ce": 5.572929382324219,
      "loss_iou": 1.265625,
      "loss_num": 0.23046875,
      "loss_xval": 3.6875,
      "num_input_tokens_seen": 2519136,
      "step": 20
    },
    {
      "epoch": 0.005387032642852562,
      "grad_norm": 182.92445373535156,
      "learning_rate": 5e-06,
      "loss": 9.0451,
      "num_input_tokens_seen": 2645144,
      "step": 21
    },
    {
      "epoch": 0.005387032642852562,
      "loss": 8.98104476928711,
      "loss_ce": 5.391201019287109,
      "loss_iou": 1.28125,
      "loss_num": 0.203125,
      "loss_xval": 3.59375,
      "num_input_tokens_seen": 2645144,
      "step": 21
    },
    {
      "epoch": 0.005643558006797922,
      "grad_norm": 187.06190490722656,
      "learning_rate": 5e-06,
      "loss": 9.2214,
      "num_input_tokens_seen": 2770552,
      "step": 22
    },
    {
      "epoch": 0.005643558006797922,
      "loss": 9.242259979248047,
      "loss_ce": 5.599681854248047,
      "loss_iou": 1.3125,
      "loss_num": 0.2041015625,
      "loss_xval": 3.640625,
      "num_input_tokens_seen": 2770552,
      "step": 22
    },
    {
      "epoch": 0.005900083370743282,
      "grad_norm": 185.10504150390625,
      "learning_rate": 5e-06,
      "loss": 8.7691,
      "num_input_tokens_seen": 2896912,
      "step": 23
    },
    {
      "epoch": 0.005900083370743282,
      "loss": 8.755097389221191,
      "loss_ce": 5.061737537384033,
      "loss_iou": 1.296875,
      "loss_num": 0.220703125,
      "loss_xval": 3.6875,
      "num_input_tokens_seen": 2896912,
      "step": 23
    },
    {
      "epoch": 0.0061566087346886424,
      "grad_norm": 163.2713623046875,
      "learning_rate": 5e-06,
      "loss": 7.7787,
      "num_input_tokens_seen": 3023224,
      "step": 24
    },
    {
      "epoch": 0.0061566087346886424,
      "loss": 7.5264129638671875,
      "loss_ce": 3.9795379638671875,
      "loss_iou": 1.21875,
      "loss_num": 0.2216796875,
      "loss_xval": 3.546875,
      "num_input_tokens_seen": 3023224,
      "step": 24
    },
    {
      "epoch": 0.006413134098634002,
      "grad_norm": 157.09910583496094,
      "learning_rate": 5e-06,
      "loss": 7.6111,
      "num_input_tokens_seen": 3150816,
      "step": 25
    },
    {
      "epoch": 0.006413134098634002,
      "loss": 7.760533332824707,
      "loss_ce": 4.010533332824707,
      "loss_iou": 1.28125,
      "loss_num": 0.23828125,
      "loss_xval": 3.75,
      "num_input_tokens_seen": 3150816,
      "step": 25
    },
    {
      "epoch": 0.0066696594625793625,
      "grad_norm": 155.3214569091797,
      "learning_rate": 5e-06,
      "loss": 7.4579,
      "num_input_tokens_seen": 3275972,
      "step": 26
    },
    {
      "epoch": 0.0066696594625793625,
      "loss": 7.657684803009033,
      "loss_ce": 3.776825189590454,
      "loss_iou": 1.3046875,
      "loss_num": 0.255859375,
      "loss_xval": 3.875,
      "num_input_tokens_seen": 3275972,
      "step": 26
    },
    {
      "epoch": 0.006926184826524723,
      "grad_norm": 154.4881591796875,
      "learning_rate": 5e-06,
      "loss": 7.4609,
      "num_input_tokens_seen": 3402664,
      "step": 27
    },
    {
      "epoch": 0.006926184826524723,
      "loss": 7.6258745193481445,
      "loss_ce": 3.8348588943481445,
      "loss_iou": 1.2578125,
      "loss_num": 0.25390625,
      "loss_xval": 3.796875,
      "num_input_tokens_seen": 3402664,
      "step": 27
    },
    {
      "epoch": 0.0071827101904700826,
      "grad_norm": 153.49871826171875,
      "learning_rate": 5e-06,
      "loss": 7.3216,
      "num_input_tokens_seen": 3529004,
      "step": 28
    },
    {
      "epoch": 0.0071827101904700826,
      "loss": 7.517573356628418,
      "loss_ce": 3.738276481628418,
      "loss_iou": 1.2578125,
      "loss_num": 0.251953125,
      "loss_xval": 3.78125,
      "num_input_tokens_seen": 3529004,
      "step": 28
    },
    {
      "epoch": 0.007439235554415443,
      "grad_norm": 149.82147216796875,
      "learning_rate": 5e-06,
      "loss": 7.1982,
      "num_input_tokens_seen": 3655820,
      "step": 29
    },
    {
      "epoch": 0.007439235554415443,
      "loss": 7.290696144104004,
      "loss_ce": 3.478196144104004,
      "loss_iou": 1.28125,
      "loss_num": 0.25,
      "loss_xval": 3.8125,
      "num_input_tokens_seen": 3655820,
      "step": 29
    },
    {
      "epoch": 0.007695760918360803,
      "grad_norm": 135.2654571533203,
      "learning_rate": 5e-06,
      "loss": 6.9257,
      "num_input_tokens_seen": 3781336,
      "step": 30
    },
    {
      "epoch": 0.007695760918360803,
      "loss": 6.717167377471924,
      "loss_ce": 3.150761127471924,
      "loss_iou": 1.1953125,
      "loss_num": 0.234375,
      "loss_xval": 3.5625,
      "num_input_tokens_seen": 3781336,
      "step": 30
    },
    {
      "epoch": 0.007952286282306162,
      "grad_norm": 114.8228759765625,
      "learning_rate": 5e-06,
      "loss": 6.5416,
      "num_input_tokens_seen": 3907432,
      "step": 31
    },
    {
      "epoch": 0.007952286282306162,
      "loss": 6.536857604980469,
      "loss_ce": 2.8142011165618896,
      "loss_iou": 1.25,
      "loss_num": 0.244140625,
      "loss_xval": 3.71875,
      "num_input_tokens_seen": 3907432,
      "step": 31
    },
    {
      "epoch": 0.008208811646251523,
      "grad_norm": 75.32475280761719,
      "learning_rate": 5e-06,
      "loss": 6.1912,
      "num_input_tokens_seen": 4033160,
      "step": 32
    },
    {
      "epoch": 0.008208811646251523,
      "loss": 6.0081682205200195,
      "loss_ce": 2.5081677436828613,
      "loss_iou": 1.21875,
      "loss_num": 0.2119140625,
      "loss_xval": 3.5,
      "num_input_tokens_seen": 4033160,
      "step": 32
    },
    {
      "epoch": 0.008465337010196883,
      "grad_norm": 68.64422607421875,
      "learning_rate": 5e-06,
      "loss": 6.0066,
      "num_input_tokens_seen": 4160296,
      "step": 33
    },
    {
      "epoch": 0.008465337010196883,
      "loss": 6.147429466247559,
      "loss_ce": 2.3564138412475586,
      "loss_iou": 1.34375,
      "loss_num": 0.2197265625,
      "loss_xval": 3.796875,
      "num_input_tokens_seen": 4160296,
      "step": 33
    },
    {
      "epoch": 0.008721862374142244,
      "grad_norm": 80.0741958618164,
      "learning_rate": 5e-06,
      "loss": 5.9022,
      "num_input_tokens_seen": 4286888,
      "step": 34
    },
    {
      "epoch": 0.008721862374142244,
      "loss": 5.923714637756348,
      "loss_ce": 2.1991052627563477,
      "loss_iou": 1.2734375,
      "loss_num": 0.236328125,
      "loss_xval": 3.71875,
      "num_input_tokens_seen": 4286888,
      "step": 34
    },
    {
      "epoch": 0.008978387738087604,
      "grad_norm": 82.49143981933594,
      "learning_rate": 5e-06,
      "loss": 5.6834,
      "num_input_tokens_seen": 4412944,
      "step": 35
    },
    {
      "epoch": 0.008978387738087604,
      "loss": 5.693892478942871,
      "loss_ce": 2.109907865524292,
      "loss_iou": 1.2421875,
      "loss_num": 0.21875,
      "loss_xval": 3.578125,
      "num_input_tokens_seen": 4412944,
      "step": 35
    },
    {
      "epoch": 0.009234913102032963,
      "grad_norm": 85.99980163574219,
      "learning_rate": 5e-06,
      "loss": 5.5289,
      "num_input_tokens_seen": 4538436,
      "step": 36
    },
    {
      "epoch": 0.009234913102032963,
      "loss": 5.608206748962402,
      "loss_ce": 1.869925856590271,
      "loss_iou": 1.28125,
      "loss_num": 0.234375,
      "loss_xval": 3.734375,
      "num_input_tokens_seen": 4538436,
      "step": 36
    },
    {
      "epoch": 0.009491438465978323,
      "grad_norm": 90.54766845703125,
      "learning_rate": 5e-06,
      "loss": 5.3004,
      "num_input_tokens_seen": 4665172,
      "step": 37
    },
    {
      "epoch": 0.009491438465978323,
      "loss": 5.464558124542236,
      "loss_ce": 1.6325267553329468,
      "loss_iou": 1.375,
      "loss_num": 0.2177734375,
      "loss_xval": 3.828125,
      "num_input_tokens_seen": 4665172,
      "step": 37
    },
    {
      "epoch": 0.009747963829923684,
      "grad_norm": 79.52688598632812,
      "learning_rate": 5e-06,
      "loss": 5.2307,
      "num_input_tokens_seen": 4790836,
      "step": 38
    },
    {
      "epoch": 0.009747963829923684,
      "loss": 5.4111738204956055,
      "loss_ce": 1.5303142070770264,
      "loss_iou": 1.28125,
      "loss_num": 0.263671875,
      "loss_xval": 3.875,
      "num_input_tokens_seen": 4790836,
      "step": 38
    },
    {
      "epoch": 0.010004489193869044,
      "grad_norm": 70.49172973632812,
      "learning_rate": 5e-06,
      "loss": 4.9215,
      "num_input_tokens_seen": 4916608,
      "step": 39
    },
    {
      "epoch": 0.010004489193869044,
      "loss": 4.819802284240723,
      "loss_ce": 1.378395915031433,
      "loss_iou": 1.1875,
      "loss_num": 0.2138671875,
      "loss_xval": 3.4375,
      "num_input_tokens_seen": 4916608,
      "step": 39
    },
    {
      "epoch": 0.010261014557814405,
      "grad_norm": 57.78243637084961,
      "learning_rate": 5e-06,
      "loss": 4.6197,
      "num_input_tokens_seen": 5042688,
      "step": 40
    },
    {
      "epoch": 0.010261014557814405,
      "loss": 4.584734916687012,
      "loss_ce": 1.0984067916870117,
      "loss_iou": 1.21875,
      "loss_num": 0.2109375,
      "loss_xval": 3.484375,
      "num_input_tokens_seen": 5042688,
      "step": 40
    },
    {
      "epoch": 0.010517539921759763,
      "grad_norm": 50.31228256225586,
      "learning_rate": 5e-06,
      "loss": 4.6317,
      "num_input_tokens_seen": 5169276,
      "step": 41
    },
    {
      "epoch": 0.010517539921759763,
      "loss": 4.498469829559326,
      "loss_ce": 0.9926106929779053,
      "loss_iou": 1.15625,
      "loss_num": 0.23828125,
      "loss_xval": 3.5,
      "num_input_tokens_seen": 5169276,
      "step": 41
    },
    {
      "epoch": 0.010774065285705124,
      "grad_norm": 66.95683288574219,
      "learning_rate": 5e-06,
      "loss": 4.5143,
      "num_input_tokens_seen": 5295820,
      "step": 42
    },
    {
      "epoch": 0.010774065285705124,
      "loss": 4.447393894195557,
      "loss_ce": 0.8477846384048462,
      "loss_iou": 1.2421875,
      "loss_num": 0.224609375,
      "loss_xval": 3.59375,
      "num_input_tokens_seen": 5295820,
      "step": 42
    },
    {
      "epoch": 0.011030590649650484,
      "grad_norm": 82.00860595703125,
      "learning_rate": 5e-06,
      "loss": 4.3111,
      "num_input_tokens_seen": 5422928,
      "step": 43
    },
    {
      "epoch": 0.011030590649650484,
      "loss": 4.469751358032227,
      "loss_ce": 0.7568607330322266,
      "loss_iou": 1.21875,
      "loss_num": 0.255859375,
      "loss_xval": 3.71875,
      "num_input_tokens_seen": 5422928,
      "step": 43
    },
    {
      "epoch": 0.011287116013595845,
      "grad_norm": 92.98456573486328,
      "learning_rate": 5e-06,
      "loss": 4.2303,
      "num_input_tokens_seen": 5549380,
      "step": 44
    },
    {
      "epoch": 0.011287116013595845,
      "loss": 4.187341690063477,
      "loss_ce": 0.7537478804588318,
      "loss_iou": 1.1484375,
      "loss_num": 0.228515625,
      "loss_xval": 3.4375,
      "num_input_tokens_seen": 5549380,
      "step": 44
    },
    {
      "epoch": 0.011543641377541205,
      "grad_norm": 85.1664810180664,
      "learning_rate": 5e-06,
      "loss": 4.1498,
      "num_input_tokens_seen": 5675588,
      "step": 45
    },
    {
      "epoch": 0.011543641377541205,
      "loss": 4.171885013580322,
      "loss_ce": 0.48633822798728943,
      "loss_iou": 1.296875,
      "loss_num": 0.21875,
      "loss_xval": 3.6875,
      "num_input_tokens_seen": 5675588,
      "step": 45
    },
    {
      "epoch": 0.011800166741486564,
      "grad_norm": 73.48027801513672,
      "learning_rate": 5e-06,
      "loss": 4.0352,
      "num_input_tokens_seen": 5802732,
      "step": 46
    },
    {
      "epoch": 0.011800166741486564,
      "loss": 3.948075294494629,
      "loss_ce": 0.350419282913208,
      "loss_iou": 1.171875,
      "loss_num": 0.25,
      "loss_xval": 3.59375,
      "num_input_tokens_seen": 5802732,
      "step": 46
    },
    {
      "epoch": 0.012056692105431924,
      "grad_norm": 43.25382995605469,
      "learning_rate": 5e-06,
      "loss": 3.8534,
      "num_input_tokens_seen": 5928984,
      "step": 47
    },
    {
      "epoch": 0.012056692105431924,
      "loss": 3.9803085327148438,
      "loss_ce": 0.2556988596916199,
      "loss_iou": 1.3203125,
      "loss_num": 0.216796875,
      "loss_xval": 3.71875,
      "num_input_tokens_seen": 5928984,
      "step": 47
    },
    {
      "epoch": 0.012313217469377285,
      "grad_norm": 39.125770568847656,
      "learning_rate": 5e-06,
      "loss": 3.8844,
      "num_input_tokens_seen": 6055532,
      "step": 48
    },
    {
      "epoch": 0.012313217469377285,
      "loss": 3.7209632396698,
      "loss_ce": 0.2502601742744446,
      "loss_iou": 1.1953125,
      "loss_num": 0.216796875,
      "loss_xval": 3.46875,
      "num_input_tokens_seen": 6055532,
      "step": 48
    },
    {
      "epoch": 0.012569742833322645,
      "grad_norm": 46.63848876953125,
      "learning_rate": 5e-06,
      "loss": 3.5026,
      "num_input_tokens_seen": 6182520,
      "step": 49
    },
    {
      "epoch": 0.012569742833322645,
      "loss": 3.421649932861328,
      "loss_ce": 0.13844692707061768,
      "loss_iou": 1.1640625,
      "loss_num": 0.189453125,
      "loss_xval": 3.28125,
      "num_input_tokens_seen": 6182520,
      "step": 49
    },
    {
      "epoch": 0.012826268197268004,
      "grad_norm": 34.247737884521484,
      "learning_rate": 5e-06,
      "loss": 3.6153,
      "num_input_tokens_seen": 6309184,
      "step": 50
    },
    {
      "epoch": 0.012826268197268004,
      "loss": 3.5534186363220215,
      "loss_ce": 0.13349667191505432,
      "loss_iou": 1.203125,
      "loss_num": 0.2041015625,
      "loss_xval": 3.421875,
      "num_input_tokens_seen": 6309184,
      "step": 50
    },
    {
      "epoch": 0.013082793561213365,
      "grad_norm": 30.019733428955078,
      "learning_rate": 5e-06,
      "loss": 3.7023,
      "num_input_tokens_seen": 6435304,
      "step": 51
    },
    {
      "epoch": 0.013082793561213365,
      "loss": 3.6311092376708984,
      "loss_ce": 0.1584530621767044,
      "loss_iou": 1.171875,
      "loss_num": 0.2255859375,
      "loss_xval": 3.46875,
      "num_input_tokens_seen": 6435304,
      "step": 51
    },
    {
      "epoch": 0.013339318925158725,
      "grad_norm": 37.99278259277344,
      "learning_rate": 5e-06,
      "loss": 3.6091,
      "num_input_tokens_seen": 6562596,
      "step": 52
    },
    {
      "epoch": 0.013339318925158725,
      "loss": 3.465839385986328,
      "loss_ce": 0.12208911776542664,
      "loss_iou": 1.1875,
      "loss_num": 0.193359375,
      "loss_xval": 3.34375,
      "num_input_tokens_seen": 6562596,
      "step": 52
    },
    {
      "epoch": 0.013595844289104085,
      "grad_norm": 50.11624526977539,
      "learning_rate": 5e-06,
      "loss": 3.5389,
      "num_input_tokens_seen": 6690252,
      "step": 53
    },
    {
      "epoch": 0.013595844289104085,
      "loss": 3.5958218574523926,
      "loss_ce": 0.11730626225471497,
      "loss_iou": 1.171875,
      "loss_num": 0.2275390625,
      "loss_xval": 3.484375,
      "num_input_tokens_seen": 6690252,
      "step": 53
    },
    {
      "epoch": 0.013852369653049446,
      "grad_norm": 101.21369171142578,
      "learning_rate": 5e-06,
      "loss": 3.7451,
      "num_input_tokens_seen": 6816904,
      "step": 54
    },
    {
      "epoch": 0.013852369653049446,
      "loss": 3.817201852798462,
      "loss_ce": 0.1355612725019455,
      "loss_iou": 1.3515625,
      "loss_num": 0.1953125,
      "loss_xval": 3.6875,
      "num_input_tokens_seen": 6816904,
      "step": 54
    },
    {
      "epoch": 0.014108895016994805,
      "grad_norm": 84.71163177490234,
      "learning_rate": 5e-06,
      "loss": 3.7346,
      "num_input_tokens_seen": 6942940,
      "step": 55
    },
    {
      "epoch": 0.014108895016994805,
      "loss": 3.853278160095215,
      "loss_ce": 0.12866894900798798,
      "loss_iou": 1.140625,
      "loss_num": 0.2890625,
      "loss_xval": 3.71875,
      "num_input_tokens_seen": 6942940,
      "step": 55
    },
    {
      "epoch": 0.014365420380940165,
      "grad_norm": 32.02634811401367,
      "learning_rate": 5e-06,
      "loss": 3.4492,
      "num_input_tokens_seen": 7069788,
      "step": 56
    },
    {
      "epoch": 0.014365420380940165,
      "loss": 3.3887178897857666,
      "loss_ce": 0.060592833906412125,
      "loss_iou": 1.1328125,
      "loss_num": 0.2138671875,
      "loss_xval": 3.328125,
      "num_input_tokens_seen": 7069788,
      "step": 56
    },
    {
      "epoch": 0.014621945744885526,
      "grad_norm": 36.80150604248047,
      "learning_rate": 5e-06,
      "loss": 3.4229,
      "num_input_tokens_seen": 7194992,
      "step": 57
    },
    {
      "epoch": 0.014621945744885526,
      "loss": 3.3887665271759033,
      "loss_ce": 0.0645478367805481,
      "loss_iou": 1.1953125,
      "loss_num": 0.1875,
      "loss_xval": 3.328125,
      "num_input_tokens_seen": 7194992,
      "step": 57
    },
    {
      "epoch": 0.014878471108830886,
      "grad_norm": 25.860525131225586,
      "learning_rate": 5e-06,
      "loss": 3.4895,
      "num_input_tokens_seen": 7321896,
      "step": 58
    },
    {
      "epoch": 0.014878471108830886,
      "loss": 3.6210527420043945,
      "loss_ce": 0.06441197544336319,
      "loss_iou": 1.203125,
      "loss_num": 0.2294921875,
      "loss_xval": 3.5625,
      "num_input_tokens_seen": 7321896,
      "step": 58
    },
    {
      "epoch": 0.015134996472776246,
      "grad_norm": 20.3499698638916,
      "learning_rate": 5e-06,
      "loss": 3.3917,
      "num_input_tokens_seen": 7448248,
      "step": 59
    },
    {
      "epoch": 0.015134996472776246,
      "loss": 3.5145230293273926,
      "loss_ce": 0.0692107081413269,
      "loss_iou": 1.1796875,
      "loss_num": 0.2177734375,
      "loss_xval": 3.4375,
      "num_input_tokens_seen": 7448248,
      "step": 59
    },
    {
      "epoch": 0.015391521836721605,
      "grad_norm": 35.771610260009766,
      "learning_rate": 5e-06,
      "loss": 3.3899,
      "num_input_tokens_seen": 7573964,
      "step": 60
    },
    {
      "epoch": 0.015391521836721605,
      "loss": 3.352057456970215,
      "loss_ce": 0.049323081970214844,
      "loss_iou": 1.1796875,
      "loss_num": 0.189453125,
      "loss_xval": 3.296875,
      "num_input_tokens_seen": 7573964,
      "step": 60
    },
    {
      "epoch": 0.015648047200666967,
      "grad_norm": 32.17473602294922,
      "learning_rate": 5e-06,
      "loss": 3.3821,
      "num_input_tokens_seen": 7699696,
      "step": 61
    },
    {
      "epoch": 0.015648047200666967,
      "loss": 3.474994421005249,
      "loss_ce": 0.0492132194340229,
      "loss_iou": 1.21875,
      "loss_num": 0.19921875,
      "loss_xval": 3.421875,
      "num_input_tokens_seen": 7699696,
      "step": 61
    },
    {
      "epoch": 0.015904572564612324,
      "grad_norm": 25.308780670166016,
      "learning_rate": 5e-06,
      "loss": 3.3634,
      "num_input_tokens_seen": 7826244,
      "step": 62
    },
    {
      "epoch": 0.015904572564612324,
      "loss": 3.264090061187744,
      "loss_ce": 0.05315283685922623,
      "loss_iou": 1.15625,
      "loss_num": 0.1787109375,
      "loss_xval": 3.21875,
      "num_input_tokens_seen": 7826244,
      "step": 62
    },
    {
      "epoch": 0.016161097928557685,
      "grad_norm": 70.0099868774414,
      "learning_rate": 5e-06,
      "loss": 3.3452,
      "num_input_tokens_seen": 7954136,
      "step": 63
    },
    {
      "epoch": 0.016161097928557685,
      "loss": 3.261018753051758,
      "loss_ce": 0.052034344524145126,
      "loss_iou": 1.1953125,
      "loss_num": 0.1640625,
      "loss_xval": 3.203125,
      "num_input_tokens_seen": 7954136,
      "step": 63
    },
    {
      "epoch": 0.016417623292503045,
      "grad_norm": 87.06526184082031,
      "learning_rate": 5e-06,
      "loss": 3.5862,
      "num_input_tokens_seen": 8079696,
      "step": 64
    },
    {
      "epoch": 0.016417623292503045,
      "loss": 3.6002750396728516,
      "loss_ce": 0.059259358793497086,
      "loss_iou": 1.171875,
      "loss_num": 0.23828125,
      "loss_xval": 3.546875,
      "num_input_tokens_seen": 8079696,
      "step": 64
    },
    {
      "epoch": 0.016674148656448406,
      "grad_norm": 41.897010803222656,
      "learning_rate": 5e-06,
      "loss": 3.2868,
      "num_input_tokens_seen": 8205432,
      "step": 65
    },
    {
      "epoch": 0.016674148656448406,
      "loss": 3.282851219177246,
      "loss_ce": 0.05628880858421326,
      "loss_iou": 1.171875,
      "loss_num": 0.1767578125,
      "loss_xval": 3.21875,
      "num_input_tokens_seen": 8205432,
      "step": 65
    },
    {
      "epoch": 0.016930674020393766,
      "grad_norm": 24.853635787963867,
      "learning_rate": 5e-06,
      "loss": 3.3248,
      "num_input_tokens_seen": 8331668,
      "step": 66
    },
    {
      "epoch": 0.016930674020393766,
      "loss": 3.474534511566162,
      "loss_ce": 0.035081423819065094,
      "loss_iou": 1.2421875,
      "loss_num": 0.19140625,
      "loss_xval": 3.4375,
      "num_input_tokens_seen": 8331668,
      "step": 66
    },
    {
      "epoch": 0.017187199384339127,
      "grad_norm": 38.64767837524414,
      "learning_rate": 5e-06,
      "loss": 3.169,
      "num_input_tokens_seen": 8457656,
      "step": 67
    },
    {
      "epoch": 0.017187199384339127,
      "loss": 3.1116318702697754,
      "loss_ce": 0.03350668400526047,
      "loss_iou": 1.1171875,
      "loss_num": 0.1689453125,
      "loss_xval": 3.078125,
      "num_input_tokens_seen": 8457656,
      "step": 67
    },
    {
      "epoch": 0.017443724748284487,
      "grad_norm": 43.23768997192383,
      "learning_rate": 5e-06,
      "loss": 3.2564,
      "num_input_tokens_seen": 8583868,
      "step": 68
    },
    {
      "epoch": 0.017443724748284487,
      "loss": 3.2485389709472656,
      "loss_ce": 0.04150766506791115,
      "loss_iou": 1.1875,
      "loss_num": 0.16796875,
      "loss_xval": 3.203125,
      "num_input_tokens_seen": 8583868,
      "step": 68
    },
    {
      "epoch": 0.017700250112229848,
      "grad_norm": 59.72880554199219,
      "learning_rate": 5e-06,
      "loss": 3.2362,
      "num_input_tokens_seen": 8711404,
      "step": 69
    },
    {
      "epoch": 0.017700250112229848,
      "loss": 3.1349587440490723,
      "loss_ce": 0.025583885610103607,
      "loss_iou": 1.125,
      "loss_num": 0.1728515625,
      "loss_xval": 3.109375,
      "num_input_tokens_seen": 8711404,
      "step": 69
    },
    {
      "epoch": 0.017956775476175208,
      "grad_norm": 115.53094482421875,
      "learning_rate": 5e-06,
      "loss": 3.446,
      "num_input_tokens_seen": 8838336,
      "step": 70
    },
    {
      "epoch": 0.017956775476175208,
      "loss": 3.65211820602417,
      "loss_ce": 0.027118433266878128,
      "loss_iou": 1.4453125,
      "loss_num": 0.1474609375,
      "loss_xval": 3.625,
      "num_input_tokens_seen": 8838336,
      "step": 70
    },
    {
      "epoch": 0.01821330084012057,
      "grad_norm": 82.38813781738281,
      "learning_rate": 5e-06,
      "loss": 3.7034,
      "num_input_tokens_seen": 8963896,
      "step": 71
    },
    {
      "epoch": 0.01821330084012057,
      "loss": 3.750781536102295,
      "loss_ce": 0.028125401586294174,
      "loss_iou": 1.15625,
      "loss_num": 0.28125,
      "loss_xval": 3.71875,
      "num_input_tokens_seen": 8963896,
      "step": 71
    },
    {
      "epoch": 0.018469826204065926,
      "grad_norm": 39.2523078918457,
      "learning_rate": 5e-06,
      "loss": 3.3244,
      "num_input_tokens_seen": 9089836,
      "step": 72
    },
    {
      "epoch": 0.018469826204065926,
      "loss": 3.445977210998535,
      "loss_ce": 0.04168044403195381,
      "loss_iou": 1.125,
      "loss_num": 0.2314453125,
      "loss_xval": 3.40625,
      "num_input_tokens_seen": 9089836,
      "step": 72
    },
    {
      "epoch": 0.018726351568011286,
      "grad_norm": 47.28199768066406,
      "learning_rate": 5e-06,
      "loss": 3.2184,
      "num_input_tokens_seen": 9215664,
      "step": 73
    },
    {
      "epoch": 0.018726351568011286,
      "loss": 3.3213675022125244,
      "loss_ce": 0.0264457818120718,
      "loss_iou": 1.15625,
      "loss_num": 0.1943359375,
      "loss_xval": 3.296875,
      "num_input_tokens_seen": 9215664,
      "step": 73
    },
    {
      "epoch": 0.018982876931956646,
      "grad_norm": 20.887706756591797,
      "learning_rate": 5e-06,
      "loss": 3.1067,
      "num_input_tokens_seen": 9342228,
      "step": 74
    },
    {
      "epoch": 0.018982876931956646,
      "loss": 3.0648765563964844,
      "loss_ce": 0.027767088264226913,
      "loss_iou": 1.1015625,
      "loss_num": 0.166015625,
      "loss_xval": 3.03125,
      "num_input_tokens_seen": 9342228,
      "step": 74
    },
    {
      "epoch": 0.019239402295902007,
      "grad_norm": 44.38043975830078,
      "learning_rate": 5e-06,
      "loss": 3.1287,
      "num_input_tokens_seen": 9467672,
      "step": 75
    },
    {
      "epoch": 0.019239402295902007,
      "loss": 3.1120338439941406,
      "loss_ce": 0.020236866548657417,
      "loss_iou": 1.1796875,
      "loss_num": 0.1455078125,
      "loss_xval": 3.09375,
      "num_input_tokens_seen": 9467672,
      "step": 75
    },
    {
      "epoch": 0.019495927659847367,
      "grad_norm": 39.1973991394043,
      "learning_rate": 5e-06,
      "loss": 3.0963,
      "num_input_tokens_seen": 9594548,
      "step": 76
    },
    {
      "epoch": 0.019495927659847367,
      "loss": 3.243161201477051,
      "loss_ce": 0.03808319941163063,
      "loss_iou": 1.125,
      "loss_num": 0.19140625,
      "loss_xval": 3.203125,
      "num_input_tokens_seen": 9594548,
      "step": 76
    },
    {
      "epoch": 0.019752453023792728,
      "grad_norm": 43.993995666503906,
      "learning_rate": 5e-06,
      "loss": 3.0795,
      "num_input_tokens_seen": 9721120,
      "step": 77
    },
    {
      "epoch": 0.019752453023792728,
      "loss": 3.0367302894592285,
      "loss_ce": 0.026964720338582993,
      "loss_iou": 1.1328125,
      "loss_num": 0.1484375,
      "loss_xval": 3.015625,
      "num_input_tokens_seen": 9721120,
      "step": 77
    },
    {
      "epoch": 0.02000897838773809,
      "grad_norm": 38.7779541015625,
      "learning_rate": 5e-06,
      "loss": 3.0596,
      "num_input_tokens_seen": 9847768,
      "step": 78
    },
    {
      "epoch": 0.02000897838773809,
      "loss": 3.1277730464935303,
      "loss_ce": 0.022304125130176544,
      "loss_iou": 1.1328125,
      "loss_num": 0.16796875,
      "loss_xval": 3.109375,
      "num_input_tokens_seen": 9847768,
      "step": 78
    },
    {
      "epoch": 0.02026550375168345,
      "grad_norm": 39.896732330322266,
      "learning_rate": 5e-06,
      "loss": 3.0943,
      "num_input_tokens_seen": 9974152,
      "step": 79
    },
    {
      "epoch": 0.02026550375168345,
      "loss": 3.2204573154449463,
      "loss_ce": 0.027098044753074646,
      "loss_iou": 1.1953125,
      "loss_num": 0.162109375,
      "loss_xval": 3.1875,
      "num_input_tokens_seen": 9974152,
      "step": 79
    },
    {
      "epoch": 0.02052202911562881,
      "grad_norm": 31.274333953857422,
      "learning_rate": 5e-06,
      "loss": 3.0824,
      "num_input_tokens_seen": 10099648,
      "step": 80
    },
    {
      "epoch": 0.02052202911562881,
      "loss": 2.9422428607940674,
      "loss_ce": 0.02622729167342186,
      "loss_iou": 1.0625,
      "loss_num": 0.158203125,
      "loss_xval": 2.921875,
      "num_input_tokens_seen": 10099648,
      "step": 80
    },
    {
      "epoch": 0.020778554479574166,
      "grad_norm": 26.87254524230957,
      "learning_rate": 5e-06,
      "loss": 2.9988,
      "num_input_tokens_seen": 10225612,
      "step": 81
    },
    {
      "epoch": 0.020778554479574166,
      "loss": 2.88398814201355,
      "loss_ce": 0.020706914365291595,
      "loss_iou": 1.0546875,
      "loss_num": 0.150390625,
      "loss_xval": 2.859375,
      "num_input_tokens_seen": 10225612,
      "step": 81
    },
    {
      "epoch": 0.021035079843519527,
      "grad_norm": 64.69682312011719,
      "learning_rate": 5e-06,
      "loss": 2.9294,
      "num_input_tokens_seen": 10352960,
      "step": 82
    },
    {
      "epoch": 0.021035079843519527,
      "loss": 2.920563220977783,
      "loss_ce": 0.02603220008313656,
      "loss_iou": 1.125,
      "loss_num": 0.12890625,
      "loss_xval": 2.890625,
      "num_input_tokens_seen": 10352960,
      "step": 82
    },
    {
      "epoch": 0.021291605207464887,
      "grad_norm": 40.93315124511719,
      "learning_rate": 5e-06,
      "loss": 3.1489,
      "num_input_tokens_seen": 10479884,
      "step": 83
    },
    {
      "epoch": 0.021291605207464887,
      "loss": 3.2524781227111816,
      "loss_ce": 0.018103033304214478,
      "loss_iou": 1.1484375,
      "loss_num": 0.1884765625,
      "loss_xval": 3.234375,
      "num_input_tokens_seen": 10479884,
      "step": 83
    },
    {
      "epoch": 0.021548130571410248,
      "grad_norm": 47.865203857421875,
      "learning_rate": 5e-06,
      "loss": 3.1314,
      "num_input_tokens_seen": 10607176,
      "step": 84
    },
    {
      "epoch": 0.021548130571410248,
      "loss": 3.0634937286376953,
      "loss_ce": 0.012712271884083748,
      "loss_iou": 1.140625,
      "loss_num": 0.1533203125,
      "loss_xval": 3.046875,
      "num_input_tokens_seen": 10607176,
      "step": 84
    },
    {
      "epoch": 0.021804655935355608,
      "grad_norm": 44.862850189208984,
      "learning_rate": 5e-06,
      "loss": 2.9932,
      "num_input_tokens_seen": 10734508,
      "step": 85
    },
    {
      "epoch": 0.021804655935355608,
      "loss": 3.0022835731506348,
      "loss_ce": 0.01986151747405529,
      "loss_iou": 1.0703125,
      "loss_num": 0.1689453125,
      "loss_xval": 2.984375,
      "num_input_tokens_seen": 10734508,
      "step": 85
    },
    {
      "epoch": 0.02206118129930097,
      "grad_norm": 95.27526092529297,
      "learning_rate": 5e-06,
      "loss": 3.0355,
      "num_input_tokens_seen": 10861348,
      "step": 86
    },
    {
      "epoch": 0.02206118129930097,
      "loss": 3.0225088596343994,
      "loss_ce": 0.01274324581027031,
      "loss_iou": 1.1875,
      "loss_num": 0.1259765625,
      "loss_xval": 3.015625,
      "num_input_tokens_seen": 10861348,
      "step": 86
    },
    {
      "epoch": 0.02231770666324633,
      "grad_norm": 78.31133270263672,
      "learning_rate": 5e-06,
      "loss": 3.3175,
      "num_input_tokens_seen": 10987384,
      "step": 87
    },
    {
      "epoch": 0.02231770666324633,
      "loss": 3.3293075561523438,
      "loss_ce": 0.016807712614536285,
      "loss_iou": 1.140625,
      "loss_num": 0.2060546875,
      "loss_xval": 3.3125,
      "num_input_tokens_seen": 10987384,
      "step": 87
    },
    {
      "epoch": 0.02257423202719169,
      "grad_norm": 46.081546783447266,
      "learning_rate": 5e-06,
      "loss": 3.0145,
      "num_input_tokens_seen": 11113360,
      "step": 88
    },
    {
      "epoch": 0.02257423202719169,
      "loss": 3.032632827758789,
      "loss_ce": 0.015054561197757721,
      "loss_iou": 1.1328125,
      "loss_num": 0.150390625,
      "loss_xval": 3.015625,
      "num_input_tokens_seen": 11113360,
      "step": 88
    },
    {
      "epoch": 0.02283075739113705,
      "grad_norm": 60.697174072265625,
      "learning_rate": 5e-06,
      "loss": 2.9269,
      "num_input_tokens_seen": 11240308,
      "step": 89
    },
    {
      "epoch": 0.02283075739113705,
      "loss": 2.7379448413848877,
      "loss_ce": 0.019194845110177994,
      "loss_iou": 1.0703125,
      "loss_num": 0.115234375,
      "loss_xval": 2.71875,
      "num_input_tokens_seen": 11240308,
      "step": 89
    },
    {
      "epoch": 0.02308728275508241,
      "grad_norm": 36.36449432373047,
      "learning_rate": 5e-06,
      "loss": 3.0375,
      "num_input_tokens_seen": 11366208,
      "step": 90
    },
    {
      "epoch": 0.02308728275508241,
      "loss": 2.968803882598877,
      "loss_ce": 0.013725914061069489,
      "loss_iou": 1.0703125,
      "loss_num": 0.1640625,
      "loss_xval": 2.953125,
      "num_input_tokens_seen": 11366208,
      "step": 90
    },
    {
      "epoch": 0.023343808119027767,
      "grad_norm": 24.182878494262695,
      "learning_rate": 5e-06,
      "loss": 2.8852,
      "num_input_tokens_seen": 11493124,
      "step": 91
    },
    {
      "epoch": 0.023343808119027767,
      "loss": 2.950312376022339,
      "loss_ce": 0.014765567146241665,
      "loss_iou": 1.0703125,
      "loss_num": 0.1591796875,
      "loss_xval": 2.9375,
      "num_input_tokens_seen": 11493124,
      "step": 91
    },
    {
      "epoch": 0.023600333482973128,
      "grad_norm": 36.32478713989258,
      "learning_rate": 5e-06,
      "loss": 2.8243,
      "num_input_tokens_seen": 11618440,
      "step": 92
    },
    {
      "epoch": 0.023600333482973128,
      "loss": 2.777660846710205,
      "loss_ce": 0.012035926803946495,
      "loss_iou": 1.0859375,
      "loss_num": 0.11962890625,
      "loss_xval": 2.765625,
      "num_input_tokens_seen": 11618440,
      "step": 92
    },
    {
      "epoch": 0.02385685884691849,
      "grad_norm": 30.922170639038086,
      "learning_rate": 5e-06,
      "loss": 2.8283,
      "num_input_tokens_seen": 11746096,
      "step": 93
    },
    {
      "epoch": 0.02385685884691849,
      "loss": 2.915024757385254,
      "loss_ce": 0.022446738556027412,
      "loss_iou": 1.0625,
      "loss_num": 0.1533203125,
      "loss_xval": 2.890625,
      "num_input_tokens_seen": 11746096,
      "step": 93
    },
    {
      "epoch": 0.02411338421086385,
      "grad_norm": 27.584747314453125,
      "learning_rate": 5e-06,
      "loss": 2.7553,
      "num_input_tokens_seen": 11873716,
      "step": 94
    },
    {
      "epoch": 0.02411338421086385,
      "loss": 2.796095848083496,
      "loss_ce": 0.016799159348011017,
      "loss_iou": 1.09375,
      "loss_num": 0.1171875,
      "loss_xval": 2.78125,
      "num_input_tokens_seen": 11873716,
      "step": 94
    },
    {
      "epoch": 0.02436990957480921,
      "grad_norm": 37.147037506103516,
      "learning_rate": 5e-06,
      "loss": 2.792,
      "num_input_tokens_seen": 12000444,
      "step": 95
    },
    {
      "epoch": 0.02436990957480921,
      "loss": 2.917742967605591,
      "loss_ce": 0.013446154072880745,
      "loss_iou": 1.09375,
      "loss_num": 0.1416015625,
      "loss_xval": 2.90625,
      "num_input_tokens_seen": 12000444,
      "step": 95
    },
    {
      "epoch": 0.02462643493875457,
      "grad_norm": 85.68004608154297,
      "learning_rate": 5e-06,
      "loss": 2.9387,
      "num_input_tokens_seen": 12127516,
      "step": 96
    },
    {
      "epoch": 0.02462643493875457,
      "loss": 2.8435819149017334,
      "loss_ce": 0.01741006039083004,
      "loss_iou": 1.1484375,
      "loss_num": 0.10498046875,
      "loss_xval": 2.828125,
      "num_input_tokens_seen": 12127516,
      "step": 96
    },
    {
      "epoch": 0.02488296030269993,
      "grad_norm": 67.87000274658203,
      "learning_rate": 5e-06,
      "loss": 3.0883,
      "num_input_tokens_seen": 12254856,
      "step": 97
    },
    {
      "epoch": 0.02488296030269993,
      "loss": 3.1289682388305664,
      "loss_ce": 0.013733651489019394,
      "loss_iou": 1.125,
      "loss_num": 0.1748046875,
      "loss_xval": 3.109375,
      "num_input_tokens_seen": 12254856,
      "step": 97
    },
    {
      "epoch": 0.02513948566664529,
      "grad_norm": 28.72338104248047,
      "learning_rate": 5e-06,
      "loss": 2.8677,
      "num_input_tokens_seen": 12380996,
      "step": 98
    },
    {
      "epoch": 0.02513948566664529,
      "loss": 2.9589712619781494,
      "loss_ce": 0.015611954964697361,
      "loss_iou": 1.09375,
      "loss_num": 0.150390625,
      "loss_xval": 2.9375,
      "num_input_tokens_seen": 12380996,
      "step": 98
    },
    {
      "epoch": 0.02539601103059065,
      "grad_norm": 34.20926284790039,
      "learning_rate": 5e-06,
      "loss": 2.7764,
      "num_input_tokens_seen": 12506700,
      "step": 99
    },
    {
      "epoch": 0.02539601103059065,
      "loss": 2.894710063934326,
      "loss_ce": 0.013850577175617218,
      "loss_iou": 1.109375,
      "loss_num": 0.134765625,
      "loss_xval": 2.875,
      "num_input_tokens_seen": 12506700,
      "step": 99
    },
    {
      "epoch": 0.025652536394536008,
      "grad_norm": 30.65720558166504,
      "learning_rate": 5e-06,
      "loss": 2.8432,
      "num_input_tokens_seen": 12631416,
      "step": 100
    },
    {
      "epoch": 0.025652536394536008,
      "loss": 2.8236584663391113,
      "loss_ce": 0.01311160996556282,
      "loss_iou": 1.1015625,
      "loss_num": 0.1220703125,
      "loss_xval": 2.8125,
      "num_input_tokens_seen": 12631416,
      "step": 100
    },
    {
      "epoch": 0.02590906175848137,
      "grad_norm": 37.46623992919922,
      "learning_rate": 5e-06,
      "loss": 2.8338,
      "num_input_tokens_seen": 12758496,
      "step": 101
    },
    {
      "epoch": 0.02590906175848137,
      "loss": 2.713740348815918,
      "loss_ce": 0.016474712640047073,
      "loss_iou": 1.0546875,
      "loss_num": 0.1181640625,
      "loss_xval": 2.703125,
      "num_input_tokens_seen": 12758496,
      "step": 101
    },
    {
      "epoch": 0.02616558712242673,
      "grad_norm": 71.9797134399414,
      "learning_rate": 5e-06,
      "loss": 2.9087,
      "num_input_tokens_seen": 12884212,
      "step": 102
    },
    {
      "epoch": 0.02616558712242673,
      "loss": 2.7867157459259033,
      "loss_ce": 0.021090732887387276,
      "loss_iou": 1.109375,
      "loss_num": 0.107421875,
      "loss_xval": 2.765625,
      "num_input_tokens_seen": 12884212,
      "step": 102
    },
    {
      "epoch": 0.02642211248637209,
      "grad_norm": 56.98023986816406,
      "learning_rate": 5e-06,
      "loss": 2.9836,
      "num_input_tokens_seen": 13010340,
      "step": 103
    },
    {
      "epoch": 0.02642211248637209,
      "loss": 2.994760513305664,
      "loss_ce": 0.010385450907051563,
      "loss_iou": 1.078125,
      "loss_num": 0.1650390625,
      "loss_xval": 2.984375,
      "num_input_tokens_seen": 13010340,
      "step": 103
    },
    {
      "epoch": 0.02667863785031745,
      "grad_norm": 25.406171798706055,
      "learning_rate": 5e-06,
      "loss": 2.8256,
      "num_input_tokens_seen": 13136248,
      "step": 104
    },
    {
      "epoch": 0.02667863785031745,
      "loss": 2.6833677291870117,
      "loss_ce": 0.017352260649204254,
      "loss_iou": 1.0234375,
      "loss_num": 0.123046875,
      "loss_xval": 2.671875,
      "num_input_tokens_seen": 13136248,
      "step": 104
    },
    {
      "epoch": 0.02693516321426281,
      "grad_norm": 32.290584564208984,
      "learning_rate": 5e-06,
      "loss": 2.7357,
      "num_input_tokens_seen": 13262340,
      "step": 105
    },
    {
      "epoch": 0.02693516321426281,
      "loss": 2.6801185607910156,
      "loss_ce": 0.014102968387305737,
      "loss_iou": 1.046875,
      "loss_num": 0.115234375,
      "loss_xval": 2.671875,
      "num_input_tokens_seen": 13262340,
      "step": 105
    },
    {
      "epoch": 0.02719168857820817,
      "grad_norm": 31.57007598876953,
      "learning_rate": 5e-06,
      "loss": 2.6092,
      "num_input_tokens_seen": 13389420,
      "step": 106
    },
    {
      "epoch": 0.02719168857820817,
      "loss": 2.665848731994629,
      "loss_ce": 0.027176853269338608,
      "loss_iou": 1.0625,
      "loss_num": 0.1015625,
      "loss_xval": 2.640625,
      "num_input_tokens_seen": 13389420,
      "step": 106
    },
    {
      "epoch": 0.02744821394215353,
      "grad_norm": 22.632143020629883,
      "learning_rate": 5e-06,
      "loss": 2.6059,
      "num_input_tokens_seen": 13515164,
      "step": 107
    },
    {
      "epoch": 0.02744821394215353,
      "loss": 2.6642847061157227,
      "loss_ce": 0.008034702390432358,
      "loss_iou": 1.0703125,
      "loss_num": 0.10302734375,
      "loss_xval": 2.65625,
      "num_input_tokens_seen": 13515164,
      "step": 107
    },
    {
      "epoch": 0.027704739306098892,
      "grad_norm": 39.209228515625,
      "learning_rate": 5e-06,
      "loss": 2.6815,
      "num_input_tokens_seen": 13641412,
      "step": 108
    },
    {
      "epoch": 0.027704739306098892,
      "loss": 2.660715103149414,
      "loss_ce": 0.012277309782803059,
      "loss_iou": 1.0859375,
      "loss_num": 0.09423828125,
      "loss_xval": 2.65625,
      "num_input_tokens_seen": 13641412,
      "step": 108
    },
    {
      "epoch": 0.027961264670044252,
      "grad_norm": 53.89849090576172,
      "learning_rate": 5e-06,
      "loss": 2.6715,
      "num_input_tokens_seen": 13766652,
      "step": 109
    },
    {
      "epoch": 0.027961264670044252,
      "loss": 2.664438247680664,
      "loss_ce": 0.01014143880456686,
      "loss_iou": 1.09375,
      "loss_num": 0.09375,
      "loss_xval": 2.65625,
      "num_input_tokens_seen": 13766652,
      "step": 109
    },
    {
      "epoch": 0.02821779003398961,
      "grad_norm": 54.301300048828125,
      "learning_rate": 5e-06,
      "loss": 2.6584,
      "num_input_tokens_seen": 13894408,
      "step": 110
    },
    {
      "epoch": 0.02821779003398961,
      "loss": 2.6851541996002197,
      "loss_ce": 0.009373034350574017,
      "loss_iou": 1.0703125,
      "loss_num": 0.1064453125,
      "loss_xval": 2.671875,
      "num_input_tokens_seen": 13894408,
      "step": 110
    },
    {
      "epoch": 0.02847431539793497,
      "grad_norm": 36.57997512817383,
      "learning_rate": 5e-06,
      "loss": 2.6983,
      "num_input_tokens_seen": 14020456,
      "step": 111
    },
    {
      "epoch": 0.02847431539793497,
      "loss": 2.5988218784332275,
      "loss_ce": 0.012884370982646942,
      "loss_iou": 1.03125,
      "loss_num": 0.10498046875,
      "loss_xval": 2.59375,
      "num_input_tokens_seen": 14020456,
      "step": 111
    },
    {
      "epoch": 0.02873084076188033,
      "grad_norm": 25.318971633911133,
      "learning_rate": 5e-06,
      "loss": 2.648,
      "num_input_tokens_seen": 14147268,
      "step": 112
    },
    {
      "epoch": 0.02873084076188033,
      "loss": 2.795989990234375,
      "loss_ce": 0.014740070328116417,
      "loss_iou": 1.1015625,
      "loss_num": 0.1162109375,
      "loss_xval": 2.78125,
      "num_input_tokens_seen": 14147268,
      "step": 112
    },
    {
      "epoch": 0.02898736612582569,
      "grad_norm": 53.55531692504883,
      "learning_rate": 5e-06,
      "loss": 2.6171,
      "num_input_tokens_seen": 14273352,
      "step": 113
    },
    {
      "epoch": 0.02898736612582569,
      "loss": 2.6019198894500732,
      "loss_ce": 0.01207612082362175,
      "loss_iou": 1.0625,
      "loss_num": 0.09375,
      "loss_xval": 2.59375,
      "num_input_tokens_seen": 14273352,
      "step": 113
    },
    {
      "epoch": 0.02924389148977105,
      "grad_norm": 49.240386962890625,
      "learning_rate": 5e-06,
      "loss": 2.7605,
      "num_input_tokens_seen": 14399308,
      "step": 114
    },
    {
      "epoch": 0.02924389148977105,
      "loss": 2.9250965118408203,
      "loss_ce": 0.007127617485821247,
      "loss_iou": 1.1171875,
      "loss_num": 0.1357421875,
      "loss_xval": 2.921875,
      "num_input_tokens_seen": 14399308,
      "step": 114
    },
    {
      "epoch": 0.02950041685371641,
      "grad_norm": 84.77357482910156,
      "learning_rate": 5e-06,
      "loss": 2.7282,
      "num_input_tokens_seen": 14525000,
      "step": 115
    },
    {
      "epoch": 0.02950041685371641,
      "loss": 2.7143073081970215,
      "loss_ce": 0.007276169024407864,
      "loss_iou": 1.125,
      "loss_num": 0.08984375,
      "loss_xval": 2.703125,
      "num_input_tokens_seen": 14525000,
      "step": 115
    },
    {
      "epoch": 0.029756942217661772,
      "grad_norm": 52.75733947753906,
      "learning_rate": 5e-06,
      "loss": 2.7703,
      "num_input_tokens_seen": 14651664,
      "step": 116
    },
    {
      "epoch": 0.029756942217661772,
      "loss": 2.7669665813446045,
      "loss_ce": 0.00915401242673397,
      "loss_iou": 1.078125,
      "loss_num": 0.12158203125,
      "loss_xval": 2.75,
      "num_input_tokens_seen": 14651664,
      "step": 116
    },
    {
      "epoch": 0.030013467581607133,
      "grad_norm": 73.32365417480469,
      "learning_rate": 5e-06,
      "loss": 2.7026,
      "num_input_tokens_seen": 14778136,
      "step": 117
    },
    {
      "epoch": 0.030013467581607133,
      "loss": 2.737086057662964,
      "loss_ce": 0.016382912173867226,
      "loss_iou": 1.1171875,
      "loss_num": 0.095703125,
      "loss_xval": 2.71875,
      "num_input_tokens_seen": 14778136,
      "step": 117
    },
    {
      "epoch": 0.030269992945552493,
      "grad_norm": 54.40532302856445,
      "learning_rate": 5e-06,
      "loss": 2.8099,
      "num_input_tokens_seen": 14904632,
      "step": 118
    },
    {
      "epoch": 0.030269992945552493,
      "loss": 2.8112223148345947,
      "loss_ce": 0.006534915417432785,
      "loss_iou": 1.0625,
      "loss_num": 0.1376953125,
      "loss_xval": 2.8125,
      "num_input_tokens_seen": 14904632,
      "step": 118
    },
    {
      "epoch": 0.03052651830949785,
      "grad_norm": 26.202964782714844,
      "learning_rate": 5e-06,
      "loss": 2.7059,
      "num_input_tokens_seen": 15030976,
      "step": 119
    },
    {
      "epoch": 0.03052651830949785,
      "loss": 2.6679232120513916,
      "loss_ce": 0.007766999304294586,
      "loss_iou": 1.046875,
      "loss_num": 0.11328125,
      "loss_xval": 2.65625,
      "num_input_tokens_seen": 15030976,
      "step": 119
    },
    {
      "epoch": 0.03078304367344321,
      "grad_norm": 19.56947898864746,
      "learning_rate": 5e-06,
      "loss": 2.5016,
      "num_input_tokens_seen": 15157084,
      "step": 120
    },
    {
      "epoch": 0.03078304367344321,
      "loss": 2.6053390502929688,
      "loss_ce": 0.005729649215936661,
      "loss_iou": 1.0390625,
      "loss_num": 0.10546875,
      "loss_xval": 2.59375,
      "num_input_tokens_seen": 15157084,
      "step": 120
    },
    {
      "epoch": 0.03103956903738857,
      "grad_norm": 122.9305419921875,
      "learning_rate": 5e-06,
      "loss": 2.5494,
      "num_input_tokens_seen": 15283388,
      "step": 121
    },
    {
      "epoch": 0.03103956903738857,
      "loss": 2.707568645477295,
      "loss_ce": 0.014209110289812088,
      "loss_iou": 1.09375,
      "loss_num": 0.1015625,
      "loss_xval": 2.6875,
      "num_input_tokens_seen": 15283388,
      "step": 121
    },
    {
      "epoch": 0.031296094401333935,
      "grad_norm": 47.97330093383789,
      "learning_rate": 5e-06,
      "loss": 2.5619,
      "num_input_tokens_seen": 15409908,
      "step": 122
    },
    {
      "epoch": 0.031296094401333935,
      "loss": 2.526622772216797,
      "loss_ce": 0.007091344799846411,
      "loss_iou": 1.0703125,
      "loss_num": 0.07666015625,
      "loss_xval": 2.515625,
      "num_input_tokens_seen": 15409908,
      "step": 122
    },
    {
      "epoch": 0.031552619765279295,
      "grad_norm": 60.44999694824219,
      "learning_rate": 5e-06,
      "loss": 2.7455,
      "num_input_tokens_seen": 15537004,
      "step": 123
    },
    {
      "epoch": 0.031552619765279295,
      "loss": 2.6782548427581787,
      "loss_ce": 0.012239217758178711,
      "loss_iou": 1.0625,
      "loss_num": 0.10693359375,
      "loss_xval": 2.671875,
      "num_input_tokens_seen": 15537004,
      "step": 123
    },
    {
      "epoch": 0.03180914512922465,
      "grad_norm": 71.20117950439453,
      "learning_rate": 5e-06,
      "loss": 2.6299,
      "num_input_tokens_seen": 15663468,
      "step": 124
    },
    {
      "epoch": 0.03180914512922465,
      "loss": 2.6547741889953613,
      "loss_ce": 0.004383578430861235,
      "loss_iou": 1.1015625,
      "loss_num": 0.08984375,
      "loss_xval": 2.65625,
      "num_input_tokens_seen": 15663468,
      "step": 124
    },
    {
      "epoch": 0.03206567049317001,
      "grad_norm": 53.503841400146484,
      "learning_rate": 5e-06,
      "loss": 2.744,
      "num_input_tokens_seen": 15789200,
      "step": 125
    },
    {
      "epoch": 0.03206567049317001,
      "loss": 2.7980947494506836,
      "loss_ce": 0.007079221308231354,
      "loss_iou": 1.1015625,
      "loss_num": 0.11865234375,
      "loss_xval": 2.796875,
      "num_input_tokens_seen": 15789200,
      "step": 125
    },
    {
      "epoch": 0.03232219585711537,
      "grad_norm": 28.437164306640625,
      "learning_rate": 5e-06,
      "loss": 2.6505,
      "num_input_tokens_seen": 15914772,
      "step": 126
    },
    {
      "epoch": 0.03232219585711537,
      "loss": 2.6763556003570557,
      "loss_ce": 0.004480727482587099,
      "loss_iou": 1.0703125,
      "loss_num": 0.1064453125,
      "loss_xval": 2.671875,
      "num_input_tokens_seen": 15914772,
      "step": 126
    },
    {
      "epoch": 0.03257872122106073,
      "grad_norm": 27.92886734008789,
      "learning_rate": 5e-06,
      "loss": 2.4758,
      "num_input_tokens_seen": 16042028,
      "step": 127
    },
    {
      "epoch": 0.03257872122106073,
      "loss": 2.4179646968841553,
      "loss_ce": 0.009761575609445572,
      "loss_iou": 0.984375,
      "loss_num": 0.087890625,
      "loss_xval": 2.40625,
      "num_input_tokens_seen": 16042028,
      "step": 127
    },
    {
      "epoch": 0.03283524658500609,
      "grad_norm": 52.326141357421875,
      "learning_rate": 5e-06,
      "loss": 2.6263,
      "num_input_tokens_seen": 16168556,
      "step": 128
    },
    {
      "epoch": 0.03283524658500609,
      "loss": 2.733271598815918,
      "loss_ce": 0.0067090727388858795,
      "loss_iou": 1.15625,
      "loss_num": 0.083984375,
      "loss_xval": 2.71875,
      "num_input_tokens_seen": 16168556,
      "step": 128
    },
    {
      "epoch": 0.03309177194895145,
      "grad_norm": 44.34842300415039,
      "learning_rate": 5e-06,
      "loss": 2.6195,
      "num_input_tokens_seen": 16294848,
      "step": 129
    },
    {
      "epoch": 0.03309177194895145,
      "loss": 2.589071750640869,
      "loss_ce": 0.01485302671790123,
      "loss_iou": 1.0390625,
      "loss_num": 0.10009765625,
      "loss_xval": 2.578125,
      "num_input_tokens_seen": 16294848,
      "step": 129
    },
    {
      "epoch": 0.03334829731289681,
      "grad_norm": 37.2363166809082,
      "learning_rate": 5e-06,
      "loss": 2.4356,
      "num_input_tokens_seen": 16422168,
      "step": 130
    },
    {
      "epoch": 0.03334829731289681,
      "loss": 2.5008912086486816,
      "loss_ce": 0.0067505743354558945,
      "loss_iou": 1.03125,
      "loss_num": 0.08642578125,
      "loss_xval": 2.5,
      "num_input_tokens_seen": 16422168,
      "step": 130
    },
    {
      "epoch": 0.03360482267684217,
      "grad_norm": 25.902233123779297,
      "learning_rate": 5e-06,
      "loss": 2.5929,
      "num_input_tokens_seen": 16549136,
      "step": 131
    },
    {
      "epoch": 0.03360482267684217,
      "loss": 2.5972297191619873,
      "loss_ce": 0.01129220798611641,
      "loss_iou": 1.0625,
      "loss_num": 0.09375,
      "loss_xval": 2.59375,
      "num_input_tokens_seen": 16549136,
      "step": 131
    },
    {
      "epoch": 0.03386134804078753,
      "grad_norm": 41.642578125,
      "learning_rate": 5e-06,
      "loss": 2.4405,
      "num_input_tokens_seen": 16675308,
      "step": 132
    },
    {
      "epoch": 0.03386134804078753,
      "loss": 2.3397598266601562,
      "loss_ce": 0.009681720286607742,
      "loss_iou": 0.984375,
      "loss_num": 0.07177734375,
      "loss_xval": 2.328125,
      "num_input_tokens_seen": 16675308,
      "step": 132
    },
    {
      "epoch": 0.03411787340473289,
      "grad_norm": 55.758872985839844,
      "learning_rate": 5e-06,
      "loss": 2.5283,
      "num_input_tokens_seen": 16801708,
      "step": 133
    },
    {
      "epoch": 0.03411787340473289,
      "loss": 2.5442214012145996,
      "loss_ce": 0.007112029939889908,
      "loss_iou": 1.078125,
      "loss_num": 0.07763671875,
      "loss_xval": 2.53125,
      "num_input_tokens_seen": 16801708,
      "step": 133
    },
    {
      "epoch": 0.03437439876867825,
      "grad_norm": 52.744384765625,
      "learning_rate": 5e-06,
      "loss": 2.6432,
      "num_input_tokens_seen": 16929124,
      "step": 134
    },
    {
      "epoch": 0.03437439876867825,
      "loss": 2.6460366249084473,
      "loss_ce": 0.005411533638834953,
      "loss_iou": 1.0703125,
      "loss_num": 0.0986328125,
      "loss_xval": 2.640625,
      "num_input_tokens_seen": 16929124,
      "step": 134
    },
    {
      "epoch": 0.034630924132623614,
      "grad_norm": 63.592830657958984,
      "learning_rate": 5e-06,
      "loss": 2.4053,
      "num_input_tokens_seen": 17055248,
      "step": 135
    },
    {
      "epoch": 0.034630924132623614,
      "loss": 2.4392905235290527,
      "loss_ce": 0.007649864535778761,
      "loss_iou": 1.0234375,
      "loss_num": 0.0771484375,
      "loss_xval": 2.4375,
      "num_input_tokens_seen": 17055248,
      "step": 135
    },
    {
      "epoch": 0.034887449496568974,
      "grad_norm": 43.54157257080078,
      "learning_rate": 5e-06,
      "loss": 2.7086,
      "num_input_tokens_seen": 17182404,
      "step": 136
    },
    {
      "epoch": 0.034887449496568974,
      "loss": 2.6888020038604736,
      "loss_ce": 0.005208211950957775,
      "loss_iou": 1.0859375,
      "loss_num": 0.10205078125,
      "loss_xval": 2.6875,
      "num_input_tokens_seen": 17182404,
      "step": 136
    },
    {
      "epoch": 0.035143974860514335,
      "grad_norm": 43.190006256103516,
      "learning_rate": 5e-06,
      "loss": 2.444,
      "num_input_tokens_seen": 17308708,
      "step": 137
    },
    {
      "epoch": 0.035143974860514335,
      "loss": 2.3309106826782227,
      "loss_ce": 0.006691889371722937,
      "loss_iou": 0.98828125,
      "loss_num": 0.0703125,
      "loss_xval": 2.328125,
      "num_input_tokens_seen": 17308708,
      "step": 137
    },
    {
      "epoch": 0.035400500224459695,
      "grad_norm": 37.575782775878906,
      "learning_rate": 5e-06,
      "loss": 2.4069,
      "num_input_tokens_seen": 17435260,
      "step": 138
    },
    {
      "epoch": 0.035400500224459695,
      "loss": 2.315492630004883,
      "loss_ce": 0.002992505207657814,
      "loss_iou": 0.99609375,
      "loss_num": 0.064453125,
      "loss_xval": 2.3125,
      "num_input_tokens_seen": 17435260,
      "step": 138
    },
    {
      "epoch": 0.035657025588405056,
      "grad_norm": 55.08070373535156,
      "learning_rate": 5e-06,
      "loss": 2.4393,
      "num_input_tokens_seen": 17561664,
      "step": 139
    },
    {
      "epoch": 0.035657025588405056,
      "loss": 2.3562490940093994,
      "loss_ce": 0.002733518835157156,
      "loss_iou": 1.0078125,
      "loss_num": 0.06787109375,
      "loss_xval": 2.359375,
      "num_input_tokens_seen": 17561664,
      "step": 139
    },
    {
      "epoch": 0.035913550952350416,
      "grad_norm": 46.25513458251953,
      "learning_rate": 5e-06,
      "loss": 2.5279,
      "num_input_tokens_seen": 17687720,
      "step": 140
    },
    {
      "epoch": 0.035913550952350416,
      "loss": 2.656062126159668,
      "loss_ce": 0.007624673657119274,
      "loss_iou": 1.1171875,
      "loss_num": 0.083984375,
      "loss_xval": 2.65625,
      "num_input_tokens_seen": 17687720,
      "step": 140
    },
    {
      "epoch": 0.03617007631629578,
      "grad_norm": 24.867122650146484,
      "learning_rate": 5e-06,
      "loss": 2.3909,
      "num_input_tokens_seen": 17815004,
      "step": 141
    },
    {
      "epoch": 0.03617007631629578,
      "loss": 2.4053077697753906,
      "loss_ce": 0.00491719413548708,
      "loss_iou": 0.984375,
      "loss_num": 0.0869140625,
      "loss_xval": 2.40625,
      "num_input_tokens_seen": 17815004,
      "step": 141
    },
    {
      "epoch": 0.03642660168024114,
      "grad_norm": 56.22255325317383,
      "learning_rate": 5e-06,
      "loss": 2.4203,
      "num_input_tokens_seen": 17941124,
      "step": 142
    },
    {
      "epoch": 0.03642660168024114,
      "loss": 2.6103010177612305,
      "loss_ce": 0.0067855073139071465,
      "loss_iou": 1.109375,
      "loss_num": 0.07763671875,
      "loss_xval": 2.609375,
      "num_input_tokens_seen": 17941124,
      "step": 142
    },
    {
      "epoch": 0.03668312704418649,
      "grad_norm": 45.10807418823242,
      "learning_rate": 5e-06,
      "loss": 2.681,
      "num_input_tokens_seen": 18067868,
      "step": 143
    },
    {
      "epoch": 0.03668312704418649,
      "loss": 2.650552272796631,
      "loss_ce": 0.007973975501954556,
      "loss_iou": 1.03125,
      "loss_num": 0.11376953125,
      "loss_xval": 2.640625,
      "num_input_tokens_seen": 18067868,
      "step": 143
    },
    {
      "epoch": 0.03693965240813185,
      "grad_norm": 36.432220458984375,
      "learning_rate": 5e-06,
      "loss": 2.5193,
      "num_input_tokens_seen": 18194136,
      "step": 144
    },
    {
      "epoch": 0.03693965240813185,
      "loss": 2.5107741355895996,
      "loss_ce": 0.0049149044789373875,
      "loss_iou": 1.0234375,
      "loss_num": 0.091796875,
      "loss_xval": 2.5,
      "num_input_tokens_seen": 18194136,
      "step": 144
    },
    {
      "epoch": 0.03719617777207721,
      "grad_norm": 40.214908599853516,
      "learning_rate": 5e-06,
      "loss": 2.3294,
      "num_input_tokens_seen": 18321684,
      "step": 145
    },
    {
      "epoch": 0.03719617777207721,
      "loss": 2.3017754554748535,
      "loss_ce": 0.007830099202692509,
      "loss_iou": 0.97265625,
      "loss_num": 0.06982421875,
      "loss_xval": 2.296875,
      "num_input_tokens_seen": 18321684,
      "step": 145
    },
    {
      "epoch": 0.03745270313602257,
      "grad_norm": 51.045921325683594,
      "learning_rate": 5e-06,
      "loss": 2.3483,
      "num_input_tokens_seen": 18446856,
      "step": 146
    },
    {
      "epoch": 0.03745270313602257,
      "loss": 2.31803035736084,
      "loss_ce": 0.0035773152485489845,
      "loss_iou": 0.99609375,
      "loss_num": 0.064453125,
      "loss_xval": 2.3125,
      "num_input_tokens_seen": 18446856,
      "step": 146
    },
    {
      "epoch": 0.03770922849996793,
      "grad_norm": 41.75608444213867,
      "learning_rate": 5e-06,
      "loss": 2.4412,
      "num_input_tokens_seen": 18573100,
      "step": 147
    },
    {
      "epoch": 0.03770922849996793,
      "loss": 2.3477277755737305,
      "loss_ce": 0.003977839834988117,
      "loss_iou": 1.0078125,
      "loss_num": 0.064453125,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 18573100,
      "step": 147
    },
    {
      "epoch": 0.03796575386391329,
      "grad_norm": 77.06361389160156,
      "learning_rate": 5e-06,
      "loss": 2.508,
      "num_input_tokens_seen": 18700396,
      "step": 148
    },
    {
      "epoch": 0.03796575386391329,
      "loss": 2.6103341579437256,
      "loss_ce": 0.008771702647209167,
      "loss_iou": 1.140625,
      "loss_num": 0.064453125,
      "loss_xval": 2.59375,
      "num_input_tokens_seen": 18700396,
      "step": 148
    },
    {
      "epoch": 0.03822227922785865,
      "grad_norm": 41.14444351196289,
      "learning_rate": 5e-06,
      "loss": 2.7476,
      "num_input_tokens_seen": 18826688,
      "step": 149
    },
    {
      "epoch": 0.03822227922785865,
      "loss": 2.814434766769409,
      "loss_ce": 0.015606727451086044,
      "loss_iou": 1.0703125,
      "loss_num": 0.1318359375,
      "loss_xval": 2.796875,
      "num_input_tokens_seen": 18826688,
      "step": 149
    },
    {
      "epoch": 0.038478804591804014,
      "grad_norm": 35.16160583496094,
      "learning_rate": 5e-06,
      "loss": 2.7287,
      "num_input_tokens_seen": 18952516,
      "step": 150
    },
    {
      "epoch": 0.038478804591804014,
      "loss": 2.635441541671753,
      "loss_ce": 0.006535241845995188,
      "loss_iou": 1.015625,
      "loss_num": 0.11865234375,
      "loss_xval": 2.625,
      "num_input_tokens_seen": 18952516,
      "step": 150
    },
    {
      "epoch": 0.038735329955749374,
      "grad_norm": 22.285537719726562,
      "learning_rate": 5e-06,
      "loss": 2.5743,
      "num_input_tokens_seen": 19079276,
      "step": 151
    },
    {
      "epoch": 0.038735329955749374,
      "loss": 2.5195555686950684,
      "loss_ce": 0.001977392239496112,
      "loss_iou": 1.0234375,
      "loss_num": 0.09423828125,
      "loss_xval": 2.515625,
      "num_input_tokens_seen": 19079276,
      "step": 151
    },
    {
      "epoch": 0.038991855319694735,
      "grad_norm": 30.596643447875977,
      "learning_rate": 5e-06,
      "loss": 2.3908,
      "num_input_tokens_seen": 19205692,
      "step": 152
    },
    {
      "epoch": 0.038991855319694735,
      "loss": 2.365237236022949,
      "loss_ce": 0.00781540758907795,
      "loss_iou": 0.98046875,
      "loss_num": 0.0791015625,
      "loss_xval": 2.359375,
      "num_input_tokens_seen": 19205692,
      "step": 152
    },
    {
      "epoch": 0.039248380683640095,
      "grad_norm": 45.002567291259766,
      "learning_rate": 5e-06,
      "loss": 2.351,
      "num_input_tokens_seen": 19331996,
      "step": 153
    },
    {
      "epoch": 0.039248380683640095,
      "loss": 2.374375581741333,
      "loss_ce": 0.0032818051986396313,
      "loss_iou": 1.015625,
      "loss_num": 0.06787109375,
      "loss_xval": 2.375,
      "num_input_tokens_seen": 19331996,
      "step": 153
    },
    {
      "epoch": 0.039504906047585456,
      "grad_norm": 26.576692581176758,
      "learning_rate": 5e-06,
      "loss": 2.4015,
      "num_input_tokens_seen": 19458672,
      "step": 154
    },
    {
      "epoch": 0.039504906047585456,
      "loss": 2.4497742652893066,
      "loss_ce": 0.003485127817839384,
      "loss_iou": 1.0078125,
      "loss_num": 0.0849609375,
      "loss_xval": 2.453125,
      "num_input_tokens_seen": 19458672,
      "step": 154
    },
    {
      "epoch": 0.039761431411530816,
      "grad_norm": 53.44624710083008,
      "learning_rate": 5e-06,
      "loss": 2.3983,
      "num_input_tokens_seen": 19584388,
      "step": 155
    },
    {
      "epoch": 0.039761431411530816,
      "loss": 2.3043508529663086,
      "loss_ce": 0.003569577354937792,
      "loss_iou": 1.0234375,
      "loss_num": 0.049072265625,
      "loss_xval": 2.296875,
      "num_input_tokens_seen": 19584388,
      "step": 155
    },
    {
      "epoch": 0.04001795677547618,
      "grad_norm": 49.80558395385742,
      "learning_rate": 5e-06,
      "loss": 2.5676,
      "num_input_tokens_seen": 19710324,
      "step": 156
    },
    {
      "epoch": 0.04001795677547618,
      "loss": 2.556002140045166,
      "loss_ce": 0.0052209896966814995,
      "loss_iou": 1.046875,
      "loss_num": 0.09326171875,
      "loss_xval": 2.546875,
      "num_input_tokens_seen": 19710324,
      "step": 156
    },
    {
      "epoch": 0.04027448213942154,
      "grad_norm": 29.222726821899414,
      "learning_rate": 5e-06,
      "loss": 2.3567,
      "num_input_tokens_seen": 19836852,
      "step": 157
    },
    {
      "epoch": 0.04027448213942154,
      "loss": 2.418010950088501,
      "loss_ce": 0.007854770869016647,
      "loss_iou": 0.9921875,
      "loss_num": 0.08447265625,
      "loss_xval": 2.40625,
      "num_input_tokens_seen": 19836852,
      "step": 157
    },
    {
      "epoch": 0.0405310075033669,
      "grad_norm": 104.57770538330078,
      "learning_rate": 5e-06,
      "loss": 2.4729,
      "num_input_tokens_seen": 19964468,
      "step": 158
    },
    {
      "epoch": 0.0405310075033669,
      "loss": 2.5433290004730225,
      "loss_ce": 0.00426642969250679,
      "loss_iou": 1.1328125,
      "loss_num": 0.05615234375,
      "loss_xval": 2.53125,
      "num_input_tokens_seen": 19964468,
      "step": 158
    },
    {
      "epoch": 0.04078753286731226,
      "grad_norm": 35.59853744506836,
      "learning_rate": 5e-06,
      "loss": 2.7104,
      "num_input_tokens_seen": 20091148,
      "step": 159
    },
    {
      "epoch": 0.04078753286731226,
      "loss": 2.811880588531494,
      "loss_ce": 0.0032869181595742702,
      "loss_iou": 1.0859375,
      "loss_num": 0.126953125,
      "loss_xval": 2.8125,
      "num_input_tokens_seen": 20091148,
      "step": 159
    },
    {
      "epoch": 0.04104405823125762,
      "grad_norm": 27.2836856842041,
      "learning_rate": 5e-06,
      "loss": 2.6683,
      "num_input_tokens_seen": 20217292,
      "step": 160
    },
    {
      "epoch": 0.04104405823125762,
      "loss": 2.718921661376953,
      "loss_ce": 0.0079840999096632,
      "loss_iou": 1.0546875,
      "loss_num": 0.1201171875,
      "loss_xval": 2.71875,
      "num_input_tokens_seen": 20217292,
      "step": 160
    },
    {
      "epoch": 0.04130058359520298,
      "grad_norm": 24.627878189086914,
      "learning_rate": 5e-06,
      "loss": 2.531,
      "num_input_tokens_seen": 20343688,
      "step": 161
    },
    {
      "epoch": 0.04130058359520298,
      "loss": 2.4754457473754883,
      "loss_ce": 0.006695803254842758,
      "loss_iou": 0.984375,
      "loss_num": 0.09912109375,
      "loss_xval": 2.46875,
      "num_input_tokens_seen": 20343688,
      "step": 161
    },
    {
      "epoch": 0.04155710895914833,
      "grad_norm": 27.000904083251953,
      "learning_rate": 5e-06,
      "loss": 2.4639,
      "num_input_tokens_seen": 20470492,
      "step": 162
    },
    {
      "epoch": 0.04155710895914833,
      "loss": 2.476573944091797,
      "loss_ce": 0.007824004627764225,
      "loss_iou": 1.015625,
      "loss_num": 0.08740234375,
      "loss_xval": 2.46875,
      "num_input_tokens_seen": 20470492,
      "step": 162
    },
    {
      "epoch": 0.04181363432309369,
      "grad_norm": 31.578752517700195,
      "learning_rate": 5e-06,
      "loss": 2.4406,
      "num_input_tokens_seen": 20596460,
      "step": 163
    },
    {
      "epoch": 0.04181363432309369,
      "loss": 2.342241048812866,
      "loss_ce": 0.0043504973873496056,
      "loss_iou": 0.9765625,
      "loss_num": 0.0771484375,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 20596460,
      "step": 163
    },
    {
      "epoch": 0.04207015968703905,
      "grad_norm": 27.698179244995117,
      "learning_rate": 5e-06,
      "loss": 2.3545,
      "num_input_tokens_seen": 20723124,
      "step": 164
    },
    {
      "epoch": 0.04207015968703905,
      "loss": 2.4864532947540283,
      "loss_ce": 0.009890913963317871,
      "loss_iou": 1.03125,
      "loss_num": 0.08447265625,
      "loss_xval": 2.46875,
      "num_input_tokens_seen": 20723124,
      "step": 164
    },
    {
      "epoch": 0.042326685050984414,
      "grad_norm": 69.10855865478516,
      "learning_rate": 5e-06,
      "loss": 2.4006,
      "num_input_tokens_seen": 20849976,
      "step": 165
    },
    {
      "epoch": 0.042326685050984414,
      "loss": 2.431546211242676,
      "loss_ce": 0.005765097681432962,
      "loss_iou": 1.0703125,
      "loss_num": 0.05859375,
      "loss_xval": 2.421875,
      "num_input_tokens_seen": 20849976,
      "step": 165
    },
    {
      "epoch": 0.042583210414929774,
      "grad_norm": 34.0660514831543,
      "learning_rate": 5e-06,
      "loss": 2.6259,
      "num_input_tokens_seen": 20977868,
      "step": 166
    },
    {
      "epoch": 0.042583210414929774,
      "loss": 2.6786484718322754,
      "loss_ce": 0.004820517264306545,
      "loss_iou": 1.0625,
      "loss_num": 0.10791015625,
      "loss_xval": 2.671875,
      "num_input_tokens_seen": 20977868,
      "step": 166
    },
    {
      "epoch": 0.042839735778875135,
      "grad_norm": 27.81917953491211,
      "learning_rate": 5e-06,
      "loss": 2.5062,
      "num_input_tokens_seen": 21104164,
      "step": 167
    },
    {
      "epoch": 0.042839735778875135,
      "loss": 2.4329450130462646,
      "loss_ce": 0.007163737900555134,
      "loss_iou": 0.98828125,
      "loss_num": 0.08984375,
      "loss_xval": 2.421875,
      "num_input_tokens_seen": 21104164,
      "step": 167
    },
    {
      "epoch": 0.043096261142820495,
      "grad_norm": 42.72616195678711,
      "learning_rate": 5e-06,
      "loss": 2.4879,
      "num_input_tokens_seen": 21230136,
      "step": 168
    },
    {
      "epoch": 0.043096261142820495,
      "loss": 2.4784064292907715,
      "loss_ce": 0.003797078737989068,
      "loss_iou": 1.0078125,
      "loss_num": 0.0908203125,
      "loss_xval": 2.46875,
      "num_input_tokens_seen": 21230136,
      "step": 168
    },
    {
      "epoch": 0.043352786506765856,
      "grad_norm": 29.40851593017578,
      "learning_rate": 5e-06,
      "loss": 2.3245,
      "num_input_tokens_seen": 21356484,
      "step": 169
    },
    {
      "epoch": 0.043352786506765856,
      "loss": 2.3569984436035156,
      "loss_ce": 0.003482839558273554,
      "loss_iou": 0.9921875,
      "loss_num": 0.0732421875,
      "loss_xval": 2.359375,
      "num_input_tokens_seen": 21356484,
      "step": 169
    },
    {
      "epoch": 0.043609311870711216,
      "grad_norm": 49.04379653930664,
      "learning_rate": 5e-06,
      "loss": 2.4124,
      "num_input_tokens_seen": 21482376,
      "step": 170
    },
    {
      "epoch": 0.043609311870711216,
      "loss": 2.2562036514282227,
      "loss_ce": 0.002297324826940894,
      "loss_iou": 0.9921875,
      "loss_num": 0.053955078125,
      "loss_xval": 2.25,
      "num_input_tokens_seen": 21482376,
      "step": 170
    },
    {
      "epoch": 0.04386583723465658,
      "grad_norm": 44.504146575927734,
      "learning_rate": 5e-06,
      "loss": 2.4539,
      "num_input_tokens_seen": 21608092,
      "step": 171
    },
    {
      "epoch": 0.04386583723465658,
      "loss": 2.4906818866729736,
      "loss_ce": 0.003377090208232403,
      "loss_iou": 1.0546875,
      "loss_num": 0.0751953125,
      "loss_xval": 2.484375,
      "num_input_tokens_seen": 21608092,
      "step": 171
    },
    {
      "epoch": 0.04412236259860194,
      "grad_norm": 37.75178909301758,
      "learning_rate": 5e-06,
      "loss": 2.4313,
      "num_input_tokens_seen": 21734660,
      "step": 172
    },
    {
      "epoch": 0.04412236259860194,
      "loss": 2.3544721603393555,
      "loss_ce": 0.004862620495259762,
      "loss_iou": 1.0,
      "loss_num": 0.068359375,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 21734660,
      "step": 172
    },
    {
      "epoch": 0.0443788879625473,
      "grad_norm": 65.47736358642578,
      "learning_rate": 5e-06,
      "loss": 2.3955,
      "num_input_tokens_seen": 21861688,
      "step": 173
    },
    {
      "epoch": 0.0443788879625473,
      "loss": 2.2382354736328125,
      "loss_ce": 0.001907255849801004,
      "loss_iou": 1.0078125,
      "loss_num": 0.045166015625,
      "loss_xval": 2.234375,
      "num_input_tokens_seen": 21861688,
      "step": 173
    },
    {
      "epoch": 0.04463541332649266,
      "grad_norm": 34.77819061279297,
      "learning_rate": 5e-06,
      "loss": 2.6578,
      "num_input_tokens_seen": 21988696,
      "step": 174
    },
    {
      "epoch": 0.04463541332649266,
      "loss": 2.6666500568389893,
      "loss_ce": 0.006493799388408661,
      "loss_iou": 1.0625,
      "loss_num": 0.10693359375,
      "loss_xval": 2.65625,
      "num_input_tokens_seen": 21988696,
      "step": 174
    },
    {
      "epoch": 0.04489193869043802,
      "grad_norm": 28.620773315429688,
      "learning_rate": 5e-06,
      "loss": 2.492,
      "num_input_tokens_seen": 22113460,
      "step": 175
    },
    {
      "epoch": 0.04489193869043802,
      "loss": 2.4219255447387695,
      "loss_ce": 0.007862861268222332,
      "loss_iou": 0.984375,
      "loss_num": 0.08984375,
      "loss_xval": 2.40625,
      "num_input_tokens_seen": 22113460,
      "step": 175
    },
    {
      "epoch": 0.04514846405438338,
      "grad_norm": 26.363733291625977,
      "learning_rate": 5e-06,
      "loss": 2.2947,
      "num_input_tokens_seen": 22239964,
      "step": 176
    },
    {
      "epoch": 0.04514846405438338,
      "loss": 2.2069625854492188,
      "loss_ce": 0.006767282262444496,
      "loss_iou": 0.9296875,
      "loss_num": 0.0673828125,
      "loss_xval": 2.203125,
      "num_input_tokens_seen": 22239964,
      "step": 176
    },
    {
      "epoch": 0.04540498941832874,
      "grad_norm": 74.30191040039062,
      "learning_rate": 5e-06,
      "loss": 2.3601,
      "num_input_tokens_seen": 22366812,
      "step": 177
    },
    {
      "epoch": 0.04540498941832874,
      "loss": 2.301196575164795,
      "loss_ce": 0.0023684795014560223,
      "loss_iou": 1.03125,
      "loss_num": 0.046630859375,
      "loss_xval": 2.296875,
      "num_input_tokens_seen": 22366812,
      "step": 177
    },
    {
      "epoch": 0.0456615147822741,
      "grad_norm": 27.58796501159668,
      "learning_rate": 5e-06,
      "loss": 2.5907,
      "num_input_tokens_seen": 22491376,
      "step": 178
    },
    {
      "epoch": 0.0456615147822741,
      "loss": 2.649542808532715,
      "loss_ce": 0.0108711002394557,
      "loss_iou": 1.0390625,
      "loss_num": 0.11279296875,
      "loss_xval": 2.640625,
      "num_input_tokens_seen": 22491376,
      "step": 178
    },
    {
      "epoch": 0.04591804014621946,
      "grad_norm": 24.595365524291992,
      "learning_rate": 5e-06,
      "loss": 2.5772,
      "num_input_tokens_seen": 22617448,
      "step": 179
    },
    {
      "epoch": 0.04591804014621946,
      "loss": 2.5798187255859375,
      "loss_ce": 0.0016937287291511893,
      "loss_iou": 1.0234375,
      "loss_num": 0.10595703125,
      "loss_xval": 2.578125,
      "num_input_tokens_seen": 22617448,
      "step": 179
    },
    {
      "epoch": 0.04617456551016482,
      "grad_norm": 17.898094177246094,
      "learning_rate": 5e-06,
      "loss": 2.4786,
      "num_input_tokens_seen": 22743636,
      "step": 180
    },
    {
      "epoch": 0.04617456551016482,
      "loss": 2.521125316619873,
      "loss_ce": 0.0035472132731229067,
      "loss_iou": 1.0234375,
      "loss_num": 0.09423828125,
      "loss_xval": 2.515625,
      "num_input_tokens_seen": 22743636,
      "step": 180
    },
    {
      "epoch": 0.046431090874110174,
      "grad_norm": 23.574811935424805,
      "learning_rate": 5e-06,
      "loss": 2.2385,
      "num_input_tokens_seen": 22871184,
      "step": 181
    },
    {
      "epoch": 0.046431090874110174,
      "loss": 2.221139430999756,
      "loss_ce": 0.0023894598707556725,
      "loss_iou": 0.9609375,
      "loss_num": 0.06005859375,
      "loss_xval": 2.21875,
      "num_input_tokens_seen": 22871184,
      "step": 181
    },
    {
      "epoch": 0.046687616238055535,
      "grad_norm": 82.54412078857422,
      "learning_rate": 5e-06,
      "loss": 2.3534,
      "num_input_tokens_seen": 22997352,
      "step": 182
    },
    {
      "epoch": 0.046687616238055535,
      "loss": 2.332087755203247,
      "loss_ce": 0.0020096718799322844,
      "loss_iou": 1.0390625,
      "loss_num": 0.05126953125,
      "loss_xval": 2.328125,
      "num_input_tokens_seen": 22997352,
      "step": 182
    },
    {
      "epoch": 0.046944141602000895,
      "grad_norm": 33.71228790283203,
      "learning_rate": 5e-06,
      "loss": 2.4805,
      "num_input_tokens_seen": 23123184,
      "step": 183
    },
    {
      "epoch": 0.046944141602000895,
      "loss": 2.445564031600952,
      "loss_ce": 0.008064089342951775,
      "loss_iou": 1.0078125,
      "loss_num": 0.08349609375,
      "loss_xval": 2.4375,
      "num_input_tokens_seen": 23123184,
      "step": 183
    },
    {
      "epoch": 0.047200666965946256,
      "grad_norm": 24.10027313232422,
      "learning_rate": 5e-06,
      "loss": 2.3772,
      "num_input_tokens_seen": 23248520,
      "step": 184
    },
    {
      "epoch": 0.047200666965946256,
      "loss": 2.32912540435791,
      "loss_ce": 0.00295360223390162,
      "loss_iou": 0.984375,
      "loss_num": 0.0712890625,
      "loss_xval": 2.328125,
      "num_input_tokens_seen": 23248520,
      "step": 184
    },
    {
      "epoch": 0.047457192329891616,
      "grad_norm": 30.000547409057617,
      "learning_rate": 5e-06,
      "loss": 2.2428,
      "num_input_tokens_seen": 23373784,
      "step": 185
    },
    {
      "epoch": 0.047457192329891616,
      "loss": 2.141679525375366,
      "loss_ce": 0.0020311579573899508,
      "loss_iou": 0.9375,
      "loss_num": 0.05322265625,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 23373784,
      "step": 185
    },
    {
      "epoch": 0.04771371769383698,
      "grad_norm": 42.21815872192383,
      "learning_rate": 5e-06,
      "loss": 2.348,
      "num_input_tokens_seen": 23500384,
      "step": 186
    },
    {
      "epoch": 0.04771371769383698,
      "loss": 2.349303722381592,
      "loss_ce": 0.004577181302011013,
      "loss_iou": 1.0234375,
      "loss_num": 0.06103515625,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 23500384,
      "step": 186
    },
    {
      "epoch": 0.04797024305778234,
      "grad_norm": 49.43733596801758,
      "learning_rate": 5e-06,
      "loss": 2.49,
      "num_input_tokens_seen": 23626212,
      "step": 187
    },
    {
      "epoch": 0.04797024305778234,
      "loss": 2.4142708778381348,
      "loss_ce": 0.005091257393360138,
      "loss_iou": 1.046875,
      "loss_num": 0.064453125,
      "loss_xval": 2.40625,
      "num_input_tokens_seen": 23626212,
      "step": 187
    },
    {
      "epoch": 0.0482267684217277,
      "grad_norm": 64.23003387451172,
      "learning_rate": 5e-06,
      "loss": 2.3082,
      "num_input_tokens_seen": 23752828,
      "step": 188
    },
    {
      "epoch": 0.0482267684217277,
      "loss": 2.2004072666168213,
      "loss_ce": 0.0021651112474501133,
      "loss_iou": 0.9765625,
      "loss_num": 0.04931640625,
      "loss_xval": 2.203125,
      "num_input_tokens_seen": 23752828,
      "step": 188
    },
    {
      "epoch": 0.04848329378567306,
      "grad_norm": 51.99241638183594,
      "learning_rate": 5e-06,
      "loss": 2.4372,
      "num_input_tokens_seen": 23878668,
      "step": 189
    },
    {
      "epoch": 0.04848329378567306,
      "loss": 2.38288950920105,
      "loss_ce": 0.003983333706855774,
      "loss_iou": 1.0234375,
      "loss_num": 0.068359375,
      "loss_xval": 2.375,
      "num_input_tokens_seen": 23878668,
      "step": 189
    },
    {
      "epoch": 0.04873981914961842,
      "grad_norm": 27.47298240661621,
      "learning_rate": 5e-06,
      "loss": 2.325,
      "num_input_tokens_seen": 24005520,
      "step": 190
    },
    {
      "epoch": 0.04873981914961842,
      "loss": 2.2082619667053223,
      "loss_ce": 0.0031840167939662933,
      "loss_iou": 0.953125,
      "loss_num": 0.059814453125,
      "loss_xval": 2.203125,
      "num_input_tokens_seen": 24005520,
      "step": 190
    },
    {
      "epoch": 0.04899634451356378,
      "grad_norm": 45.163719177246094,
      "learning_rate": 5e-06,
      "loss": 2.1703,
      "num_input_tokens_seen": 24130628,
      "step": 191
    },
    {
      "epoch": 0.04899634451356378,
      "loss": 2.137056827545166,
      "loss_ce": 0.0032677161507308483,
      "loss_iou": 0.9375,
      "loss_num": 0.051513671875,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 24130628,
      "step": 191
    },
    {
      "epoch": 0.04925286987750914,
      "grad_norm": 36.66967010498047,
      "learning_rate": 5e-06,
      "loss": 2.1986,
      "num_input_tokens_seen": 24256348,
      "step": 192
    },
    {
      "epoch": 0.04925286987750914,
      "loss": 2.207369804382324,
      "loss_ce": 0.009127775207161903,
      "loss_iou": 0.92578125,
      "loss_num": 0.06884765625,
      "loss_xval": 2.203125,
      "num_input_tokens_seen": 24256348,
      "step": 192
    },
    {
      "epoch": 0.0495093952414545,
      "grad_norm": 68.89830017089844,
      "learning_rate": 5e-06,
      "loss": 2.4151,
      "num_input_tokens_seen": 24382740,
      "step": 193
    },
    {
      "epoch": 0.0495093952414545,
      "loss": 2.555818796157837,
      "loss_ce": 0.005037633702158928,
      "loss_iou": 1.125,
      "loss_num": 0.06103515625,
      "loss_xval": 2.546875,
      "num_input_tokens_seen": 24382740,
      "step": 193
    },
    {
      "epoch": 0.04976592060539986,
      "grad_norm": 31.592695236206055,
      "learning_rate": 5e-06,
      "loss": 2.5983,
      "num_input_tokens_seen": 24509012,
      "step": 194
    },
    {
      "epoch": 0.04976592060539986,
      "loss": 2.5728516578674316,
      "loss_ce": 0.006445457227528095,
      "loss_iou": 1.0390625,
      "loss_num": 0.09765625,
      "loss_xval": 2.5625,
      "num_input_tokens_seen": 24509012,
      "step": 194
    },
    {
      "epoch": 0.05002244596934522,
      "grad_norm": 28.23805809020996,
      "learning_rate": 5e-06,
      "loss": 2.4319,
      "num_input_tokens_seen": 24635532,
      "step": 195
    },
    {
      "epoch": 0.05002244596934522,
      "loss": 2.311415195465088,
      "loss_ce": 0.0008684303611516953,
      "loss_iou": 0.96484375,
      "loss_num": 0.07666015625,
      "loss_xval": 2.3125,
      "num_input_tokens_seen": 24635532,
      "step": 195
    },
    {
      "epoch": 0.05027897133329058,
      "grad_norm": 27.062164306640625,
      "learning_rate": 5e-06,
      "loss": 2.3428,
      "num_input_tokens_seen": 24761112,
      "step": 196
    },
    {
      "epoch": 0.05027897133329058,
      "loss": 2.257509231567383,
      "loss_ce": 0.0036028530448675156,
      "loss_iou": 0.96875,
      "loss_num": 0.0634765625,
      "loss_xval": 2.25,
      "num_input_tokens_seen": 24761112,
      "step": 196
    },
    {
      "epoch": 0.05053549669723594,
      "grad_norm": 43.7282829284668,
      "learning_rate": 5e-06,
      "loss": 2.2594,
      "num_input_tokens_seen": 24888080,
      "step": 197
    },
    {
      "epoch": 0.05053549669723594,
      "loss": 2.1552748680114746,
      "loss_ce": 0.003907795064151287,
      "loss_iou": 0.9296875,
      "loss_num": 0.059326171875,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 24888080,
      "step": 197
    },
    {
      "epoch": 0.0507920220611813,
      "grad_norm": 43.773223876953125,
      "learning_rate": 5e-06,
      "loss": 2.3791,
      "num_input_tokens_seen": 25015048,
      "step": 198
    },
    {
      "epoch": 0.0507920220611813,
      "loss": 2.2641029357910156,
      "loss_ce": 0.007266967091709375,
      "loss_iou": 0.984375,
      "loss_num": 0.05712890625,
      "loss_xval": 2.25,
      "num_input_tokens_seen": 25015048,
      "step": 198
    },
    {
      "epoch": 0.05104854742512666,
      "grad_norm": 43.72599411010742,
      "learning_rate": 5e-06,
      "loss": 2.2514,
      "num_input_tokens_seen": 25140724,
      "step": 199
    },
    {
      "epoch": 0.05104854742512666,
      "loss": 2.084597110748291,
      "loss_ce": 0.001589204533956945,
      "loss_iou": 0.9140625,
      "loss_num": 0.051025390625,
      "loss_xval": 2.078125,
      "num_input_tokens_seen": 25140724,
      "step": 199
    },
    {
      "epoch": 0.051305072789072016,
      "grad_norm": 54.65023422241211,
      "learning_rate": 5e-06,
      "loss": 2.2309,
      "num_input_tokens_seen": 25266656,
      "step": 200
    },
    {
      "epoch": 0.051305072789072016,
      "loss": 2.1164309978485107,
      "loss_ce": 0.006079402752220631,
      "loss_iou": 0.94921875,
      "loss_num": 0.041259765625,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 25266656,
      "step": 200
    },
    {
      "epoch": 0.05156159815301738,
      "grad_norm": 46.44731903076172,
      "learning_rate": 5e-06,
      "loss": 2.4071,
      "num_input_tokens_seen": 25392340,
      "step": 201
    },
    {
      "epoch": 0.05156159815301738,
      "loss": 2.3556690216064453,
      "loss_ce": 0.004106595646589994,
      "loss_iou": 0.99609375,
      "loss_num": 0.0712890625,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 25392340,
      "step": 201
    },
    {
      "epoch": 0.05181812351696274,
      "grad_norm": 30.223947525024414,
      "learning_rate": 5e-06,
      "loss": 2.2721,
      "num_input_tokens_seen": 25519364,
      "step": 202
    },
    {
      "epoch": 0.05181812351696274,
      "loss": 2.3477423191070557,
      "loss_ce": 0.00789845734834671,
      "loss_iou": 1.0,
      "loss_num": 0.06787109375,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 25519364,
      "step": 202
    },
    {
      "epoch": 0.0520746488809081,
      "grad_norm": 37.88806915283203,
      "learning_rate": 5e-06,
      "loss": 2.1818,
      "num_input_tokens_seen": 25645008,
      "step": 203
    },
    {
      "epoch": 0.0520746488809081,
      "loss": 2.2638063430786133,
      "loss_ce": 0.008923721499741077,
      "loss_iou": 0.9921875,
      "loss_num": 0.054443359375,
      "loss_xval": 2.25,
      "num_input_tokens_seen": 25645008,
      "step": 203
    },
    {
      "epoch": 0.05233117424485346,
      "grad_norm": 55.52022171020508,
      "learning_rate": 5e-06,
      "loss": 2.2548,
      "num_input_tokens_seen": 25773172,
      "step": 204
    },
    {
      "epoch": 0.05233117424485346,
      "loss": 2.2850098609924316,
      "loss_ce": 0.0057130418717861176,
      "loss_iou": 1.0,
      "loss_num": 0.056396484375,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 25773172,
      "step": 204
    },
    {
      "epoch": 0.05258769960879882,
      "grad_norm": 43.69260025024414,
      "learning_rate": 5e-06,
      "loss": 2.4098,
      "num_input_tokens_seen": 25899220,
      "step": 205
    },
    {
      "epoch": 0.05258769960879882,
      "loss": 2.3387224674224854,
      "loss_ce": 0.0027849748730659485,
      "loss_iou": 1.0078125,
      "loss_num": 0.064453125,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 25899220,
      "step": 205
    },
    {
      "epoch": 0.05284422497274418,
      "grad_norm": 49.544219970703125,
      "learning_rate": 5e-06,
      "loss": 2.3777,
      "num_input_tokens_seen": 26026028,
      "step": 206
    },
    {
      "epoch": 0.05284422497274418,
      "loss": 2.5157861709594727,
      "loss_ce": 0.00406761234626174,
      "loss_iou": 1.0625,
      "loss_num": 0.07666015625,
      "loss_xval": 2.515625,
      "num_input_tokens_seen": 26026028,
      "step": 206
    },
    {
      "epoch": 0.05310075033668954,
      "grad_norm": 36.33229446411133,
      "learning_rate": 5e-06,
      "loss": 2.4065,
      "num_input_tokens_seen": 26153032,
      "step": 207
    },
    {
      "epoch": 0.05310075033668954,
      "loss": 2.347304344177246,
      "loss_ce": 0.003554383059963584,
      "loss_iou": 0.984375,
      "loss_num": 0.0751953125,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 26153032,
      "step": 207
    },
    {
      "epoch": 0.0533572757006349,
      "grad_norm": 40.57438278198242,
      "learning_rate": 5e-06,
      "loss": 2.1256,
      "num_input_tokens_seen": 26279780,
      "step": 208
    },
    {
      "epoch": 0.0533572757006349,
      "loss": 2.0592567920684814,
      "loss_ce": 0.006522357929497957,
      "loss_iou": 0.89453125,
      "loss_num": 0.052734375,
      "loss_xval": 2.046875,
      "num_input_tokens_seen": 26279780,
      "step": 208
    },
    {
      "epoch": 0.05361380106458026,
      "grad_norm": 37.91270065307617,
      "learning_rate": 5e-06,
      "loss": 2.109,
      "num_input_tokens_seen": 26406588,
      "step": 209
    },
    {
      "epoch": 0.05361380106458026,
      "loss": 2.1153314113616943,
      "loss_ce": 0.0020501683466136456,
      "loss_iou": 0.93359375,
      "loss_num": 0.0498046875,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 26406588,
      "step": 209
    },
    {
      "epoch": 0.05387032642852562,
      "grad_norm": 54.453285217285156,
      "learning_rate": 5e-06,
      "loss": 2.1622,
      "num_input_tokens_seen": 26532224,
      "step": 210
    },
    {
      "epoch": 0.05387032642852562,
      "loss": 2.2607522010803223,
      "loss_ce": 0.0039160954765975475,
      "loss_iou": 0.9921875,
      "loss_num": 0.05419921875,
      "loss_xval": 2.25,
      "num_input_tokens_seen": 26532224,
      "step": 210
    },
    {
      "epoch": 0.05412685179247098,
      "grad_norm": 69.34442138671875,
      "learning_rate": 5e-06,
      "loss": 2.2691,
      "num_input_tokens_seen": 26658672,
      "step": 211
    },
    {
      "epoch": 0.05412685179247098,
      "loss": 2.2887065410614014,
      "loss_ce": 0.0035504265688359737,
      "loss_iou": 1.0234375,
      "loss_num": 0.046630859375,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 26658672,
      "step": 211
    },
    {
      "epoch": 0.05438337715641634,
      "grad_norm": 29.19058609008789,
      "learning_rate": 5e-06,
      "loss": 2.3397,
      "num_input_tokens_seen": 26786108,
      "step": 212
    },
    {
      "epoch": 0.05438337715641634,
      "loss": 2.410947799682617,
      "loss_ce": 0.006651013158261776,
      "loss_iou": 1.0078125,
      "loss_num": 0.076171875,
      "loss_xval": 2.40625,
      "num_input_tokens_seen": 26786108,
      "step": 212
    },
    {
      "epoch": 0.0546399025203617,
      "grad_norm": 71.75,
      "learning_rate": 5e-06,
      "loss": 2.3114,
      "num_input_tokens_seen": 26912496,
      "step": 213
    },
    {
      "epoch": 0.0546399025203617,
      "loss": 2.317553997039795,
      "loss_ce": 0.0031007302459329367,
      "loss_iou": 1.0078125,
      "loss_num": 0.06005859375,
      "loss_xval": 2.3125,
      "num_input_tokens_seen": 26912496,
      "step": 213
    },
    {
      "epoch": 0.05489642788430706,
      "grad_norm": 33.20786666870117,
      "learning_rate": 5e-06,
      "loss": 2.4252,
      "num_input_tokens_seen": 27039116,
      "step": 214
    },
    {
      "epoch": 0.05489642788430706,
      "loss": 2.3874313831329346,
      "loss_ce": 0.004618733190000057,
      "loss_iou": 1.0078125,
      "loss_num": 0.072265625,
      "loss_xval": 2.375,
      "num_input_tokens_seen": 27039116,
      "step": 214
    },
    {
      "epoch": 0.05515295324825242,
      "grad_norm": 33.257835388183594,
      "learning_rate": 5e-06,
      "loss": 2.1667,
      "num_input_tokens_seen": 27164500,
      "step": 215
    },
    {
      "epoch": 0.05515295324825242,
      "loss": 2.2310214042663574,
      "loss_ce": 0.0034822672605514526,
      "loss_iou": 0.9609375,
      "loss_num": 0.06103515625,
      "loss_xval": 2.234375,
      "num_input_tokens_seen": 27164500,
      "step": 215
    },
    {
      "epoch": 0.055409478612197784,
      "grad_norm": 47.59571075439453,
      "learning_rate": 5e-06,
      "loss": 2.2111,
      "num_input_tokens_seen": 27290612,
      "step": 216
    },
    {
      "epoch": 0.055409478612197784,
      "loss": 2.1596269607543945,
      "loss_ce": 0.004353295546025038,
      "loss_iou": 0.94921875,
      "loss_num": 0.05078125,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 27290612,
      "step": 216
    },
    {
      "epoch": 0.055666003976143144,
      "grad_norm": 83.97514343261719,
      "learning_rate": 5e-06,
      "loss": 2.5174,
      "num_input_tokens_seen": 27417140,
      "step": 217
    },
    {
      "epoch": 0.055666003976143144,
      "loss": 2.6816954612731934,
      "loss_ce": 0.003960899077355862,
      "loss_iou": 1.234375,
      "loss_num": 0.043212890625,
      "loss_xval": 2.671875,
      "num_input_tokens_seen": 27417140,
      "step": 217
    },
    {
      "epoch": 0.055922529340088505,
      "grad_norm": 28.211091995239258,
      "learning_rate": 5e-06,
      "loss": 2.517,
      "num_input_tokens_seen": 27543880,
      "step": 218
    },
    {
      "epoch": 0.055922529340088505,
      "loss": 2.7044153213500977,
      "loss_ce": 0.00714997248724103,
      "loss_iou": 1.078125,
      "loss_num": 0.107421875,
      "loss_xval": 2.703125,
      "num_input_tokens_seen": 27543880,
      "step": 218
    },
    {
      "epoch": 0.05617905470403386,
      "grad_norm": 22.145076751708984,
      "learning_rate": 5e-06,
      "loss": 2.4415,
      "num_input_tokens_seen": 27669900,
      "step": 219
    },
    {
      "epoch": 0.05617905470403386,
      "loss": 2.4448721408843994,
      "loss_ce": 0.007372183725237846,
      "loss_iou": 0.9921875,
      "loss_num": 0.0908203125,
      "loss_xval": 2.4375,
      "num_input_tokens_seen": 27669900,
      "step": 219
    },
    {
      "epoch": 0.05643558006797922,
      "grad_norm": 23.535663604736328,
      "learning_rate": 5e-06,
      "loss": 2.3391,
      "num_input_tokens_seen": 27795928,
      "step": 220
    },
    {
      "epoch": 0.05643558006797922,
      "loss": 2.42863130569458,
      "loss_ce": 0.0048032496124506,
      "loss_iou": 0.9921875,
      "loss_num": 0.087890625,
      "loss_xval": 2.421875,
      "num_input_tokens_seen": 27795928,
      "step": 220
    },
    {
      "epoch": 0.05669210543192458,
      "grad_norm": 24.6494197845459,
      "learning_rate": 5e-06,
      "loss": 2.1946,
      "num_input_tokens_seen": 27922684,
      "step": 221
    },
    {
      "epoch": 0.05669210543192458,
      "loss": 2.306547164916992,
      "loss_ce": 0.006742406636476517,
      "loss_iou": 0.96875,
      "loss_num": 0.07275390625,
      "loss_xval": 2.296875,
      "num_input_tokens_seen": 27922684,
      "step": 221
    },
    {
      "epoch": 0.05694863079586994,
      "grad_norm": 18.592491149902344,
      "learning_rate": 5e-06,
      "loss": 2.0691,
      "num_input_tokens_seen": 28048640,
      "step": 222
    },
    {
      "epoch": 0.05694863079586994,
      "loss": 2.035184383392334,
      "loss_ce": 0.003934322390705347,
      "loss_iou": 0.8984375,
      "loss_num": 0.046875,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 28048640,
      "step": 222
    },
    {
      "epoch": 0.0572051561598153,
      "grad_norm": 68.20878601074219,
      "learning_rate": 5e-06,
      "loss": 2.0987,
      "num_input_tokens_seen": 28174600,
      "step": 223
    },
    {
      "epoch": 0.0572051561598153,
      "loss": 1.956531286239624,
      "loss_ce": 0.0024296902120113373,
      "loss_iou": 0.88671875,
      "loss_num": 0.03564453125,
      "loss_xval": 1.953125,
      "num_input_tokens_seen": 28174600,
      "step": 223
    },
    {
      "epoch": 0.05746168152376066,
      "grad_norm": 37.80804443359375,
      "learning_rate": 5e-06,
      "loss": 2.3448,
      "num_input_tokens_seen": 28300520,
      "step": 224
    },
    {
      "epoch": 0.05746168152376066,
      "loss": 2.289793014526367,
      "loss_ce": 0.006589930504560471,
      "loss_iou": 0.98828125,
      "loss_num": 0.0625,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 28300520,
      "step": 224
    },
    {
      "epoch": 0.05771820688770602,
      "grad_norm": 29.906721115112305,
      "learning_rate": 5e-06,
      "loss": 2.1799,
      "num_input_tokens_seen": 28427104,
      "step": 225
    },
    {
      "epoch": 0.05771820688770602,
      "loss": 2.266775369644165,
      "loss_ce": 0.0021270280703902245,
      "loss_iou": 0.984375,
      "loss_num": 0.05908203125,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 28427104,
      "step": 225
    },
    {
      "epoch": 0.05797473225165138,
      "grad_norm": 64.59516143798828,
      "learning_rate": 5e-06,
      "loss": 2.2515,
      "num_input_tokens_seen": 28553072,
      "step": 226
    },
    {
      "epoch": 0.05797473225165138,
      "loss": 2.2763028144836426,
      "loss_ce": 0.003841772209852934,
      "loss_iou": 1.015625,
      "loss_num": 0.047119140625,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 28553072,
      "step": 226
    },
    {
      "epoch": 0.05823125761559674,
      "grad_norm": 30.437808990478516,
      "learning_rate": 5e-06,
      "loss": 2.5057,
      "num_input_tokens_seen": 28679832,
      "step": 227
    },
    {
      "epoch": 0.05823125761559674,
      "loss": 2.5206711292266846,
      "loss_ce": 0.0030930291395634413,
      "loss_iou": 1.0546875,
      "loss_num": 0.08154296875,
      "loss_xval": 2.515625,
      "num_input_tokens_seen": 28679832,
      "step": 227
    },
    {
      "epoch": 0.0584877829795421,
      "grad_norm": 30.77609634399414,
      "learning_rate": 5e-06,
      "loss": 2.4246,
      "num_input_tokens_seen": 28805772,
      "step": 228
    },
    {
      "epoch": 0.0584877829795421,
      "loss": 2.3782191276550293,
      "loss_ce": 0.005172381177544594,
      "loss_iou": 1.0078125,
      "loss_num": 0.0712890625,
      "loss_xval": 2.375,
      "num_input_tokens_seen": 28805772,
      "step": 228
    },
    {
      "epoch": 0.05874430834348746,
      "grad_norm": 53.74028396606445,
      "learning_rate": 5e-06,
      "loss": 2.097,
      "num_input_tokens_seen": 28932780,
      "step": 229
    },
    {
      "epoch": 0.05874430834348746,
      "loss": 1.9517161846160889,
      "loss_ce": 0.0015208933036774397,
      "loss_iou": 0.859375,
      "loss_num": 0.04541015625,
      "loss_xval": 1.953125,
      "num_input_tokens_seen": 28932780,
      "step": 229
    },
    {
      "epoch": 0.05900083370743282,
      "grad_norm": 32.93329620361328,
      "learning_rate": 5e-06,
      "loss": 2.1493,
      "num_input_tokens_seen": 29059376,
      "step": 230
    },
    {
      "epoch": 0.05900083370743282,
      "loss": 1.9703216552734375,
      "loss_ce": 0.002548185409978032,
      "loss_iou": 0.87109375,
      "loss_num": 0.044921875,
      "loss_xval": 1.96875,
      "num_input_tokens_seen": 29059376,
      "step": 230
    },
    {
      "epoch": 0.059257359071378184,
      "grad_norm": 50.18242263793945,
      "learning_rate": 5e-06,
      "loss": 2.1527,
      "num_input_tokens_seen": 29184964,
      "step": 231
    },
    {
      "epoch": 0.059257359071378184,
      "loss": 2.104865550994873,
      "loss_ce": 0.0023265578784048557,
      "loss_iou": 0.95703125,
      "loss_num": 0.037109375,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 29184964,
      "step": 231
    },
    {
      "epoch": 0.059513884435323544,
      "grad_norm": 38.76399230957031,
      "learning_rate": 5e-06,
      "loss": 2.2529,
      "num_input_tokens_seen": 29311644,
      "step": 232
    },
    {
      "epoch": 0.059513884435323544,
      "loss": 2.252469539642334,
      "loss_ce": 0.006375922821462154,
      "loss_iou": 0.9765625,
      "loss_num": 0.05810546875,
      "loss_xval": 2.25,
      "num_input_tokens_seen": 29311644,
      "step": 232
    },
    {
      "epoch": 0.059770409799268905,
      "grad_norm": 33.5998649597168,
      "learning_rate": 5e-06,
      "loss": 2.0749,
      "num_input_tokens_seen": 29436516,
      "step": 233
    },
    {
      "epoch": 0.059770409799268905,
      "loss": 2.130073070526123,
      "loss_ce": 0.003119700588285923,
      "loss_iou": 0.94140625,
      "loss_num": 0.0478515625,
      "loss_xval": 2.125,
      "num_input_tokens_seen": 29436516,
      "step": 233
    },
    {
      "epoch": 0.060026935163214265,
      "grad_norm": 46.88568878173828,
      "learning_rate": 5e-06,
      "loss": 2.151,
      "num_input_tokens_seen": 29561748,
      "step": 234
    },
    {
      "epoch": 0.060026935163214265,
      "loss": 2.2594504356384277,
      "loss_ce": 0.0016379462322220206,
      "loss_iou": 1.0078125,
      "loss_num": 0.048583984375,
      "loss_xval": 2.25,
      "num_input_tokens_seen": 29561748,
      "step": 234
    },
    {
      "epoch": 0.060283460527159625,
      "grad_norm": 59.014984130859375,
      "learning_rate": 5e-06,
      "loss": 2.3208,
      "num_input_tokens_seen": 29688228,
      "step": 235
    },
    {
      "epoch": 0.060283460527159625,
      "loss": 2.3178904056549072,
      "loss_ce": 0.003437336999922991,
      "loss_iou": 1.046875,
      "loss_num": 0.046142578125,
      "loss_xval": 2.3125,
      "num_input_tokens_seen": 29688228,
      "step": 235
    },
    {
      "epoch": 0.060539985891104986,
      "grad_norm": 76.26374816894531,
      "learning_rate": 5e-06,
      "loss": 2.3334,
      "num_input_tokens_seen": 29814532,
      "step": 236
    },
    {
      "epoch": 0.060539985891104986,
      "loss": 2.3111815452575684,
      "loss_ce": 0.006494143046438694,
      "loss_iou": 1.015625,
      "loss_num": 0.054931640625,
      "loss_xval": 2.3125,
      "num_input_tokens_seen": 29814532,
      "step": 236
    },
    {
      "epoch": 0.060796511255050346,
      "grad_norm": 37.97163772583008,
      "learning_rate": 5e-06,
      "loss": 2.377,
      "num_input_tokens_seen": 29940988,
      "step": 237
    },
    {
      "epoch": 0.060796511255050346,
      "loss": 2.4005744457244873,
      "loss_ce": 0.0021370230242609978,
      "loss_iou": 1.0,
      "loss_num": 0.078125,
      "loss_xval": 2.40625,
      "num_input_tokens_seen": 29940988,
      "step": 237
    },
    {
      "epoch": 0.0610530366189957,
      "grad_norm": 31.23127555847168,
      "learning_rate": 5e-06,
      "loss": 2.1217,
      "num_input_tokens_seen": 30068792,
      "step": 238
    },
    {
      "epoch": 0.0610530366189957,
      "loss": 2.208750009536743,
      "loss_ce": 0.004648377187550068,
      "loss_iou": 0.953125,
      "loss_num": 0.060791015625,
      "loss_xval": 2.203125,
      "num_input_tokens_seen": 30068792,
      "step": 238
    },
    {
      "epoch": 0.06130956198294106,
      "grad_norm": 52.3553466796875,
      "learning_rate": 5e-06,
      "loss": 2.0786,
      "num_input_tokens_seen": 30195912,
      "step": 239
    },
    {
      "epoch": 0.06130956198294106,
      "loss": 1.959381103515625,
      "loss_ce": 0.0033263680525124073,
      "loss_iou": 0.890625,
      "loss_num": 0.035888671875,
      "loss_xval": 1.953125,
      "num_input_tokens_seen": 30195912,
      "step": 239
    },
    {
      "epoch": 0.06156608734688642,
      "grad_norm": 37.35506820678711,
      "learning_rate": 5e-06,
      "loss": 2.3752,
      "num_input_tokens_seen": 30320128,
      "step": 240
    },
    {
      "epoch": 0.06156608734688642,
      "loss": 2.3584609031677246,
      "loss_ce": 0.008851448073983192,
      "loss_iou": 1.0078125,
      "loss_num": 0.06689453125,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 30320128,
      "step": 240
    },
    {
      "epoch": 0.06182261271083178,
      "grad_norm": 23.697324752807617,
      "learning_rate": 5e-06,
      "loss": 2.1053,
      "num_input_tokens_seen": 30445792,
      "step": 241
    },
    {
      "epoch": 0.06182261271083178,
      "loss": 2.070606231689453,
      "loss_ce": 0.004200078547000885,
      "loss_iou": 0.88671875,
      "loss_num": 0.05810546875,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 30445792,
      "step": 241
    },
    {
      "epoch": 0.06207913807477714,
      "grad_norm": 54.24428939819336,
      "learning_rate": 5e-06,
      "loss": 2.075,
      "num_input_tokens_seen": 30573256,
      "step": 242
    },
    {
      "epoch": 0.06207913807477714,
      "loss": 1.9848737716674805,
      "loss_ce": 0.0024519390426576138,
      "loss_iou": 0.89453125,
      "loss_num": 0.0380859375,
      "loss_xval": 1.984375,
      "num_input_tokens_seen": 30573256,
      "step": 242
    },
    {
      "epoch": 0.0623356634387225,
      "grad_norm": 59.34233856201172,
      "learning_rate": 5e-06,
      "loss": 2.0339,
      "num_input_tokens_seen": 30700736,
      "step": 243
    },
    {
      "epoch": 0.0623356634387225,
      "loss": 1.979261875152588,
      "loss_ce": 0.0036758403293788433,
      "loss_iou": 0.87890625,
      "loss_num": 0.043212890625,
      "loss_xval": 1.9765625,
      "num_input_tokens_seen": 30700736,
      "step": 243
    },
    {
      "epoch": 0.06259218880266787,
      "grad_norm": 89.15264129638672,
      "learning_rate": 5e-06,
      "loss": 2.5587,
      "num_input_tokens_seen": 30826556,
      "step": 244
    },
    {
      "epoch": 0.06259218880266787,
      "loss": 2.3324899673461914,
      "loss_ce": 0.0033883764408528805,
      "loss_iou": 1.078125,
      "loss_num": 0.03466796875,
      "loss_xval": 2.328125,
      "num_input_tokens_seen": 30826556,
      "step": 244
    },
    {
      "epoch": 0.06284871416661322,
      "grad_norm": 28.108736038208008,
      "learning_rate": 5e-06,
      "loss": 2.4369,
      "num_input_tokens_seen": 30952784,
      "step": 245
    },
    {
      "epoch": 0.06284871416661322,
      "loss": 2.3802599906921387,
      "loss_ce": 0.0013536261394619942,
      "loss_iou": 0.984375,
      "loss_num": 0.08203125,
      "loss_xval": 2.375,
      "num_input_tokens_seen": 30952784,
      "step": 245
    },
    {
      "epoch": 0.06310523953055859,
      "grad_norm": 22.753265380859375,
      "learning_rate": 5e-06,
      "loss": 2.2559,
      "num_input_tokens_seen": 31078836,
      "step": 246
    },
    {
      "epoch": 0.06310523953055859,
      "loss": 2.110809803009033,
      "loss_ce": 0.0014348177937790751,
      "loss_iou": 0.88671875,
      "loss_num": 0.0673828125,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 31078836,
      "step": 246
    },
    {
      "epoch": 0.06336176489450394,
      "grad_norm": 23.44645881652832,
      "learning_rate": 5e-06,
      "loss": 2.2773,
      "num_input_tokens_seen": 31205948,
      "step": 247
    },
    {
      "epoch": 0.06336176489450394,
      "loss": 2.290022373199463,
      "loss_ce": 0.003889652667567134,
      "loss_iou": 0.96875,
      "loss_num": 0.06982421875,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 31205948,
      "step": 247
    },
    {
      "epoch": 0.0636182902584493,
      "grad_norm": 20.679468154907227,
      "learning_rate": 5e-06,
      "loss": 2.128,
      "num_input_tokens_seen": 31331520,
      "step": 248
    },
    {
      "epoch": 0.0636182902584493,
      "loss": 2.1520919799804688,
      "loss_ce": 0.00463095773011446,
      "loss_iou": 0.9140625,
      "loss_num": 0.0625,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 31331520,
      "step": 248
    },
    {
      "epoch": 0.06387481562239467,
      "grad_norm": 57.016754150390625,
      "learning_rate": 5e-06,
      "loss": 2.0256,
      "num_input_tokens_seen": 31458964,
      "step": 249
    },
    {
      "epoch": 0.06387481562239467,
      "loss": 2.2689638137817383,
      "loss_ce": 0.004315140191465616,
      "loss_iou": 0.9921875,
      "loss_num": 0.0556640625,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 31458964,
      "step": 249
    },
    {
      "epoch": 0.06413134098634002,
      "grad_norm": 34.484405517578125,
      "learning_rate": 5e-06,
      "loss": 2.1371,
      "num_input_tokens_seen": 31584912,
      "step": 250
    },
    {
      "epoch": 0.06413134098634002,
      "eval_icons_CIoU": -0.1733112409710884,
      "eval_icons_GIoU": -0.1826426312327385,
      "eval_icons_IoU": 0.0304591441527009,
      "eval_icons_MAE_all": 0.10289280116558075,
      "eval_icons_MAE_h": 0.13134828954935074,
      "eval_icons_MAE_w": 0.11449958011507988,
      "eval_icons_MAE_x_boxes": 0.0841725692152977,
      "eval_icons_MAE_y_boxes": 0.09374520927667618,
      "eval_icons_NUM_probability": 0.9985655248165131,
      "eval_icons_inside_bbox": 0.05902777798473835,
      "eval_icons_loss": 2.8885107040405273,
      "eval_icons_loss_ce": 0.0029261676827445626,
      "eval_icons_loss_iou": 1.205810546875,
      "eval_icons_loss_num": 0.10430908203125,
      "eval_icons_loss_xval": 2.93359375,
      "eval_icons_runtime": 39.8635,
      "eval_icons_samples_per_second": 1.254,
      "eval_icons_steps_per_second": 0.05,
      "num_input_tokens_seen": 31584912,
      "step": 250
    },
    {
      "epoch": 0.06413134098634002,
      "eval_screenspot_CIoU": -0.09415260950724284,
      "eval_screenspot_GIoU": -0.16390183195471764,
      "eval_screenspot_IoU": 0.12400435407956441,
      "eval_screenspot_MAE_all": 0.09230512628952663,
      "eval_screenspot_MAE_h": 0.07452671478192012,
      "eval_screenspot_MAE_w": 0.16431421538194022,
      "eval_screenspot_MAE_x_boxes": 0.13593154648939768,
      "eval_screenspot_MAE_y_boxes": 0.060380659997463226,
      "eval_screenspot_NUM_probability": 0.9978764653205872,
      "eval_screenspot_inside_bbox": 0.2600000003973643,
      "eval_screenspot_loss": 2.838578939437866,
      "eval_screenspot_loss_ce": 0.013154878125836452,
      "eval_screenspot_loss_iou": 1.1829427083333333,
      "eval_screenspot_loss_num": 0.09867350260416667,
      "eval_screenspot_loss_xval": 2.8587239583333335,
      "eval_screenspot_runtime": 68.5629,
      "eval_screenspot_samples_per_second": 1.298,
      "eval_screenspot_steps_per_second": 0.044,
      "num_input_tokens_seen": 31584912,
      "step": 250
    },
    {
      "epoch": 0.06413134098634002,
      "loss": 2.717196464538574,
      "loss_ce": 0.004306042101234198,
      "loss_iou": 1.1171875,
      "loss_num": 0.095703125,
      "loss_xval": 2.71875,
      "num_input_tokens_seen": 31584912,
      "step": 250
    },
    {
      "epoch": 0.06438786635028539,
      "grad_norm": 49.74070358276367,
      "learning_rate": 5e-06,
      "loss": 2.2404,
      "num_input_tokens_seen": 31711864,
      "step": 251
    },
    {
      "epoch": 0.06438786635028539,
      "loss": 2.3566224575042725,
      "loss_ce": 0.005059942603111267,
      "loss_iou": 1.0390625,
      "loss_num": 0.05419921875,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 31711864,
      "step": 251
    },
    {
      "epoch": 0.06464439171423074,
      "grad_norm": 43.546607971191406,
      "learning_rate": 5e-06,
      "loss": 2.3367,
      "num_input_tokens_seen": 31838068,
      "step": 252
    },
    {
      "epoch": 0.06464439171423074,
      "loss": 2.227330446243286,
      "loss_ce": 0.002721048891544342,
      "loss_iou": 0.9765625,
      "loss_num": 0.0546875,
      "loss_xval": 2.21875,
      "num_input_tokens_seen": 31838068,
      "step": 252
    },
    {
      "epoch": 0.0649009170781761,
      "grad_norm": 51.83170700073242,
      "learning_rate": 5e-06,
      "loss": 2.1357,
      "num_input_tokens_seen": 31965188,
      "step": 253
    },
    {
      "epoch": 0.0649009170781761,
      "loss": 2.151766777038574,
      "loss_ce": 0.005282404366880655,
      "loss_iou": 0.953125,
      "loss_num": 0.048095703125,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 31965188,
      "step": 253
    },
    {
      "epoch": 0.06515744244212146,
      "grad_norm": 44.354087829589844,
      "learning_rate": 5e-06,
      "loss": 2.1423,
      "num_input_tokens_seen": 32093384,
      "step": 254
    },
    {
      "epoch": 0.06515744244212146,
      "loss": 2.1908316612243652,
      "loss_ce": 0.0033316893968731165,
      "loss_iou": 0.96484375,
      "loss_num": 0.05224609375,
      "loss_xval": 2.1875,
      "num_input_tokens_seen": 32093384,
      "step": 254
    },
    {
      "epoch": 0.06541396780606683,
      "grad_norm": 60.01030731201172,
      "learning_rate": 5e-06,
      "loss": 2.106,
      "num_input_tokens_seen": 32220848,
      "step": 255
    },
    {
      "epoch": 0.06541396780606683,
      "loss": 1.972575306892395,
      "loss_ce": 0.0018721634987741709,
      "loss_iou": 0.890625,
      "loss_num": 0.037353515625,
      "loss_xval": 1.96875,
      "num_input_tokens_seen": 32220848,
      "step": 255
    },
    {
      "epoch": 0.06567049317001218,
      "grad_norm": 71.41215515136719,
      "learning_rate": 5e-06,
      "loss": 2.1934,
      "num_input_tokens_seen": 32347488,
      "step": 256
    },
    {
      "epoch": 0.06567049317001218,
      "loss": 2.2728734016418457,
      "loss_ce": 0.001388987060636282,
      "loss_iou": 1.046875,
      "loss_num": 0.03564453125,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 32347488,
      "step": 256
    },
    {
      "epoch": 0.06592701853395755,
      "grad_norm": 40.604068756103516,
      "learning_rate": 5e-06,
      "loss": 2.3601,
      "num_input_tokens_seen": 32475256,
      "step": 257
    },
    {
      "epoch": 0.06592701853395755,
      "loss": 2.2851829528808594,
      "loss_ce": 0.003933164291083813,
      "loss_iou": 0.98046875,
      "loss_num": 0.06396484375,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 32475256,
      "step": 257
    },
    {
      "epoch": 0.0661835438979029,
      "grad_norm": 26.89104652404785,
      "learning_rate": 5e-06,
      "loss": 2.215,
      "num_input_tokens_seen": 32602640,
      "step": 258
    },
    {
      "epoch": 0.0661835438979029,
      "loss": 2.274357557296753,
      "loss_ce": 0.0009199426858685911,
      "loss_iou": 0.9765625,
      "loss_num": 0.064453125,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 32602640,
      "step": 258
    },
    {
      "epoch": 0.06644006926184827,
      "grad_norm": 19.452545166015625,
      "learning_rate": 5e-06,
      "loss": 2.0058,
      "num_input_tokens_seen": 32728872,
      "step": 259
    },
    {
      "epoch": 0.06644006926184827,
      "loss": 2.014209508895874,
      "loss_ce": 0.0024908818304538727,
      "loss_iou": 0.890625,
      "loss_num": 0.045654296875,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 32728872,
      "step": 259
    },
    {
      "epoch": 0.06669659462579362,
      "grad_norm": 35.033939361572266,
      "learning_rate": 5e-06,
      "loss": 2.0158,
      "num_input_tokens_seen": 32855932,
      "step": 260
    },
    {
      "epoch": 0.06669659462579362,
      "loss": 2.0346410274505615,
      "loss_ce": 0.004367677960544825,
      "loss_iou": 0.91796875,
      "loss_num": 0.038818359375,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 32855932,
      "step": 260
    },
    {
      "epoch": 0.06695311998973899,
      "grad_norm": 36.546051025390625,
      "learning_rate": 5e-06,
      "loss": 2.0466,
      "num_input_tokens_seen": 32982132,
      "step": 261
    },
    {
      "epoch": 0.06695311998973899,
      "loss": 2.017688751220703,
      "loss_ce": 0.00597008503973484,
      "loss_iou": 0.8984375,
      "loss_num": 0.043212890625,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 32982132,
      "step": 261
    },
    {
      "epoch": 0.06720964535368434,
      "grad_norm": 115.64370727539062,
      "learning_rate": 5e-06,
      "loss": 2.2988,
      "num_input_tokens_seen": 33109128,
      "step": 262
    },
    {
      "epoch": 0.06720964535368434,
      "loss": 2.3690614700317383,
      "loss_ce": 0.005780306179076433,
      "loss_iou": 1.0703125,
      "loss_num": 0.04296875,
      "loss_xval": 2.359375,
      "num_input_tokens_seen": 33109128,
      "step": 262
    },
    {
      "epoch": 0.06746617071762971,
      "grad_norm": 30.0897216796875,
      "learning_rate": 5e-06,
      "loss": 2.6018,
      "num_input_tokens_seen": 33235512,
      "step": 263
    },
    {
      "epoch": 0.06746617071762971,
      "loss": 2.5445873737335205,
      "loss_ce": 0.0035717228893190622,
      "loss_iou": 1.046875,
      "loss_num": 0.08837890625,
      "loss_xval": 2.546875,
      "num_input_tokens_seen": 33235512,
      "step": 263
    },
    {
      "epoch": 0.06772269608157507,
      "grad_norm": 23.08639144897461,
      "learning_rate": 5e-06,
      "loss": 2.5253,
      "num_input_tokens_seen": 33362000,
      "step": 264
    },
    {
      "epoch": 0.06772269608157507,
      "loss": 2.502375841140747,
      "loss_ce": 0.004328930750489235,
      "loss_iou": 1.0234375,
      "loss_num": 0.08935546875,
      "loss_xval": 2.5,
      "num_input_tokens_seen": 33362000,
      "step": 264
    },
    {
      "epoch": 0.06797922144552043,
      "grad_norm": 24.348588943481445,
      "learning_rate": 5e-06,
      "loss": 2.4206,
      "num_input_tokens_seen": 33489320,
      "step": 265
    },
    {
      "epoch": 0.06797922144552043,
      "loss": 2.339601993560791,
      "loss_ce": 0.0075707342475652695,
      "loss_iou": 0.96875,
      "loss_num": 0.0791015625,
      "loss_xval": 2.328125,
      "num_input_tokens_seen": 33489320,
      "step": 265
    },
    {
      "epoch": 0.06823574680946579,
      "grad_norm": 20.285810470581055,
      "learning_rate": 5e-06,
      "loss": 2.4356,
      "num_input_tokens_seen": 33616764,
      "step": 266
    },
    {
      "epoch": 0.06823574680946579,
      "loss": 2.490346908569336,
      "loss_ce": 0.005971949547529221,
      "loss_iou": 1.0234375,
      "loss_num": 0.087890625,
      "loss_xval": 2.484375,
      "num_input_tokens_seen": 33616764,
      "step": 266
    },
    {
      "epoch": 0.06849227217341114,
      "grad_norm": 17.93982696533203,
      "learning_rate": 5e-06,
      "loss": 2.2166,
      "num_input_tokens_seen": 33743144,
      "step": 267
    },
    {
      "epoch": 0.06849227217341114,
      "loss": 2.276881694793701,
      "loss_ce": 0.008326904848217964,
      "loss_iou": 0.953125,
      "loss_num": 0.072265625,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 33743144,
      "step": 267
    },
    {
      "epoch": 0.0687487975373565,
      "grad_norm": 20.401243209838867,
      "learning_rate": 5e-06,
      "loss": 2.2606,
      "num_input_tokens_seen": 33870924,
      "step": 268
    },
    {
      "epoch": 0.0687487975373565,
      "loss": 2.206037998199463,
      "loss_ce": 0.004866407718509436,
      "loss_iou": 0.94140625,
      "loss_num": 0.06396484375,
      "loss_xval": 2.203125,
      "num_input_tokens_seen": 33870924,
      "step": 268
    },
    {
      "epoch": 0.06900532290130186,
      "grad_norm": 21.680824279785156,
      "learning_rate": 5e-06,
      "loss": 2.1135,
      "num_input_tokens_seen": 33997444,
      "step": 269
    },
    {
      "epoch": 0.06900532290130186,
      "loss": 2.153524160385132,
      "loss_ce": 0.0031335398089140654,
      "loss_iou": 0.9453125,
      "loss_num": 0.052734375,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 33997444,
      "step": 269
    },
    {
      "epoch": 0.06926184826524723,
      "grad_norm": 28.608409881591797,
      "learning_rate": 5e-06,
      "loss": 2.0925,
      "num_input_tokens_seen": 34123632,
      "step": 270
    },
    {
      "epoch": 0.06926184826524723,
      "loss": 2.0080747604370117,
      "loss_ce": 0.0012387895258143544,
      "loss_iou": 0.8984375,
      "loss_num": 0.0419921875,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 34123632,
      "step": 270
    },
    {
      "epoch": 0.06951837362919258,
      "grad_norm": 44.43445587158203,
      "learning_rate": 5e-06,
      "loss": 2.0432,
      "num_input_tokens_seen": 34248936,
      "step": 271
    },
    {
      "epoch": 0.06951837362919258,
      "loss": 1.9678488969802856,
      "loss_ce": 0.002028584945946932,
      "loss_iou": 0.890625,
      "loss_num": 0.03759765625,
      "loss_xval": 1.96875,
      "num_input_tokens_seen": 34248936,
      "step": 271
    },
    {
      "epoch": 0.06977489899313795,
      "grad_norm": 90.41899108886719,
      "learning_rate": 5e-06,
      "loss": 2.2524,
      "num_input_tokens_seen": 34374844,
      "step": 272
    },
    {
      "epoch": 0.06977489899313795,
      "loss": 2.343357563018799,
      "loss_ce": 0.006443414371460676,
      "loss_iou": 1.0703125,
      "loss_num": 0.039794921875,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 34374844,
      "step": 272
    },
    {
      "epoch": 0.0700314243570833,
      "grad_norm": 37.55814743041992,
      "learning_rate": 5e-06,
      "loss": 2.4445,
      "num_input_tokens_seen": 34500380,
      "step": 273
    },
    {
      "epoch": 0.0700314243570833,
      "loss": 2.4703030586242676,
      "loss_ce": 0.0015530271921306849,
      "loss_iou": 1.03125,
      "loss_num": 0.08154296875,
      "loss_xval": 2.46875,
      "num_input_tokens_seen": 34500380,
      "step": 273
    },
    {
      "epoch": 0.07028794972102867,
      "grad_norm": 22.772979736328125,
      "learning_rate": 5e-06,
      "loss": 2.3322,
      "num_input_tokens_seen": 34626028,
      "step": 274
    },
    {
      "epoch": 0.07028794972102867,
      "loss": 2.4188337326049805,
      "loss_ce": 0.004771072417497635,
      "loss_iou": 1.0078125,
      "loss_num": 0.080078125,
      "loss_xval": 2.40625,
      "num_input_tokens_seen": 34626028,
      "step": 274
    },
    {
      "epoch": 0.07054447508497402,
      "grad_norm": 24.351337432861328,
      "learning_rate": 5e-06,
      "loss": 2.1592,
      "num_input_tokens_seen": 34751784,
      "step": 275
    },
    {
      "epoch": 0.07054447508497402,
      "loss": 2.281585454940796,
      "loss_ce": 0.005218226462602615,
      "loss_iou": 0.96484375,
      "loss_num": 0.06982421875,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 34751784,
      "step": 275
    },
    {
      "epoch": 0.07080100044891939,
      "grad_norm": 31.42517852783203,
      "learning_rate": 5e-06,
      "loss": 2.006,
      "num_input_tokens_seen": 34878380,
      "step": 276
    },
    {
      "epoch": 0.07080100044891939,
      "loss": 2.109785556793213,
      "loss_ce": 0.007246410008519888,
      "loss_iou": 0.92578125,
      "loss_num": 0.04931640625,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 34878380,
      "step": 276
    },
    {
      "epoch": 0.07105752581286474,
      "grad_norm": 35.536659240722656,
      "learning_rate": 5e-06,
      "loss": 1.9957,
      "num_input_tokens_seen": 35005032,
      "step": 277
    },
    {
      "epoch": 0.07105752581286474,
      "loss": 1.883124828338623,
      "loss_ce": 0.006171601824462414,
      "loss_iou": 0.859375,
      "loss_num": 0.03173828125,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 35005032,
      "step": 277
    },
    {
      "epoch": 0.07131405117681011,
      "grad_norm": 64.79315948486328,
      "learning_rate": 5e-06,
      "loss": 2.1054,
      "num_input_tokens_seen": 35130768,
      "step": 278
    },
    {
      "epoch": 0.07131405117681011,
      "loss": 2.1725223064422607,
      "loss_ce": 0.0026004298124462366,
      "loss_iou": 0.96875,
      "loss_num": 0.04638671875,
      "loss_xval": 2.171875,
      "num_input_tokens_seen": 35130768,
      "step": 278
    },
    {
      "epoch": 0.07157057654075547,
      "grad_norm": 56.64155960083008,
      "learning_rate": 5e-06,
      "loss": 2.1437,
      "num_input_tokens_seen": 35257380,
      "step": 279
    },
    {
      "epoch": 0.07157057654075547,
      "loss": 2.116905927658081,
      "loss_ce": 0.0036246790550649166,
      "loss_iou": 0.9375,
      "loss_num": 0.048095703125,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 35257380,
      "step": 279
    },
    {
      "epoch": 0.07182710190470083,
      "grad_norm": 29.063037872314453,
      "learning_rate": 5e-06,
      "loss": 2.3211,
      "num_input_tokens_seen": 35383000,
      "step": 280
    },
    {
      "epoch": 0.07182710190470083,
      "loss": 2.2586913108825684,
      "loss_ce": 0.00283189513720572,
      "loss_iou": 0.98828125,
      "loss_num": 0.056640625,
      "loss_xval": 2.25,
      "num_input_tokens_seen": 35383000,
      "step": 280
    },
    {
      "epoch": 0.07208362726864619,
      "grad_norm": 34.01350021362305,
      "learning_rate": 5e-06,
      "loss": 1.9599,
      "num_input_tokens_seen": 35510324,
      "step": 281
    },
    {
      "epoch": 0.07208362726864619,
      "loss": 2.0147454738616943,
      "loss_ce": 0.0030266791582107544,
      "loss_iou": 0.8984375,
      "loss_num": 0.0419921875,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 35510324,
      "step": 281
    },
    {
      "epoch": 0.07234015263259155,
      "grad_norm": 108.72042846679688,
      "learning_rate": 5e-06,
      "loss": 2.2946,
      "num_input_tokens_seen": 35636940,
      "step": 282
    },
    {
      "epoch": 0.07234015263259155,
      "loss": 2.4681782722473145,
      "loss_ce": 0.00821721088141203,
      "loss_iou": 1.109375,
      "loss_num": 0.046630859375,
      "loss_xval": 2.453125,
      "num_input_tokens_seen": 35636940,
      "step": 282
    },
    {
      "epoch": 0.0725966779965369,
      "grad_norm": 30.108070373535156,
      "learning_rate": 5e-06,
      "loss": 2.4316,
      "num_input_tokens_seen": 35763996,
      "step": 283
    },
    {
      "epoch": 0.0725966779965369,
      "loss": 2.4666950702667236,
      "loss_ce": 0.0038043856620788574,
      "loss_iou": 1.03125,
      "loss_num": 0.080078125,
      "loss_xval": 2.46875,
      "num_input_tokens_seen": 35763996,
      "step": 283
    },
    {
      "epoch": 0.07285320336048227,
      "grad_norm": 28.02402687072754,
      "learning_rate": 5e-06,
      "loss": 2.3357,
      "num_input_tokens_seen": 35890428,
      "step": 284
    },
    {
      "epoch": 0.07285320336048227,
      "loss": 2.294663429260254,
      "loss_ce": 0.007553888484835625,
      "loss_iou": 0.96484375,
      "loss_num": 0.07080078125,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 35890428,
      "step": 284
    },
    {
      "epoch": 0.07310972872442763,
      "grad_norm": 27.3283748626709,
      "learning_rate": 5e-06,
      "loss": 2.1291,
      "num_input_tokens_seen": 36017888,
      "step": 285
    },
    {
      "epoch": 0.07310972872442763,
      "loss": 2.122551918029785,
      "loss_ce": 0.0053645046427845955,
      "loss_iou": 0.9140625,
      "loss_num": 0.058837890625,
      "loss_xval": 2.125,
      "num_input_tokens_seen": 36017888,
      "step": 285
    },
    {
      "epoch": 0.07336625408837298,
      "grad_norm": 31.38198471069336,
      "learning_rate": 5e-06,
      "loss": 2.0225,
      "num_input_tokens_seen": 36145740,
      "step": 286
    },
    {
      "epoch": 0.07336625408837298,
      "loss": 1.9516512155532837,
      "loss_ce": 0.0034090036060661077,
      "loss_iou": 0.8671875,
      "loss_num": 0.04248046875,
      "loss_xval": 1.9453125,
      "num_input_tokens_seen": 36145740,
      "step": 286
    },
    {
      "epoch": 0.07362277945231835,
      "grad_norm": 52.19550704956055,
      "learning_rate": 5e-06,
      "loss": 1.9859,
      "num_input_tokens_seen": 36272304,
      "step": 287
    },
    {
      "epoch": 0.07362277945231835,
      "loss": 2.0019702911376953,
      "loss_ce": 0.010759426280856133,
      "loss_iou": 0.90625,
      "loss_num": 0.0361328125,
      "loss_xval": 1.9921875,
      "num_input_tokens_seen": 36272304,
      "step": 287
    },
    {
      "epoch": 0.0738793048162637,
      "grad_norm": 41.171653747558594,
      "learning_rate": 5e-06,
      "loss": 2.2903,
      "num_input_tokens_seen": 36398548,
      "step": 288
    },
    {
      "epoch": 0.0738793048162637,
      "loss": 2.27291202545166,
      "loss_ce": 0.004357603378593922,
      "loss_iou": 0.9921875,
      "loss_num": 0.05615234375,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 36398548,
      "step": 288
    },
    {
      "epoch": 0.07413583018020907,
      "grad_norm": 24.66343116760254,
      "learning_rate": 5e-06,
      "loss": 2.0048,
      "num_input_tokens_seen": 36525080,
      "step": 289
    },
    {
      "epoch": 0.07413583018020907,
      "loss": 2.065984010696411,
      "loss_ce": 0.003483960870653391,
      "loss_iou": 0.90234375,
      "loss_num": 0.051513671875,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 36525080,
      "step": 289
    },
    {
      "epoch": 0.07439235554415442,
      "grad_norm": 82.30351257324219,
      "learning_rate": 5e-06,
      "loss": 1.9926,
      "num_input_tokens_seen": 36650992,
      "step": 290
    },
    {
      "epoch": 0.07439235554415442,
      "loss": 1.9284744262695312,
      "loss_ce": 0.004646307323127985,
      "loss_iou": 0.890625,
      "loss_num": 0.0283203125,
      "loss_xval": 1.921875,
      "num_input_tokens_seen": 36650992,
      "step": 290
    },
    {
      "epoch": 0.07464888090809979,
      "grad_norm": 35.82350540161133,
      "learning_rate": 5e-06,
      "loss": 2.3368,
      "num_input_tokens_seen": 36776252,
      "step": 291
    },
    {
      "epoch": 0.07464888090809979,
      "loss": 2.3444504737854004,
      "loss_ce": 0.0007005850784480572,
      "loss_iou": 1.015625,
      "loss_num": 0.0625,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 36776252,
      "step": 291
    },
    {
      "epoch": 0.07490540627204514,
      "grad_norm": 36.02092742919922,
      "learning_rate": 5e-06,
      "loss": 2.0524,
      "num_input_tokens_seen": 36903024,
      "step": 292
    },
    {
      "epoch": 0.07490540627204514,
      "loss": 2.1769344806671143,
      "loss_ce": 0.0070125930942595005,
      "loss_iou": 0.94140625,
      "loss_num": 0.057373046875,
      "loss_xval": 2.171875,
      "num_input_tokens_seen": 36903024,
      "step": 292
    },
    {
      "epoch": 0.07516193163599051,
      "grad_norm": 37.4872932434082,
      "learning_rate": 5e-06,
      "loss": 1.9679,
      "num_input_tokens_seen": 37030316,
      "step": 293
    },
    {
      "epoch": 0.07516193163599051,
      "loss": 2.1317567825317383,
      "loss_ce": 0.0008972855284810066,
      "loss_iou": 0.96484375,
      "loss_num": 0.03955078125,
      "loss_xval": 2.125,
      "num_input_tokens_seen": 37030316,
      "step": 293
    },
    {
      "epoch": 0.07541845699993587,
      "grad_norm": 75.38507843017578,
      "learning_rate": 5e-06,
      "loss": 2.0778,
      "num_input_tokens_seen": 37157364,
      "step": 294
    },
    {
      "epoch": 0.07541845699993587,
      "loss": 1.9384303092956543,
      "loss_ce": 0.003860055236145854,
      "loss_iou": 0.8828125,
      "loss_num": 0.033935546875,
      "loss_xval": 1.9375,
      "num_input_tokens_seen": 37157364,
      "step": 294
    },
    {
      "epoch": 0.07567498236388123,
      "grad_norm": 30.82659149169922,
      "learning_rate": 5e-06,
      "loss": 2.1344,
      "num_input_tokens_seen": 37283780,
      "step": 295
    },
    {
      "epoch": 0.07567498236388123,
      "loss": 2.34016752243042,
      "loss_ce": 0.0022770087234675884,
      "loss_iou": 1.03125,
      "loss_num": 0.055908203125,
      "loss_xval": 2.34375,
      "num_input_tokens_seen": 37283780,
      "step": 295
    },
    {
      "epoch": 0.07593150772782659,
      "grad_norm": 41.268489837646484,
      "learning_rate": 5e-06,
      "loss": 2.1669,
      "num_input_tokens_seen": 37410612,
      "step": 296
    },
    {
      "epoch": 0.07593150772782659,
      "loss": 2.111407995223999,
      "loss_ce": 0.0020328881219029427,
      "loss_iou": 0.95703125,
      "loss_num": 0.0390625,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 37410612,
      "step": 296
    },
    {
      "epoch": 0.07618803309177195,
      "grad_norm": 48.545631408691406,
      "learning_rate": 5e-06,
      "loss": 2.1216,
      "num_input_tokens_seen": 37537244,
      "step": 297
    },
    {
      "epoch": 0.07618803309177195,
      "loss": 2.1502416133880615,
      "loss_ce": 0.0027806456200778484,
      "loss_iou": 0.95703125,
      "loss_num": 0.0458984375,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 37537244,
      "step": 297
    },
    {
      "epoch": 0.0764445584557173,
      "grad_norm": 35.040672302246094,
      "learning_rate": 5e-06,
      "loss": 1.8582,
      "num_input_tokens_seen": 37663244,
      "step": 298
    },
    {
      "epoch": 0.0764445584557173,
      "loss": 1.9157030582427979,
      "loss_ce": 0.002617096295580268,
      "loss_iou": 0.86328125,
      "loss_num": 0.036865234375,
      "loss_xval": 1.9140625,
      "num_input_tokens_seen": 37663244,
      "step": 298
    },
    {
      "epoch": 0.07670108381966267,
      "grad_norm": 49.392520904541016,
      "learning_rate": 5e-06,
      "loss": 2.0651,
      "num_input_tokens_seen": 37789464,
      "step": 299
    },
    {
      "epoch": 0.07670108381966267,
      "loss": 2.158250331878662,
      "loss_ce": 0.004929990973323584,
      "loss_iou": 0.95703125,
      "loss_num": 0.047607421875,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 37789464,
      "step": 299
    },
    {
      "epoch": 0.07695760918360803,
      "grad_norm": 96.1633071899414,
      "learning_rate": 5e-06,
      "loss": 2.2197,
      "num_input_tokens_seen": 37914488,
      "step": 300
    },
    {
      "epoch": 0.07695760918360803,
      "loss": 2.2829689979553223,
      "loss_ce": 0.004648739937692881,
      "loss_iou": 1.046875,
      "loss_num": 0.036376953125,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 37914488,
      "step": 300
    },
    {
      "epoch": 0.0772141345475534,
      "grad_norm": 30.415678024291992,
      "learning_rate": 5e-06,
      "loss": 2.3991,
      "num_input_tokens_seen": 38040540,
      "step": 301
    },
    {
      "epoch": 0.0772141345475534,
      "loss": 2.2139339447021484,
      "loss_ce": 0.002019990235567093,
      "loss_iou": 0.9453125,
      "loss_num": 0.064453125,
      "loss_xval": 2.21875,
      "num_input_tokens_seen": 38040540,
      "step": 301
    },
    {
      "epoch": 0.07747065991149875,
      "grad_norm": 30.147260665893555,
      "learning_rate": 5e-06,
      "loss": 2.1637,
      "num_input_tokens_seen": 38167144,
      "step": 302
    },
    {
      "epoch": 0.07747065991149875,
      "loss": 2.132211685180664,
      "loss_ce": 0.004282068461179733,
      "loss_iou": 0.9140625,
      "loss_num": 0.060302734375,
      "loss_xval": 2.125,
      "num_input_tokens_seen": 38167144,
      "step": 302
    },
    {
      "epoch": 0.07772718527544412,
      "grad_norm": 25.657854080200195,
      "learning_rate": 5e-06,
      "loss": 2.1041,
      "num_input_tokens_seen": 38293096,
      "step": 303
    },
    {
      "epoch": 0.07772718527544412,
      "loss": 2.2727856636047363,
      "loss_ce": 0.004231109283864498,
      "loss_iou": 0.96875,
      "loss_num": 0.0654296875,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 38293096,
      "step": 303
    },
    {
      "epoch": 0.07798371063938947,
      "grad_norm": 27.7092227935791,
      "learning_rate": 5e-06,
      "loss": 1.92,
      "num_input_tokens_seen": 38419496,
      "step": 304
    },
    {
      "epoch": 0.07798371063938947,
      "loss": 1.987078309059143,
      "loss_ce": 0.0017268848605453968,
      "loss_iou": 0.8828125,
      "loss_num": 0.044189453125,
      "loss_xval": 1.984375,
      "num_input_tokens_seen": 38419496,
      "step": 304
    },
    {
      "epoch": 0.07824023600333482,
      "grad_norm": 68.24254608154297,
      "learning_rate": 5e-06,
      "loss": 2.2109,
      "num_input_tokens_seen": 38545588,
      "step": 305
    },
    {
      "epoch": 0.07824023600333482,
      "loss": 2.22039532661438,
      "loss_ce": 0.005551714450120926,
      "loss_iou": 0.99609375,
      "loss_num": 0.044921875,
      "loss_xval": 2.21875,
      "num_input_tokens_seen": 38545588,
      "step": 305
    },
    {
      "epoch": 0.07849676136728019,
      "grad_norm": 39.15468215942383,
      "learning_rate": 5e-06,
      "loss": 2.2047,
      "num_input_tokens_seen": 38671516,
      "step": 306
    },
    {
      "epoch": 0.07849676136728019,
      "loss": 2.1540074348449707,
      "loss_ce": 0.0016635048668831587,
      "loss_iou": 0.94921875,
      "loss_num": 0.05078125,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 38671516,
      "step": 306
    },
    {
      "epoch": 0.07875328673122554,
      "grad_norm": 29.422529220581055,
      "learning_rate": 5e-06,
      "loss": 1.9422,
      "num_input_tokens_seen": 38797624,
      "step": 307
    },
    {
      "epoch": 0.07875328673122554,
      "loss": 2.0709614753723145,
      "loss_ce": 0.006508187390863895,
      "loss_iou": 0.91015625,
      "loss_num": 0.047607421875,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 38797624,
      "step": 307
    },
    {
      "epoch": 0.07900981209517091,
      "grad_norm": 47.252044677734375,
      "learning_rate": 5e-06,
      "loss": 1.8794,
      "num_input_tokens_seen": 38924004,
      "step": 308
    },
    {
      "epoch": 0.07900981209517091,
      "loss": 2.0390894412994385,
      "loss_ce": 0.0010035168379545212,
      "loss_iou": 0.91015625,
      "loss_num": 0.043212890625,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 38924004,
      "step": 308
    },
    {
      "epoch": 0.07926633745911627,
      "grad_norm": 48.2392578125,
      "learning_rate": 5e-06,
      "loss": 2.1417,
      "num_input_tokens_seen": 39050300,
      "step": 309
    },
    {
      "epoch": 0.07926633745911627,
      "loss": 2.0224266052246094,
      "loss_ce": 0.0038719885051250458,
      "loss_iou": 0.90234375,
      "loss_num": 0.04296875,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 39050300,
      "step": 309
    },
    {
      "epoch": 0.07952286282306163,
      "grad_norm": 68.7890625,
      "learning_rate": 5e-06,
      "loss": 1.8536,
      "num_input_tokens_seen": 39176956,
      "step": 310
    },
    {
      "epoch": 0.07952286282306163,
      "loss": 1.9431216716766357,
      "loss_ce": 0.003668619552627206,
      "loss_iou": 0.890625,
      "loss_num": 0.03076171875,
      "loss_xval": 1.9375,
      "num_input_tokens_seen": 39176956,
      "step": 310
    },
    {
      "epoch": 0.07977938818700699,
      "grad_norm": 38.89787292480469,
      "learning_rate": 5e-06,
      "loss": 2.2376,
      "num_input_tokens_seen": 39302552,
      "step": 311
    },
    {
      "epoch": 0.07977938818700699,
      "loss": 2.3054964542388916,
      "loss_ce": 0.002762057352811098,
      "loss_iou": 0.9921875,
      "loss_num": 0.06298828125,
      "loss_xval": 2.296875,
      "num_input_tokens_seen": 39302552,
      "step": 311
    },
    {
      "epoch": 0.08003591355095235,
      "grad_norm": 30.763851165771484,
      "learning_rate": 5e-06,
      "loss": 2.0128,
      "num_input_tokens_seen": 39429016,
      "step": 312
    },
    {
      "epoch": 0.08003591355095235,
      "loss": 2.0272104740142822,
      "loss_ce": 0.004749531392008066,
      "loss_iou": 0.890625,
      "loss_num": 0.04736328125,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 39429016,
      "step": 312
    },
    {
      "epoch": 0.0802924389148977,
      "grad_norm": 64.25830841064453,
      "learning_rate": 5e-06,
      "loss": 2.0167,
      "num_input_tokens_seen": 39555464,
      "step": 313
    },
    {
      "epoch": 0.0802924389148977,
      "loss": 1.9554970264434814,
      "loss_ce": 0.005301830358803272,
      "loss_iou": 0.89453125,
      "loss_num": 0.031494140625,
      "loss_xval": 1.953125,
      "num_input_tokens_seen": 39555464,
      "step": 313
    },
    {
      "epoch": 0.08054896427884307,
      "grad_norm": 48.00767517089844,
      "learning_rate": 5e-06,
      "loss": 2.1942,
      "num_input_tokens_seen": 39682084,
      "step": 314
    },
    {
      "epoch": 0.08054896427884307,
      "loss": 2.223456859588623,
      "loss_ce": 0.0008005423005670309,
      "loss_iou": 0.96484375,
      "loss_num": 0.05859375,
      "loss_xval": 2.21875,
      "num_input_tokens_seen": 39682084,
      "step": 314
    },
    {
      "epoch": 0.08080548964278843,
      "grad_norm": 51.093257904052734,
      "learning_rate": 5e-06,
      "loss": 2.1112,
      "num_input_tokens_seen": 39808596,
      "step": 315
    },
    {
      "epoch": 0.08080548964278843,
      "loss": 2.1587576866149902,
      "loss_ce": 0.0044608633033931255,
      "loss_iou": 0.9453125,
      "loss_num": 0.052490234375,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 39808596,
      "step": 315
    },
    {
      "epoch": 0.0810620150067338,
      "grad_norm": 42.96095657348633,
      "learning_rate": 5e-06,
      "loss": 2.0367,
      "num_input_tokens_seen": 39933928,
      "step": 316
    },
    {
      "epoch": 0.0810620150067338,
      "loss": 2.033493995666504,
      "loss_ce": 0.0041971355676651,
      "loss_iou": 0.90625,
      "loss_num": 0.0439453125,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 39933928,
      "step": 316
    },
    {
      "epoch": 0.08131854037067915,
      "grad_norm": 26.521760940551758,
      "learning_rate": 5e-06,
      "loss": 1.8722,
      "num_input_tokens_seen": 40060972,
      "step": 317
    },
    {
      "epoch": 0.08131854037067915,
      "loss": 1.9469468593597412,
      "loss_ce": 0.007493725512176752,
      "loss_iou": 0.86328125,
      "loss_num": 0.0419921875,
      "loss_xval": 1.9375,
      "num_input_tokens_seen": 40060972,
      "step": 317
    },
    {
      "epoch": 0.08157506573462452,
      "grad_norm": 80.15369415283203,
      "learning_rate": 5e-06,
      "loss": 1.8141,
      "num_input_tokens_seen": 40188076,
      "step": 318
    },
    {
      "epoch": 0.08157506573462452,
      "loss": 1.7371220588684082,
      "loss_ce": 0.002747059566900134,
      "loss_iou": 0.80859375,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 40188076,
      "step": 318
    },
    {
      "epoch": 0.08183159109856987,
      "grad_norm": 39.99967956542969,
      "learning_rate": 5e-06,
      "loss": 2.239,
      "num_input_tokens_seen": 40314776,
      "step": 319
    },
    {
      "epoch": 0.08183159109856987,
      "loss": 2.1933367252349854,
      "loss_ce": 0.011696097441017628,
      "loss_iou": 0.94921875,
      "loss_num": 0.056396484375,
      "loss_xval": 2.1875,
      "num_input_tokens_seen": 40314776,
      "step": 319
    },
    {
      "epoch": 0.08208811646251524,
      "grad_norm": 35.31010437011719,
      "learning_rate": 5e-06,
      "loss": 2.0932,
      "num_input_tokens_seen": 40442032,
      "step": 320
    },
    {
      "epoch": 0.08208811646251524,
      "loss": 2.0577545166015625,
      "loss_ce": 0.002090286463499069,
      "loss_iou": 0.90234375,
      "loss_num": 0.050537109375,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 40442032,
      "step": 320
    },
    {
      "epoch": 0.08234464182646059,
      "grad_norm": 49.73766326904297,
      "learning_rate": 5e-06,
      "loss": 2.0163,
      "num_input_tokens_seen": 40568464,
      "step": 321
    },
    {
      "epoch": 0.08234464182646059,
      "loss": 1.8720080852508545,
      "loss_ce": 0.002867449074983597,
      "loss_iou": 0.859375,
      "loss_num": 0.029541015625,
      "loss_xval": 1.8671875,
      "num_input_tokens_seen": 40568464,
      "step": 321
    },
    {
      "epoch": 0.08260116719040596,
      "grad_norm": 34.36306381225586,
      "learning_rate": 5e-06,
      "loss": 2.0574,
      "num_input_tokens_seen": 40694580,
      "step": 322
    },
    {
      "epoch": 0.08260116719040596,
      "loss": 2.0855612754821777,
      "loss_ce": 0.0025534306187182665,
      "loss_iou": 0.921875,
      "loss_num": 0.048095703125,
      "loss_xval": 2.078125,
      "num_input_tokens_seen": 40694580,
      "step": 322
    },
    {
      "epoch": 0.08285769255435131,
      "grad_norm": 71.71194458007812,
      "learning_rate": 5e-06,
      "loss": 1.8492,
      "num_input_tokens_seen": 40820932,
      "step": 323
    },
    {
      "epoch": 0.08285769255435131,
      "loss": 1.9663660526275635,
      "loss_ce": 0.00249873218126595,
      "loss_iou": 0.8984375,
      "loss_num": 0.03271484375,
      "loss_xval": 1.9609375,
      "num_input_tokens_seen": 40820932,
      "step": 323
    },
    {
      "epoch": 0.08311421791829667,
      "grad_norm": 31.01168441772461,
      "learning_rate": 5e-06,
      "loss": 2.0396,
      "num_input_tokens_seen": 40947164,
      "step": 324
    },
    {
      "epoch": 0.08311421791829667,
      "loss": 1.9267469644546509,
      "loss_ce": 0.001942227827385068,
      "loss_iou": 0.8671875,
      "loss_num": 0.0390625,
      "loss_xval": 1.921875,
      "num_input_tokens_seen": 40947164,
      "step": 324
    },
    {
      "epoch": 0.08337074328224203,
      "grad_norm": 52.59309005737305,
      "learning_rate": 5e-06,
      "loss": 1.9765,
      "num_input_tokens_seen": 41073864,
      "step": 325
    },
    {
      "epoch": 0.08337074328224203,
      "loss": 1.9303945302963257,
      "loss_ce": 0.008519560098648071,
      "loss_iou": 0.86328125,
      "loss_num": 0.03955078125,
      "loss_xval": 1.921875,
      "num_input_tokens_seen": 41073864,
      "step": 325
    },
    {
      "epoch": 0.08362726864618739,
      "grad_norm": 35.378395080566406,
      "learning_rate": 5e-06,
      "loss": 2.1639,
      "num_input_tokens_seen": 41200792,
      "step": 326
    },
    {
      "epoch": 0.08362726864618739,
      "loss": 2.069206953048706,
      "loss_ce": 0.006706961430609226,
      "loss_iou": 0.91796875,
      "loss_num": 0.04541015625,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 41200792,
      "step": 326
    },
    {
      "epoch": 0.08388379401013275,
      "grad_norm": 30.763845443725586,
      "learning_rate": 5e-06,
      "loss": 1.838,
      "num_input_tokens_seen": 41326336,
      "step": 327
    },
    {
      "epoch": 0.08388379401013275,
      "loss": 1.6947425603866577,
      "loss_ce": 0.006265943869948387,
      "loss_iou": 0.765625,
      "loss_num": 0.0311279296875,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 41326336,
      "step": 327
    },
    {
      "epoch": 0.0841403193740781,
      "grad_norm": 73.30945587158203,
      "learning_rate": 5e-06,
      "loss": 1.9105,
      "num_input_tokens_seen": 41451948,
      "step": 328
    },
    {
      "epoch": 0.0841403193740781,
      "loss": 1.769942045211792,
      "loss_ce": 0.0023639630526304245,
      "loss_iou": 0.80859375,
      "loss_num": 0.029541015625,
      "loss_xval": 1.765625,
      "num_input_tokens_seen": 41451948,
      "step": 328
    },
    {
      "epoch": 0.08439684473802347,
      "grad_norm": 39.43877029418945,
      "learning_rate": 5e-06,
      "loss": 2.3367,
      "num_input_tokens_seen": 41578872,
      "step": 329
    },
    {
      "epoch": 0.08439684473802347,
      "loss": 2.3628485202789307,
      "loss_ce": 0.001520465943031013,
      "loss_iou": 1.0234375,
      "loss_num": 0.0625,
      "loss_xval": 2.359375,
      "num_input_tokens_seen": 41578872,
      "step": 329
    },
    {
      "epoch": 0.08465337010196883,
      "grad_norm": 28.91825294494629,
      "learning_rate": 5e-06,
      "loss": 2.0443,
      "num_input_tokens_seen": 41705708,
      "step": 330
    },
    {
      "epoch": 0.08465337010196883,
      "loss": 2.009075403213501,
      "loss_ce": 0.0022394044790416956,
      "loss_iou": 0.875,
      "loss_num": 0.052001953125,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 41705708,
      "step": 330
    },
    {
      "epoch": 0.0849098954659142,
      "grad_norm": 74.33367919921875,
      "learning_rate": 5e-06,
      "loss": 1.9746,
      "num_input_tokens_seen": 41830948,
      "step": 331
    },
    {
      "epoch": 0.0849098954659142,
      "loss": 1.8742315769195557,
      "loss_ce": 0.0021611948031932116,
      "loss_iou": 0.84375,
      "loss_num": 0.037109375,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 41830948,
      "step": 331
    },
    {
      "epoch": 0.08516642082985955,
      "grad_norm": 38.942474365234375,
      "learning_rate": 5e-06,
      "loss": 2.0466,
      "num_input_tokens_seen": 41957564,
      "step": 332
    },
    {
      "epoch": 0.08516642082985955,
      "loss": 2.1700406074523926,
      "loss_ce": 0.0020719519816339016,
      "loss_iou": 0.9609375,
      "loss_num": 0.050537109375,
      "loss_xval": 2.171875,
      "num_input_tokens_seen": 41957564,
      "step": 332
    },
    {
      "epoch": 0.08542294619380492,
      "grad_norm": 35.53105926513672,
      "learning_rate": 5e-06,
      "loss": 1.9198,
      "num_input_tokens_seen": 42082748,
      "step": 333
    },
    {
      "epoch": 0.08542294619380492,
      "loss": 1.8956103324890137,
      "loss_ce": 0.004985298030078411,
      "loss_iou": 0.859375,
      "loss_num": 0.035400390625,
      "loss_xval": 1.890625,
      "num_input_tokens_seen": 42082748,
      "step": 333
    },
    {
      "epoch": 0.08567947155775027,
      "grad_norm": 62.77531814575195,
      "learning_rate": 5e-06,
      "loss": 1.9514,
      "num_input_tokens_seen": 42209312,
      "step": 334
    },
    {
      "epoch": 0.08567947155775027,
      "loss": 1.9161392450332642,
      "loss_ce": 0.0020767301321029663,
      "loss_iou": 0.875,
      "loss_num": 0.031982421875,
      "loss_xval": 1.9140625,
      "num_input_tokens_seen": 42209312,
      "step": 334
    },
    {
      "epoch": 0.08593599692169564,
      "grad_norm": 45.00438690185547,
      "learning_rate": 5e-06,
      "loss": 2.1255,
      "num_input_tokens_seen": 42335452,
      "step": 335
    },
    {
      "epoch": 0.08593599692169564,
      "loss": 2.1374192237854004,
      "loss_ce": 0.0026534399949014187,
      "loss_iou": 0.94921875,
      "loss_num": 0.046875,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 42335452,
      "step": 335
    },
    {
      "epoch": 0.08619252228564099,
      "grad_norm": 39.92178726196289,
      "learning_rate": 5e-06,
      "loss": 1.9765,
      "num_input_tokens_seen": 42462052,
      "step": 336
    },
    {
      "epoch": 0.08619252228564099,
      "loss": 2.1666581630706787,
      "loss_ce": 0.004548938944935799,
      "loss_iou": 0.9609375,
      "loss_num": 0.048095703125,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 42462052,
      "step": 336
    },
    {
      "epoch": 0.08644904764958636,
      "grad_norm": 67.73116302490234,
      "learning_rate": 5e-06,
      "loss": 2.0433,
      "num_input_tokens_seen": 42588228,
      "step": 337
    },
    {
      "epoch": 0.08644904764958636,
      "loss": 2.058134078979492,
      "loss_ce": 0.0014934733044356108,
      "loss_iou": 0.94921875,
      "loss_num": 0.03173828125,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 42588228,
      "step": 337
    },
    {
      "epoch": 0.08670557301353171,
      "grad_norm": 32.76817321777344,
      "learning_rate": 5e-06,
      "loss": 2.4295,
      "num_input_tokens_seen": 42713744,
      "step": 338
    },
    {
      "epoch": 0.08670557301353171,
      "loss": 2.3363304138183594,
      "loss_ce": 0.002345960820093751,
      "loss_iou": 1.015625,
      "loss_num": 0.0595703125,
      "loss_xval": 2.328125,
      "num_input_tokens_seen": 42713744,
      "step": 338
    },
    {
      "epoch": 0.08696209837747708,
      "grad_norm": 31.98774528503418,
      "learning_rate": 5e-06,
      "loss": 2.1127,
      "num_input_tokens_seen": 42840752,
      "step": 339
    },
    {
      "epoch": 0.08696209837747708,
      "loss": 2.0008487701416016,
      "loss_ce": 0.0008488236926496029,
      "loss_iou": 0.89453125,
      "loss_num": 0.042724609375,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 42840752,
      "step": 339
    },
    {
      "epoch": 0.08721862374142243,
      "grad_norm": 43.33399200439453,
      "learning_rate": 5e-06,
      "loss": 1.8944,
      "num_input_tokens_seen": 42966564,
      "step": 340
    },
    {
      "epoch": 0.08721862374142243,
      "loss": 1.8025044202804565,
      "loss_ce": 0.003676345804706216,
      "loss_iou": 0.81640625,
      "loss_num": 0.03369140625,
      "loss_xval": 1.796875,
      "num_input_tokens_seen": 42966564,
      "step": 340
    },
    {
      "epoch": 0.0874751491053678,
      "grad_norm": 70.97069549560547,
      "learning_rate": 5e-06,
      "loss": 1.8752,
      "num_input_tokens_seen": 43092624,
      "step": 341
    },
    {
      "epoch": 0.0874751491053678,
      "loss": 1.6924054622650146,
      "loss_ce": 0.0009993019048124552,
      "loss_iou": 0.7890625,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 43092624,
      "step": 341
    },
    {
      "epoch": 0.08773167446931315,
      "grad_norm": 46.820491790771484,
      "learning_rate": 5e-06,
      "loss": 2.1108,
      "num_input_tokens_seen": 43219300,
      "step": 342
    },
    {
      "epoch": 0.08773167446931315,
      "loss": 2.0372846126556396,
      "loss_ce": 0.0011517130769789219,
      "loss_iou": 0.90625,
      "loss_num": 0.04443359375,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 43219300,
      "step": 342
    },
    {
      "epoch": 0.0879881998332585,
      "grad_norm": 30.59954833984375,
      "learning_rate": 5e-06,
      "loss": 1.8693,
      "num_input_tokens_seen": 43345552,
      "step": 343
    },
    {
      "epoch": 0.0879881998332585,
      "loss": 1.8340370655059814,
      "loss_ce": 0.0010292291408404708,
      "loss_iou": 0.8125,
      "loss_num": 0.04150390625,
      "loss_xval": 1.8359375,
      "num_input_tokens_seen": 43345552,
      "step": 343
    },
    {
      "epoch": 0.08824472519720387,
      "grad_norm": 65.5096206665039,
      "learning_rate": 5e-06,
      "loss": 1.9539,
      "num_input_tokens_seen": 43471912,
      "step": 344
    },
    {
      "epoch": 0.08824472519720387,
      "loss": 1.952235221862793,
      "loss_ce": 0.0010633106576278806,
      "loss_iou": 0.890625,
      "loss_num": 0.034912109375,
      "loss_xval": 1.953125,
      "num_input_tokens_seen": 43471912,
      "step": 344
    },
    {
      "epoch": 0.08850125056114923,
      "grad_norm": 33.71207046508789,
      "learning_rate": 5e-06,
      "loss": 2.0613,
      "num_input_tokens_seen": 43595624,
      "step": 345
    },
    {
      "epoch": 0.08850125056114923,
      "loss": 2.069028854370117,
      "loss_ce": 0.002622646978124976,
      "loss_iou": 0.90625,
      "loss_num": 0.05126953125,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 43595624,
      "step": 345
    },
    {
      "epoch": 0.0887577759250946,
      "grad_norm": 36.453407287597656,
      "learning_rate": 5e-06,
      "loss": 1.9835,
      "num_input_tokens_seen": 43722700,
      "step": 346
    },
    {
      "epoch": 0.0887577759250946,
      "loss": 2.160922050476074,
      "loss_ce": 0.004672117996960878,
      "loss_iou": 0.9453125,
      "loss_num": 0.052734375,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 43722700,
      "step": 346
    },
    {
      "epoch": 0.08901430128903995,
      "grad_norm": 73.64696502685547,
      "learning_rate": 5e-06,
      "loss": 1.8329,
      "num_input_tokens_seen": 43849576,
      "step": 347
    },
    {
      "epoch": 0.08901430128903995,
      "loss": 1.9572696685791016,
      "loss_ce": 0.0021915710531175137,
      "loss_iou": 0.890625,
      "loss_num": 0.035400390625,
      "loss_xval": 1.953125,
      "num_input_tokens_seen": 43849576,
      "step": 347
    },
    {
      "epoch": 0.08927082665298532,
      "grad_norm": 41.60002517700195,
      "learning_rate": 5e-06,
      "loss": 2.2567,
      "num_input_tokens_seen": 43975872,
      "step": 348
    },
    {
      "epoch": 0.08927082665298532,
      "loss": 2.241227865219116,
      "loss_ce": 0.002946640830487013,
      "loss_iou": 0.98046875,
      "loss_num": 0.055419921875,
      "loss_xval": 2.234375,
      "num_input_tokens_seen": 43975872,
      "step": 348
    },
    {
      "epoch": 0.08952735201693067,
      "grad_norm": 33.033058166503906,
      "learning_rate": 5e-06,
      "loss": 2.091,
      "num_input_tokens_seen": 44103356,
      "step": 349
    },
    {
      "epoch": 0.08952735201693067,
      "loss": 2.138526201248169,
      "loss_ce": 0.005713779479265213,
      "loss_iou": 0.9375,
      "loss_num": 0.05126953125,
      "loss_xval": 2.125,
      "num_input_tokens_seen": 44103356,
      "step": 349
    },
    {
      "epoch": 0.08978387738087604,
      "grad_norm": 92.88117980957031,
      "learning_rate": 5e-06,
      "loss": 1.8291,
      "num_input_tokens_seen": 44231064,
      "step": 350
    },
    {
      "epoch": 0.08978387738087604,
      "loss": 1.9968928098678589,
      "loss_ce": 0.00372876413166523,
      "loss_iou": 0.8984375,
      "loss_num": 0.0390625,
      "loss_xval": 1.9921875,
      "num_input_tokens_seen": 44231064,
      "step": 350
    },
    {
      "epoch": 0.09004040274482139,
      "grad_norm": 32.745452880859375,
      "learning_rate": 5e-06,
      "loss": 2.0204,
      "num_input_tokens_seen": 44356472,
      "step": 351
    },
    {
      "epoch": 0.09004040274482139,
      "loss": 1.8313908576965332,
      "loss_ce": 0.0013127943966537714,
      "loss_iou": 0.83984375,
      "loss_num": 0.0306396484375,
      "loss_xval": 1.828125,
      "num_input_tokens_seen": 44356472,
      "step": 351
    },
    {
      "epoch": 0.09029692810876676,
      "grad_norm": 45.47397232055664,
      "learning_rate": 5e-06,
      "loss": 2.0665,
      "num_input_tokens_seen": 44481532,
      "step": 352
    },
    {
      "epoch": 0.09029692810876676,
      "loss": 1.9851510524749756,
      "loss_ce": 0.003705753944814205,
      "loss_iou": 0.90625,
      "loss_num": 0.03369140625,
      "loss_xval": 1.984375,
      "num_input_tokens_seen": 44481532,
      "step": 352
    },
    {
      "epoch": 0.09055345347271211,
      "grad_norm": 39.66913986206055,
      "learning_rate": 5e-06,
      "loss": 2.0952,
      "num_input_tokens_seen": 44608676,
      "step": 353
    },
    {
      "epoch": 0.09055345347271211,
      "loss": 2.054137706756592,
      "loss_ce": 0.0014034186024218798,
      "loss_iou": 0.92578125,
      "loss_num": 0.0400390625,
      "loss_xval": 2.046875,
      "num_input_tokens_seen": 44608676,
      "step": 353
    },
    {
      "epoch": 0.09080997883665748,
      "grad_norm": 31.24917984008789,
      "learning_rate": 5e-06,
      "loss": 1.8657,
      "num_input_tokens_seen": 44734648,
      "step": 354
    },
    {
      "epoch": 0.09080997883665748,
      "loss": 1.877683401107788,
      "loss_ce": 0.0017068713204935193,
      "loss_iou": 0.83203125,
      "loss_num": 0.04248046875,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 44734648,
      "step": 354
    },
    {
      "epoch": 0.09106650420060283,
      "grad_norm": 58.90100860595703,
      "learning_rate": 5e-06,
      "loss": 1.9046,
      "num_input_tokens_seen": 44861268,
      "step": 355
    },
    {
      "epoch": 0.09106650420060283,
      "loss": 1.8268811702728271,
      "loss_ce": 0.00363890896551311,
      "loss_iou": 0.83984375,
      "loss_num": 0.0281982421875,
      "loss_xval": 1.8203125,
      "num_input_tokens_seen": 44861268,
      "step": 355
    },
    {
      "epoch": 0.0913230295645482,
      "grad_norm": 46.838199615478516,
      "learning_rate": 5e-06,
      "loss": 2.1363,
      "num_input_tokens_seen": 44986912,
      "step": 356
    },
    {
      "epoch": 0.0913230295645482,
      "loss": 2.0906214714050293,
      "loss_ce": 0.0017541771521791816,
      "loss_iou": 0.94140625,
      "loss_num": 0.041015625,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 44986912,
      "step": 356
    },
    {
      "epoch": 0.09157955492849355,
      "grad_norm": 32.001922607421875,
      "learning_rate": 5e-06,
      "loss": 1.7258,
      "num_input_tokens_seen": 45114500,
      "step": 357
    },
    {
      "epoch": 0.09157955492849355,
      "loss": 1.6585767269134521,
      "loss_ce": 0.0033032733481377363,
      "loss_iou": 0.75,
      "loss_num": 0.03173828125,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 45114500,
      "step": 357
    },
    {
      "epoch": 0.09183608029243892,
      "grad_norm": 54.96855926513672,
      "learning_rate": 5e-06,
      "loss": 1.7968,
      "num_input_tokens_seen": 45241052,
      "step": 358
    },
    {
      "epoch": 0.09183608029243892,
      "loss": 1.9780910015106201,
      "loss_ce": 0.0025050523690879345,
      "loss_iou": 0.8828125,
      "loss_num": 0.0419921875,
      "loss_xval": 1.9765625,
      "num_input_tokens_seen": 45241052,
      "step": 358
    },
    {
      "epoch": 0.09209260565638427,
      "grad_norm": 42.633201599121094,
      "learning_rate": 5e-06,
      "loss": 1.9386,
      "num_input_tokens_seen": 45367884,
      "step": 359
    },
    {
      "epoch": 0.09209260565638427,
      "loss": 2.0292630195617676,
      "loss_ce": 0.0019192514009773731,
      "loss_iou": 0.9140625,
      "loss_num": 0.040283203125,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 45367884,
      "step": 359
    },
    {
      "epoch": 0.09234913102032964,
      "grad_norm": 37.04764938354492,
      "learning_rate": 5e-06,
      "loss": 1.6593,
      "num_input_tokens_seen": 45494572,
      "step": 360
    },
    {
      "epoch": 0.09234913102032964,
      "loss": 1.745734691619873,
      "loss_ce": 0.0006176084280014038,
      "loss_iou": 0.796875,
      "loss_num": 0.030517578125,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 45494572,
      "step": 360
    },
    {
      "epoch": 0.092605656384275,
      "grad_norm": 54.436317443847656,
      "learning_rate": 5e-06,
      "loss": 1.91,
      "num_input_tokens_seen": 45621684,
      "step": 361
    },
    {
      "epoch": 0.092605656384275,
      "loss": 1.8512158393859863,
      "loss_ce": 0.0006300181848928332,
      "loss_iou": 0.83984375,
      "loss_num": 0.03466796875,
      "loss_xval": 1.8515625,
      "num_input_tokens_seen": 45621684,
      "step": 361
    },
    {
      "epoch": 0.09286218174822035,
      "grad_norm": 92.71322631835938,
      "learning_rate": 5e-06,
      "loss": 2.0366,
      "num_input_tokens_seen": 45748460,
      "step": 362
    },
    {
      "epoch": 0.09286218174822035,
      "loss": 1.9969830513000488,
      "loss_ce": 0.0008892226032912731,
      "loss_iou": 0.93359375,
      "loss_num": 0.0264892578125,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 45748460,
      "step": 362
    },
    {
      "epoch": 0.09311870711216572,
      "grad_norm": 30.931638717651367,
      "learning_rate": 5e-06,
      "loss": 2.1905,
      "num_input_tokens_seen": 45874904,
      "step": 363
    },
    {
      "epoch": 0.09311870711216572,
      "loss": 2.270930767059326,
      "loss_ce": 0.005305903032422066,
      "loss_iou": 0.97265625,
      "loss_num": 0.06396484375,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 45874904,
      "step": 363
    },
    {
      "epoch": 0.09337523247611107,
      "grad_norm": 33.67181396484375,
      "learning_rate": 5e-06,
      "loss": 1.9985,
      "num_input_tokens_seen": 46001452,
      "step": 364
    },
    {
      "epoch": 0.09337523247611107,
      "loss": 1.8927936553955078,
      "loss_ce": 0.0031452039256691933,
      "loss_iou": 0.84375,
      "loss_num": 0.041015625,
      "loss_xval": 1.890625,
      "num_input_tokens_seen": 46001452,
      "step": 364
    },
    {
      "epoch": 0.09363175784005644,
      "grad_norm": 29.497053146362305,
      "learning_rate": 5e-06,
      "loss": 1.8975,
      "num_input_tokens_seen": 46128216,
      "step": 365
    },
    {
      "epoch": 0.09363175784005644,
      "loss": 1.8923070430755615,
      "loss_ce": 0.004611681215465069,
      "loss_iou": 0.84765625,
      "loss_num": 0.0380859375,
      "loss_xval": 1.890625,
      "num_input_tokens_seen": 46128216,
      "step": 365
    },
    {
      "epoch": 0.09388828320400179,
      "grad_norm": 51.1405143737793,
      "learning_rate": 5e-06,
      "loss": 1.9559,
      "num_input_tokens_seen": 46253788,
      "step": 366
    },
    {
      "epoch": 0.09388828320400179,
      "loss": 2.061835765838623,
      "loss_ce": 0.004218538291752338,
      "loss_iou": 0.921875,
      "loss_num": 0.04248046875,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 46253788,
      "step": 366
    },
    {
      "epoch": 0.09414480856794716,
      "grad_norm": 46.46742248535156,
      "learning_rate": 5e-06,
      "loss": 1.9501,
      "num_input_tokens_seen": 46379996,
      "step": 367
    },
    {
      "epoch": 0.09414480856794716,
      "loss": 2.1706390380859375,
      "loss_ce": 0.006576630752533674,
      "loss_iou": 0.9609375,
      "loss_num": 0.04833984375,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 46379996,
      "step": 367
    },
    {
      "epoch": 0.09440133393189251,
      "grad_norm": 49.92007064819336,
      "learning_rate": 5e-06,
      "loss": 1.8015,
      "num_input_tokens_seen": 46505744,
      "step": 368
    },
    {
      "epoch": 0.09440133393189251,
      "loss": 1.6263514757156372,
      "loss_ce": 0.0013514544116333127,
      "loss_iou": 0.75390625,
      "loss_num": 0.0228271484375,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 46505744,
      "step": 368
    },
    {
      "epoch": 0.09465785929583788,
      "grad_norm": 51.64584732055664,
      "learning_rate": 5e-06,
      "loss": 2.0452,
      "num_input_tokens_seen": 46631548,
      "step": 369
    },
    {
      "epoch": 0.09465785929583788,
      "loss": 2.0989174842834473,
      "loss_ce": 0.005167662166059017,
      "loss_iou": 0.9296875,
      "loss_num": 0.046875,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 46631548,
      "step": 369
    },
    {
      "epoch": 0.09491438465978323,
      "grad_norm": 45.7161979675293,
      "learning_rate": 5e-06,
      "loss": 1.8576,
      "num_input_tokens_seen": 46758004,
      "step": 370
    },
    {
      "epoch": 0.09491438465978323,
      "loss": 2.003556966781616,
      "loss_ce": 0.0035570072941482067,
      "loss_iou": 0.90234375,
      "loss_num": 0.039306640625,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 46758004,
      "step": 370
    },
    {
      "epoch": 0.0951709100237286,
      "grad_norm": 58.55605697631836,
      "learning_rate": 5e-06,
      "loss": 1.9176,
      "num_input_tokens_seen": 46885204,
      "step": 371
    },
    {
      "epoch": 0.0951709100237286,
      "loss": 2.1191670894622803,
      "loss_ce": 0.004909203387796879,
      "loss_iou": 0.94921875,
      "loss_num": 0.043701171875,
      "loss_xval": 2.109375,
      "num_input_tokens_seen": 46885204,
      "step": 371
    },
    {
      "epoch": 0.09542743538767395,
      "grad_norm": 111.11799621582031,
      "learning_rate": 5e-06,
      "loss": 1.875,
      "num_input_tokens_seen": 47012672,
      "step": 372
    },
    {
      "epoch": 0.09542743538767395,
      "loss": 1.8831158876419067,
      "loss_ce": 0.004209638107568026,
      "loss_iou": 0.87109375,
      "loss_num": 0.02783203125,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 47012672,
      "step": 372
    },
    {
      "epoch": 0.09568396075161932,
      "grad_norm": 41.17919158935547,
      "learning_rate": 5e-06,
      "loss": 2.1693,
      "num_input_tokens_seen": 47138180,
      "step": 373
    },
    {
      "epoch": 0.09568396075161932,
      "loss": 2.2909669876098633,
      "loss_ce": 0.007763751316815615,
      "loss_iou": 1.0,
      "loss_num": 0.0576171875,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 47138180,
      "step": 373
    },
    {
      "epoch": 0.09594048611556467,
      "grad_norm": 46.01017761230469,
      "learning_rate": 5e-06,
      "loss": 2.082,
      "num_input_tokens_seen": 47264372,
      "step": 374
    },
    {
      "epoch": 0.09594048611556467,
      "loss": 2.1428093910217285,
      "loss_ce": 0.005114227067679167,
      "loss_iou": 0.94921875,
      "loss_num": 0.04833984375,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 47264372,
      "step": 374
    },
    {
      "epoch": 0.09619701147951004,
      "grad_norm": 41.89747619628906,
      "learning_rate": 5e-06,
      "loss": 2.0733,
      "num_input_tokens_seen": 47390860,
      "step": 375
    },
    {
      "epoch": 0.09619701147951004,
      "loss": 1.9032719135284424,
      "loss_ce": 0.0009281990933232009,
      "loss_iou": 0.8671875,
      "loss_num": 0.033203125,
      "loss_xval": 1.90625,
      "num_input_tokens_seen": 47390860,
      "step": 375
    },
    {
      "epoch": 0.0964535368434554,
      "grad_norm": 26.977554321289062,
      "learning_rate": 5e-06,
      "loss": 2.0231,
      "num_input_tokens_seen": 47517004,
      "step": 376
    },
    {
      "epoch": 0.0964535368434554,
      "loss": 1.9311347007751465,
      "loss_ce": 0.00047068134881556034,
      "loss_iou": 0.87109375,
      "loss_num": 0.0380859375,
      "loss_xval": 1.9296875,
      "num_input_tokens_seen": 47517004,
      "step": 376
    },
    {
      "epoch": 0.09671006220740076,
      "grad_norm": 27.046398162841797,
      "learning_rate": 5e-06,
      "loss": 1.7927,
      "num_input_tokens_seen": 47643720,
      "step": 377
    },
    {
      "epoch": 0.09671006220740076,
      "loss": 1.7474606037139893,
      "loss_ce": 0.0013667582534253597,
      "loss_iou": 0.8046875,
      "loss_num": 0.026611328125,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 47643720,
      "step": 377
    },
    {
      "epoch": 0.09696658757134612,
      "grad_norm": 27.567779541015625,
      "learning_rate": 5e-06,
      "loss": 1.782,
      "num_input_tokens_seen": 47770320,
      "step": 378
    },
    {
      "epoch": 0.09696658757134612,
      "loss": 1.847099781036377,
      "loss_ce": 0.010185705497860909,
      "loss_iou": 0.8125,
      "loss_num": 0.042236328125,
      "loss_xval": 1.8359375,
      "num_input_tokens_seen": 47770320,
      "step": 378
    },
    {
      "epoch": 0.09722311293529148,
      "grad_norm": 42.8397331237793,
      "learning_rate": 5e-06,
      "loss": 1.7814,
      "num_input_tokens_seen": 47897564,
      "step": 379
    },
    {
      "epoch": 0.09722311293529148,
      "loss": 1.6979308128356934,
      "loss_ce": 0.0026183421723544598,
      "loss_iou": 0.78515625,
      "loss_num": 0.025634765625,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 47897564,
      "step": 379
    },
    {
      "epoch": 0.09747963829923684,
      "grad_norm": 39.85624313354492,
      "learning_rate": 5e-06,
      "loss": 1.8764,
      "num_input_tokens_seen": 48023776,
      "step": 380
    },
    {
      "epoch": 0.09747963829923684,
      "loss": 1.981938123703003,
      "loss_ce": 0.009281916543841362,
      "loss_iou": 0.890625,
      "loss_num": 0.03857421875,
      "loss_xval": 1.96875,
      "num_input_tokens_seen": 48023776,
      "step": 380
    },
    {
      "epoch": 0.09773616366318219,
      "grad_norm": 76.34963989257812,
      "learning_rate": 5e-06,
      "loss": 1.927,
      "num_input_tokens_seen": 48150584,
      "step": 381
    },
    {
      "epoch": 0.09773616366318219,
      "loss": 2.009948253631592,
      "loss_ce": 0.005065613891929388,
      "loss_iou": 0.921875,
      "loss_num": 0.031982421875,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 48150584,
      "step": 381
    },
    {
      "epoch": 0.09799268902712756,
      "grad_norm": 37.40764617919922,
      "learning_rate": 5e-06,
      "loss": 2.2328,
      "num_input_tokens_seen": 48276472,
      "step": 382
    },
    {
      "epoch": 0.09799268902712756,
      "loss": 2.1764633655548096,
      "loss_ce": 0.0006822074647061527,
      "loss_iou": 0.96875,
      "loss_num": 0.0478515625,
      "loss_xval": 2.171875,
      "num_input_tokens_seen": 48276472,
      "step": 382
    },
    {
      "epoch": 0.09824921439107291,
      "grad_norm": 37.27070999145508,
      "learning_rate": 5e-06,
      "loss": 1.9252,
      "num_input_tokens_seen": 48403056,
      "step": 383
    },
    {
      "epoch": 0.09824921439107291,
      "loss": 1.8889168500900269,
      "loss_ce": 0.0021980367600917816,
      "loss_iou": 0.84765625,
      "loss_num": 0.0380859375,
      "loss_xval": 1.890625,
      "num_input_tokens_seen": 48403056,
      "step": 383
    },
    {
      "epoch": 0.09850573975501828,
      "grad_norm": 27.008848190307617,
      "learning_rate": 5e-06,
      "loss": 1.8778,
      "num_input_tokens_seen": 48528428,
      "step": 384
    },
    {
      "epoch": 0.09850573975501828,
      "loss": 1.9574403762817383,
      "loss_ce": 0.003338810056447983,
      "loss_iou": 0.875,
      "loss_num": 0.041259765625,
      "loss_xval": 1.953125,
      "num_input_tokens_seen": 48528428,
      "step": 384
    },
    {
      "epoch": 0.09876226511896363,
      "grad_norm": 34.96820068359375,
      "learning_rate": 5e-06,
      "loss": 1.7085,
      "num_input_tokens_seen": 48653992,
      "step": 385
    },
    {
      "epoch": 0.09876226511896363,
      "loss": 1.7924166917800903,
      "loss_ce": 0.012143252417445183,
      "loss_iou": 0.80078125,
      "loss_num": 0.0361328125,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 48653992,
      "step": 385
    },
    {
      "epoch": 0.099018790482909,
      "grad_norm": 65.2629165649414,
      "learning_rate": 5e-06,
      "loss": 1.8238,
      "num_input_tokens_seen": 48780472,
      "step": 386
    },
    {
      "epoch": 0.099018790482909,
      "loss": 2.009025812149048,
      "loss_ce": 0.003166389651596546,
      "loss_iou": 0.91015625,
      "loss_num": 0.037841796875,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 48780472,
      "step": 386
    },
    {
      "epoch": 0.09927531584685435,
      "grad_norm": 45.25067901611328,
      "learning_rate": 5e-06,
      "loss": 2.0578,
      "num_input_tokens_seen": 48907968,
      "step": 387
    },
    {
      "epoch": 0.09927531584685435,
      "loss": 2.186983108520508,
      "loss_ce": 0.002412930829450488,
      "loss_iou": 0.96875,
      "loss_num": 0.04931640625,
      "loss_xval": 2.1875,
      "num_input_tokens_seen": 48907968,
      "step": 387
    },
    {
      "epoch": 0.09953184121079972,
      "grad_norm": 32.712642669677734,
      "learning_rate": 5e-06,
      "loss": 1.9374,
      "num_input_tokens_seen": 49033404,
      "step": 388
    },
    {
      "epoch": 0.09953184121079972,
      "loss": 2.0127270221710205,
      "loss_ce": 0.005891070701181889,
      "loss_iou": 0.890625,
      "loss_num": 0.044921875,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 49033404,
      "step": 388
    },
    {
      "epoch": 0.09978836657474507,
      "grad_norm": 87.1080551147461,
      "learning_rate": 5e-06,
      "loss": 1.6803,
      "num_input_tokens_seen": 49159752,
      "step": 389
    },
    {
      "epoch": 0.09978836657474507,
      "loss": 1.70613694190979,
      "loss_ce": 0.002035434590652585,
      "loss_iou": 0.796875,
      "loss_num": 0.0220947265625,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 49159752,
      "step": 389
    },
    {
      "epoch": 0.10004489193869044,
      "grad_norm": 39.38822937011719,
      "learning_rate": 5e-06,
      "loss": 2.0674,
      "num_input_tokens_seen": 49285864,
      "step": 390
    },
    {
      "epoch": 0.10004489193869044,
      "loss": 1.9568365812301636,
      "loss_ce": 0.0007818570593371987,
      "loss_iou": 0.8828125,
      "loss_num": 0.038818359375,
      "loss_xval": 1.953125,
      "num_input_tokens_seen": 49285864,
      "step": 390
    },
    {
      "epoch": 0.1003014173026358,
      "grad_norm": 50.23189163208008,
      "learning_rate": 5e-06,
      "loss": 1.7963,
      "num_input_tokens_seen": 49412656,
      "step": 391
    },
    {
      "epoch": 0.1003014173026358,
      "loss": 1.7448450326919556,
      "loss_ce": 0.0016809296794235706,
      "loss_iou": 0.80078125,
      "loss_num": 0.028564453125,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 49412656,
      "step": 391
    },
    {
      "epoch": 0.10055794266658116,
      "grad_norm": 45.05488204956055,
      "learning_rate": 5e-06,
      "loss": 1.8193,
      "num_input_tokens_seen": 49538876,
      "step": 392
    },
    {
      "epoch": 0.10055794266658116,
      "loss": 1.7290843725204468,
      "loss_ce": 0.0025218932423740625,
      "loss_iou": 0.78125,
      "loss_num": 0.0322265625,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 49538876,
      "step": 392
    },
    {
      "epoch": 0.10081446803052652,
      "grad_norm": 45.206180572509766,
      "learning_rate": 5e-06,
      "loss": 1.8259,
      "num_input_tokens_seen": 49665532,
      "step": 393
    },
    {
      "epoch": 0.10081446803052652,
      "loss": 1.7593746185302734,
      "loss_ce": 0.0025386556517332792,
      "loss_iou": 0.796875,
      "loss_num": 0.03173828125,
      "loss_xval": 1.7578125,
      "num_input_tokens_seen": 49665532,
      "step": 393
    },
    {
      "epoch": 0.10107099339447188,
      "grad_norm": 44.7424201965332,
      "learning_rate": 5e-06,
      "loss": 1.8836,
      "num_input_tokens_seen": 49792176,
      "step": 394
    },
    {
      "epoch": 0.10107099339447188,
      "loss": 1.9938554763793945,
      "loss_ce": 0.004597583785653114,
      "loss_iou": 0.89453125,
      "loss_num": 0.039794921875,
      "loss_xval": 1.9921875,
      "num_input_tokens_seen": 49792176,
      "step": 394
    },
    {
      "epoch": 0.10132751875841724,
      "grad_norm": 63.11256408691406,
      "learning_rate": 5e-06,
      "loss": 1.8382,
      "num_input_tokens_seen": 49918192,
      "step": 395
    },
    {
      "epoch": 0.10132751875841724,
      "loss": 1.7171096801757812,
      "loss_ce": 0.0022659602109342813,
      "loss_iou": 0.7890625,
      "loss_num": 0.0269775390625,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 49918192,
      "step": 395
    },
    {
      "epoch": 0.1015840441223626,
      "grad_norm": 45.020912170410156,
      "learning_rate": 5e-06,
      "loss": 2.093,
      "num_input_tokens_seen": 50044196,
      "step": 396
    },
    {
      "epoch": 0.1015840441223626,
      "loss": 2.035141944885254,
      "loss_ce": 0.0019388271030038595,
      "loss_iou": 0.9140625,
      "loss_num": 0.041015625,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 50044196,
      "step": 396
    },
    {
      "epoch": 0.10184056948630796,
      "grad_norm": 30.95770835876465,
      "learning_rate": 5e-06,
      "loss": 1.8656,
      "num_input_tokens_seen": 50169376,
      "step": 397
    },
    {
      "epoch": 0.10184056948630796,
      "loss": 1.7575057744979858,
      "loss_ce": 0.0006698445649817586,
      "loss_iou": 0.80078125,
      "loss_num": 0.0303955078125,
      "loss_xval": 1.7578125,
      "num_input_tokens_seen": 50169376,
      "step": 397
    },
    {
      "epoch": 0.10209709485025333,
      "grad_norm": 72.34020233154297,
      "learning_rate": 5e-06,
      "loss": 1.8197,
      "num_input_tokens_seen": 50293692,
      "step": 398
    },
    {
      "epoch": 0.10209709485025333,
      "loss": 1.7731654644012451,
      "loss_ce": 0.0016812339890748262,
      "loss_iou": 0.8203125,
      "loss_num": 0.0267333984375,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 50293692,
      "step": 398
    },
    {
      "epoch": 0.10235362021419868,
      "grad_norm": 45.61842727661133,
      "learning_rate": 5e-06,
      "loss": 1.9679,
      "num_input_tokens_seen": 50419636,
      "step": 399
    },
    {
      "epoch": 0.10235362021419868,
      "loss": 2.0103721618652344,
      "loss_ce": 0.0025595633778721094,
      "loss_iou": 0.890625,
      "loss_num": 0.044677734375,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 50419636,
      "step": 399
    },
    {
      "epoch": 0.10261014557814403,
      "grad_norm": 44.74113464355469,
      "learning_rate": 5e-06,
      "loss": 1.7642,
      "num_input_tokens_seen": 50547072,
      "step": 400
    },
    {
      "epoch": 0.10261014557814403,
      "loss": 1.5722901821136475,
      "loss_ce": 0.0010011489503085613,
      "loss_iou": 0.7265625,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 50547072,
      "step": 400
    },
    {
      "epoch": 0.1028666709420894,
      "grad_norm": 101.76426696777344,
      "learning_rate": 5e-06,
      "loss": 1.9802,
      "num_input_tokens_seen": 50673264,
      "step": 401
    },
    {
      "epoch": 0.1028666709420894,
      "loss": 2.0145387649536133,
      "loss_ce": 0.0037967341486364603,
      "loss_iou": 0.91796875,
      "loss_num": 0.03466796875,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 50673264,
      "step": 401
    },
    {
      "epoch": 0.10312319630603475,
      "grad_norm": 30.73699188232422,
      "learning_rate": 5e-06,
      "loss": 2.1181,
      "num_input_tokens_seen": 50800320,
      "step": 402
    },
    {
      "epoch": 0.10312319630603475,
      "loss": 1.9271509647369385,
      "loss_ce": 0.00234632333740592,
      "loss_iou": 0.86328125,
      "loss_num": 0.039794921875,
      "loss_xval": 1.921875,
      "num_input_tokens_seen": 50800320,
      "step": 402
    },
    {
      "epoch": 0.10337972166998012,
      "grad_norm": 91.9260482788086,
      "learning_rate": 5e-06,
      "loss": 1.8528,
      "num_input_tokens_seen": 50926476,
      "step": 403
    },
    {
      "epoch": 0.10337972166998012,
      "loss": 1.7707874774932861,
      "loss_ce": 0.005162440240383148,
      "loss_iou": 0.79296875,
      "loss_num": 0.03564453125,
      "loss_xval": 1.765625,
      "num_input_tokens_seen": 50926476,
      "step": 403
    },
    {
      "epoch": 0.10363624703392547,
      "grad_norm": 38.76560974121094,
      "learning_rate": 5e-06,
      "loss": 1.8079,
      "num_input_tokens_seen": 51054132,
      "step": 404
    },
    {
      "epoch": 0.10363624703392547,
      "loss": 1.9710948467254639,
      "loss_ce": 0.0023449005093425512,
      "loss_iou": 0.8828125,
      "loss_num": 0.041015625,
      "loss_xval": 1.96875,
      "num_input_tokens_seen": 51054132,
      "step": 404
    },
    {
      "epoch": 0.10389277239787084,
      "grad_norm": 36.57107925415039,
      "learning_rate": 5e-06,
      "loss": 1.714,
      "num_input_tokens_seen": 51180276,
      "step": 405
    },
    {
      "epoch": 0.10389277239787084,
      "loss": 1.557878851890564,
      "loss_ce": 0.0012381927808746696,
      "loss_iou": 0.71875,
      "loss_num": 0.024169921875,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 51180276,
      "step": 405
    },
    {
      "epoch": 0.1041492977618162,
      "grad_norm": 67.13604736328125,
      "learning_rate": 5e-06,
      "loss": 1.8672,
      "num_input_tokens_seen": 51305076,
      "step": 406
    },
    {
      "epoch": 0.1041492977618162,
      "loss": 2.1625876426696777,
      "loss_ce": 0.007314011454582214,
      "loss_iou": 0.96484375,
      "loss_num": 0.045166015625,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 51305076,
      "step": 406
    },
    {
      "epoch": 0.10440582312576156,
      "grad_norm": 46.04188919067383,
      "learning_rate": 5e-06,
      "loss": 1.9085,
      "num_input_tokens_seen": 51431172,
      "step": 407
    },
    {
      "epoch": 0.10440582312576156,
      "loss": 2.0135154724121094,
      "loss_ce": 0.0008201323798857629,
      "loss_iou": 0.90625,
      "loss_num": 0.040283203125,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 51431172,
      "step": 407
    },
    {
      "epoch": 0.10466234848970692,
      "grad_norm": 36.4671630859375,
      "learning_rate": 5e-06,
      "loss": 1.8289,
      "num_input_tokens_seen": 51557136,
      "step": 408
    },
    {
      "epoch": 0.10466234848970692,
      "loss": 1.9439496994018555,
      "loss_ce": 0.006449779495596886,
      "loss_iou": 0.8671875,
      "loss_num": 0.04052734375,
      "loss_xval": 1.9375,
      "num_input_tokens_seen": 51557136,
      "step": 408
    },
    {
      "epoch": 0.10491887385365228,
      "grad_norm": 60.42519760131836,
      "learning_rate": 5e-06,
      "loss": 1.7971,
      "num_input_tokens_seen": 51682540,
      "step": 409
    },
    {
      "epoch": 0.10491887385365228,
      "loss": 1.6277374029159546,
      "loss_ce": 0.0007843549246899784,
      "loss_iou": 0.75,
      "loss_num": 0.02490234375,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 51682540,
      "step": 409
    },
    {
      "epoch": 0.10517539921759764,
      "grad_norm": 45.99513626098633,
      "learning_rate": 5e-06,
      "loss": 1.8143,
      "num_input_tokens_seen": 51808536,
      "step": 410
    },
    {
      "epoch": 0.10517539921759764,
      "loss": 1.5829787254333496,
      "loss_ce": 0.0009474909165874124,
      "loss_iou": 0.74609375,
      "loss_num": 0.0185546875,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 51808536,
      "step": 410
    },
    {
      "epoch": 0.105431924581543,
      "grad_norm": 55.012760162353516,
      "learning_rate": 5e-06,
      "loss": 1.8428,
      "num_input_tokens_seen": 51935036,
      "step": 411
    },
    {
      "epoch": 0.105431924581543,
      "loss": 1.7962709665298462,
      "loss_ce": 0.002325579058378935,
      "loss_iou": 0.8125,
      "loss_num": 0.033447265625,
      "loss_xval": 1.796875,
      "num_input_tokens_seen": 51935036,
      "step": 411
    },
    {
      "epoch": 0.10568844994548836,
      "grad_norm": 101.16960144042969,
      "learning_rate": 5e-06,
      "loss": 1.8949,
      "num_input_tokens_seen": 52061100,
      "step": 412
    },
    {
      "epoch": 0.10568844994548836,
      "loss": 1.9165418148040771,
      "loss_ce": 0.0034558130428195,
      "loss_iou": 0.87890625,
      "loss_num": 0.03076171875,
      "loss_xval": 1.9140625,
      "num_input_tokens_seen": 52061100,
      "step": 412
    },
    {
      "epoch": 0.10594497530943373,
      "grad_norm": 39.75946807861328,
      "learning_rate": 5e-06,
      "loss": 2.041,
      "num_input_tokens_seen": 52187212,
      "step": 413
    },
    {
      "epoch": 0.10594497530943373,
      "loss": 2.13708758354187,
      "loss_ce": 0.0032984924037009478,
      "loss_iou": 0.9375,
      "loss_num": 0.051025390625,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 52187212,
      "step": 413
    },
    {
      "epoch": 0.10620150067337908,
      "grad_norm": 36.745365142822266,
      "learning_rate": 5e-06,
      "loss": 1.8476,
      "num_input_tokens_seen": 52314332,
      "step": 414
    },
    {
      "epoch": 0.10620150067337908,
      "loss": 1.70456862449646,
      "loss_ce": 0.0004671252390835434,
      "loss_iou": 0.77734375,
      "loss_num": 0.029541015625,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 52314332,
      "step": 414
    },
    {
      "epoch": 0.10645802603732445,
      "grad_norm": 41.343719482421875,
      "learning_rate": 5e-06,
      "loss": 1.6172,
      "num_input_tokens_seen": 52439956,
      "step": 415
    },
    {
      "epoch": 0.10645802603732445,
      "loss": 1.7731833457946777,
      "loss_ce": 0.0016989423893392086,
      "loss_iou": 0.81640625,
      "loss_num": 0.0279541015625,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 52439956,
      "step": 415
    },
    {
      "epoch": 0.1067145514012698,
      "grad_norm": 52.96699142456055,
      "learning_rate": 5e-06,
      "loss": 1.7222,
      "num_input_tokens_seen": 52567116,
      "step": 416
    },
    {
      "epoch": 0.1067145514012698,
      "loss": 1.8557533025741577,
      "loss_ce": 0.0012610559351742268,
      "loss_iou": 0.8359375,
      "loss_num": 0.03662109375,
      "loss_xval": 1.8515625,
      "num_input_tokens_seen": 52567116,
      "step": 416
    },
    {
      "epoch": 0.10697107676521517,
      "grad_norm": 32.44997024536133,
      "learning_rate": 5e-06,
      "loss": 1.8443,
      "num_input_tokens_seen": 52691920,
      "step": 417
    },
    {
      "epoch": 0.10697107676521517,
      "loss": 1.8001456260681152,
      "loss_ce": 0.005223775748163462,
      "loss_iou": 0.8046875,
      "loss_num": 0.037109375,
      "loss_xval": 1.796875,
      "num_input_tokens_seen": 52691920,
      "step": 417
    },
    {
      "epoch": 0.10722760212916052,
      "grad_norm": 28.522615432739258,
      "learning_rate": 5e-06,
      "loss": 1.7361,
      "num_input_tokens_seen": 52817552,
      "step": 418
    },
    {
      "epoch": 0.10722760212916052,
      "loss": 1.5261805057525635,
      "loss_ce": 0.0007898452458903193,
      "loss_iou": 0.72265625,
      "loss_num": 0.0166015625,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 52817552,
      "step": 418
    },
    {
      "epoch": 0.10748412749310587,
      "grad_norm": 56.645729064941406,
      "learning_rate": 5e-06,
      "loss": 1.8134,
      "num_input_tokens_seen": 52943824,
      "step": 419
    },
    {
      "epoch": 0.10748412749310587,
      "loss": 2.0826609134674072,
      "loss_ce": 0.003559364937245846,
      "loss_iou": 0.9375,
      "loss_num": 0.040283203125,
      "loss_xval": 2.078125,
      "num_input_tokens_seen": 52943824,
      "step": 419
    },
    {
      "epoch": 0.10774065285705124,
      "grad_norm": 63.598140716552734,
      "learning_rate": 5e-06,
      "loss": 1.7619,
      "num_input_tokens_seen": 53070772,
      "step": 420
    },
    {
      "epoch": 0.10774065285705124,
      "loss": 1.6294734477996826,
      "loss_ce": 0.001543697202578187,
      "loss_iou": 0.7578125,
      "loss_num": 0.0224609375,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 53070772,
      "step": 420
    },
    {
      "epoch": 0.1079971782209966,
      "grad_norm": 79.30410766601562,
      "learning_rate": 5e-06,
      "loss": 2.0085,
      "num_input_tokens_seen": 53196960,
      "step": 421
    },
    {
      "epoch": 0.1079971782209966,
      "loss": 2.0633955001831055,
      "loss_ce": 0.0028485646471381187,
      "loss_iou": 0.9296875,
      "loss_num": 0.041015625,
      "loss_xval": 2.0625,
      "num_input_tokens_seen": 53196960,
      "step": 421
    },
    {
      "epoch": 0.10825370358494196,
      "grad_norm": 41.807945251464844,
      "learning_rate": 5e-06,
      "loss": 1.9425,
      "num_input_tokens_seen": 53322828,
      "step": 422
    },
    {
      "epoch": 0.10825370358494196,
      "loss": 2.0428686141967773,
      "loss_ce": 0.0028295726515352726,
      "loss_iou": 0.8984375,
      "loss_num": 0.04833984375,
      "loss_xval": 2.046875,
      "num_input_tokens_seen": 53322828,
      "step": 422
    },
    {
      "epoch": 0.10851022894888732,
      "grad_norm": 38.706390380859375,
      "learning_rate": 5e-06,
      "loss": 1.7605,
      "num_input_tokens_seen": 53448580,
      "step": 423
    },
    {
      "epoch": 0.10851022894888732,
      "loss": 1.6660207509994507,
      "loss_ce": 0.002934785559773445,
      "loss_iou": 0.76171875,
      "loss_num": 0.02734375,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 53448580,
      "step": 423
    },
    {
      "epoch": 0.10876675431283268,
      "grad_norm": 42.25354766845703,
      "learning_rate": 5e-06,
      "loss": 1.6892,
      "num_input_tokens_seen": 53575176,
      "step": 424
    },
    {
      "epoch": 0.10876675431283268,
      "loss": 1.6477659940719604,
      "loss_ce": 0.001281648874282837,
      "loss_iou": 0.74609375,
      "loss_num": 0.03076171875,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 53575176,
      "step": 424
    },
    {
      "epoch": 0.10902327967677804,
      "grad_norm": 105.33165740966797,
      "learning_rate": 5e-06,
      "loss": 1.8146,
      "num_input_tokens_seen": 53702324,
      "step": 425
    },
    {
      "epoch": 0.10902327967677804,
      "loss": 1.7754220962524414,
      "loss_ce": 0.002961251884698868,
      "loss_iou": 0.80859375,
      "loss_num": 0.0311279296875,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 53702324,
      "step": 425
    },
    {
      "epoch": 0.1092798050407234,
      "grad_norm": 46.32204818725586,
      "learning_rate": 5e-06,
      "loss": 2.0274,
      "num_input_tokens_seen": 53828256,
      "step": 426
    },
    {
      "epoch": 0.1092798050407234,
      "loss": 1.9903128147125244,
      "loss_ce": 0.002031689276918769,
      "loss_iou": 0.90625,
      "loss_num": 0.035888671875,
      "loss_xval": 1.984375,
      "num_input_tokens_seen": 53828256,
      "step": 426
    },
    {
      "epoch": 0.10953633040466876,
      "grad_norm": 36.0590705871582,
      "learning_rate": 5e-06,
      "loss": 1.9017,
      "num_input_tokens_seen": 53954976,
      "step": 427
    },
    {
      "epoch": 0.10953633040466876,
      "loss": 1.9017456769943237,
      "loss_ce": 0.0023316240403801203,
      "loss_iou": 0.83984375,
      "loss_num": 0.044677734375,
      "loss_xval": 1.8984375,
      "num_input_tokens_seen": 53954976,
      "step": 427
    },
    {
      "epoch": 0.10979285576861413,
      "grad_norm": 34.90947341918945,
      "learning_rate": 5e-06,
      "loss": 1.8217,
      "num_input_tokens_seen": 54081696,
      "step": 428
    },
    {
      "epoch": 0.10979285576861413,
      "loss": 1.701188087463379,
      "loss_ce": 0.0009927484206855297,
      "loss_iou": 0.765625,
      "loss_num": 0.0341796875,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 54081696,
      "step": 428
    },
    {
      "epoch": 0.11004938113255948,
      "grad_norm": 35.385154724121094,
      "learning_rate": 5e-06,
      "loss": 1.8222,
      "num_input_tokens_seen": 54207260,
      "step": 429
    },
    {
      "epoch": 0.11004938113255948,
      "loss": 1.9147478342056274,
      "loss_ce": 0.002638458739966154,
      "loss_iou": 0.859375,
      "loss_num": 0.03857421875,
      "loss_xval": 1.9140625,
      "num_input_tokens_seen": 54207260,
      "step": 429
    },
    {
      "epoch": 0.11030590649650485,
      "grad_norm": 68.71649169921875,
      "learning_rate": 5e-06,
      "loss": 1.7898,
      "num_input_tokens_seen": 54333640,
      "step": 430
    },
    {
      "epoch": 0.11030590649650485,
      "loss": 1.9323217868804932,
      "loss_ce": 0.003610863583162427,
      "loss_iou": 0.86328125,
      "loss_num": 0.04150390625,
      "loss_xval": 1.9296875,
      "num_input_tokens_seen": 54333640,
      "step": 430
    },
    {
      "epoch": 0.1105624318604502,
      "grad_norm": 34.09584426879883,
      "learning_rate": 5e-06,
      "loss": 1.956,
      "num_input_tokens_seen": 54461124,
      "step": 431
    },
    {
      "epoch": 0.1105624318604502,
      "loss": 1.970023512840271,
      "loss_ce": 0.003226581495255232,
      "loss_iou": 0.875,
      "loss_num": 0.0439453125,
      "loss_xval": 1.96875,
      "num_input_tokens_seen": 54461124,
      "step": 431
    },
    {
      "epoch": 0.11081895722439557,
      "grad_norm": 58.23276138305664,
      "learning_rate": 5e-06,
      "loss": 1.8524,
      "num_input_tokens_seen": 54587948,
      "step": 432
    },
    {
      "epoch": 0.11081895722439557,
      "loss": 1.702561616897583,
      "loss_ce": 0.0013897698372602463,
      "loss_iou": 0.7734375,
      "loss_num": 0.03125,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 54587948,
      "step": 432
    },
    {
      "epoch": 0.11107548258834092,
      "grad_norm": 35.15635299682617,
      "learning_rate": 5e-06,
      "loss": 1.8205,
      "num_input_tokens_seen": 54715208,
      "step": 433
    },
    {
      "epoch": 0.11107548258834092,
      "loss": 1.9890425205230713,
      "loss_ce": 0.004667556844651699,
      "loss_iou": 0.87890625,
      "loss_num": 0.04541015625,
      "loss_xval": 1.984375,
      "num_input_tokens_seen": 54715208,
      "step": 433
    },
    {
      "epoch": 0.11133200795228629,
      "grad_norm": 46.86457061767578,
      "learning_rate": 5e-06,
      "loss": 1.7029,
      "num_input_tokens_seen": 54842340,
      "step": 434
    },
    {
      "epoch": 0.11133200795228629,
      "loss": 1.7530335187911987,
      "loss_ce": 0.0010804182384163141,
      "loss_iou": 0.81640625,
      "loss_num": 0.02294921875,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 54842340,
      "step": 434
    },
    {
      "epoch": 0.11158853331623164,
      "grad_norm": 51.49827575683594,
      "learning_rate": 5e-06,
      "loss": 1.7707,
      "num_input_tokens_seen": 54969424,
      "step": 435
    },
    {
      "epoch": 0.11158853331623164,
      "loss": 1.773402214050293,
      "loss_ce": 0.002894323319196701,
      "loss_iou": 0.8203125,
      "loss_num": 0.026611328125,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 54969424,
      "step": 435
    },
    {
      "epoch": 0.11184505868017701,
      "grad_norm": 66.16261291503906,
      "learning_rate": 5e-06,
      "loss": 1.8966,
      "num_input_tokens_seen": 55094188,
      "step": 436
    },
    {
      "epoch": 0.11184505868017701,
      "loss": 1.8799519538879395,
      "loss_ce": 0.005928606726229191,
      "loss_iou": 0.87109375,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 55094188,
      "step": 436
    },
    {
      "epoch": 0.11210158404412236,
      "grad_norm": 41.551151275634766,
      "learning_rate": 5e-06,
      "loss": 1.9842,
      "num_input_tokens_seen": 55219580,
      "step": 437
    },
    {
      "epoch": 0.11210158404412236,
      "loss": 2.0122172832489014,
      "loss_ce": 0.001475208904594183,
      "loss_iou": 0.8984375,
      "loss_num": 0.04248046875,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 55219580,
      "step": 437
    },
    {
      "epoch": 0.11235810940806772,
      "grad_norm": 55.89268493652344,
      "learning_rate": 5e-06,
      "loss": 1.8722,
      "num_input_tokens_seen": 55346164,
      "step": 438
    },
    {
      "epoch": 0.11235810940806772,
      "loss": 1.8634271621704102,
      "loss_ce": 0.004052193835377693,
      "loss_iou": 0.8359375,
      "loss_num": 0.037841796875,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 55346164,
      "step": 438
    },
    {
      "epoch": 0.11261463477201308,
      "grad_norm": 37.4359016418457,
      "learning_rate": 5e-06,
      "loss": 1.7138,
      "num_input_tokens_seen": 55473204,
      "step": 439
    },
    {
      "epoch": 0.11261463477201308,
      "loss": 1.5784733295440674,
      "loss_ce": 0.002301404718309641,
      "loss_iou": 0.734375,
      "loss_num": 0.02197265625,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 55473204,
      "step": 439
    },
    {
      "epoch": 0.11287116013595844,
      "grad_norm": 41.40851593017578,
      "learning_rate": 5e-06,
      "loss": 1.7172,
      "num_input_tokens_seen": 55598892,
      "step": 440
    },
    {
      "epoch": 0.11287116013595844,
      "loss": 1.5968191623687744,
      "loss_ce": 0.0020925644785165787,
      "loss_iou": 0.73828125,
      "loss_num": 0.024169921875,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 55598892,
      "step": 440
    },
    {
      "epoch": 0.1131276854999038,
      "grad_norm": 68.53234100341797,
      "learning_rate": 5e-06,
      "loss": 1.9479,
      "num_input_tokens_seen": 55725876,
      "step": 441
    },
    {
      "epoch": 0.1131276854999038,
      "loss": 2.1297075748443604,
      "loss_ce": 0.006660687271505594,
      "loss_iou": 0.95703125,
      "loss_num": 0.0419921875,
      "loss_xval": 2.125,
      "num_input_tokens_seen": 55725876,
      "step": 441
    },
    {
      "epoch": 0.11338421086384916,
      "grad_norm": 49.62549591064453,
      "learning_rate": 5e-06,
      "loss": 1.8303,
      "num_input_tokens_seen": 55851640,
      "step": 442
    },
    {
      "epoch": 0.11338421086384916,
      "loss": 1.8788096904754639,
      "loss_ce": 0.004786320962011814,
      "loss_iou": 0.8515625,
      "loss_num": 0.034912109375,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 55851640,
      "step": 442
    },
    {
      "epoch": 0.11364073622779453,
      "grad_norm": 26.42085838317871,
      "learning_rate": 5e-06,
      "loss": 1.7496,
      "num_input_tokens_seen": 55978172,
      "step": 443
    },
    {
      "epoch": 0.11364073622779453,
      "loss": 1.6828863620758057,
      "loss_ce": 0.0031988569535315037,
      "loss_iou": 0.765625,
      "loss_num": 0.029296875,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 55978172,
      "step": 443
    },
    {
      "epoch": 0.11389726159173988,
      "grad_norm": 25.665645599365234,
      "learning_rate": 5e-06,
      "loss": 1.591,
      "num_input_tokens_seen": 56104104,
      "step": 444
    },
    {
      "epoch": 0.11389726159173988,
      "loss": 1.474023461341858,
      "loss_ce": 0.0013672173954546452,
      "loss_iou": 0.6953125,
      "loss_num": 0.017333984375,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 56104104,
      "step": 444
    },
    {
      "epoch": 0.11415378695568525,
      "grad_norm": 50.49810791015625,
      "learning_rate": 5e-06,
      "loss": 1.7112,
      "num_input_tokens_seen": 56230512,
      "step": 445
    },
    {
      "epoch": 0.11415378695568525,
      "loss": 1.6772782802581787,
      "loss_ce": 0.003450163174420595,
      "loss_iou": 0.76953125,
      "loss_num": 0.0277099609375,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 56230512,
      "step": 445
    },
    {
      "epoch": 0.1144103123196306,
      "grad_norm": 48.773704528808594,
      "learning_rate": 5e-06,
      "loss": 1.8513,
      "num_input_tokens_seen": 56357040,
      "step": 446
    },
    {
      "epoch": 0.1144103123196306,
      "loss": 1.8029847145080566,
      "loss_ce": 0.0022033960558474064,
      "loss_iou": 0.8203125,
      "loss_num": 0.03271484375,
      "loss_xval": 1.796875,
      "num_input_tokens_seen": 56357040,
      "step": 446
    },
    {
      "epoch": 0.11466683768357597,
      "grad_norm": 49.184810638427734,
      "learning_rate": 5e-06,
      "loss": 1.7231,
      "num_input_tokens_seen": 56483184,
      "step": 447
    },
    {
      "epoch": 0.11466683768357597,
      "loss": 1.6470956802368164,
      "loss_ce": 0.00354099553078413,
      "loss_iou": 0.765625,
      "loss_num": 0.02197265625,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 56483184,
      "step": 447
    },
    {
      "epoch": 0.11492336304752132,
      "grad_norm": 43.94487380981445,
      "learning_rate": 5e-06,
      "loss": 1.8633,
      "num_input_tokens_seen": 56609512,
      "step": 448
    },
    {
      "epoch": 0.11492336304752132,
      "loss": 1.7870070934295654,
      "loss_ce": 0.001850806176662445,
      "loss_iou": 0.8203125,
      "loss_num": 0.02978515625,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 56609512,
      "step": 448
    },
    {
      "epoch": 0.11517988841146669,
      "grad_norm": 38.418453216552734,
      "learning_rate": 5e-06,
      "loss": 1.8474,
      "num_input_tokens_seen": 56735516,
      "step": 449
    },
    {
      "epoch": 0.11517988841146669,
      "loss": 1.7076292037963867,
      "loss_ce": 0.0025511044077575207,
      "loss_iou": 0.77734375,
      "loss_num": 0.0301513671875,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 56735516,
      "step": 449
    },
    {
      "epoch": 0.11543641377541204,
      "grad_norm": 36.228641510009766,
      "learning_rate": 5e-06,
      "loss": 1.6306,
      "num_input_tokens_seen": 56861820,
      "step": 450
    },
    {
      "epoch": 0.11543641377541204,
      "loss": 1.7181226015090942,
      "loss_ce": 0.0032789018005132675,
      "loss_iou": 0.796875,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 56861820,
      "step": 450
    },
    {
      "epoch": 0.11569293913935741,
      "grad_norm": 72.03665924072266,
      "learning_rate": 5e-06,
      "loss": 1.8012,
      "num_input_tokens_seen": 56988372,
      "step": 451
    },
    {
      "epoch": 0.11569293913935741,
      "loss": 1.6160550117492676,
      "loss_ce": 0.0008206400088965893,
      "loss_iou": 0.76171875,
      "loss_num": 0.017822265625,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 56988372,
      "step": 451
    },
    {
      "epoch": 0.11594946450330276,
      "grad_norm": 36.3841552734375,
      "learning_rate": 5e-06,
      "loss": 1.9981,
      "num_input_tokens_seen": 57114552,
      "step": 452
    },
    {
      "epoch": 0.11594946450330276,
      "loss": 2.025315761566162,
      "loss_ce": 0.001878279261291027,
      "loss_iou": 0.921875,
      "loss_num": 0.03662109375,
      "loss_xval": 2.03125,
      "num_input_tokens_seen": 57114552,
      "step": 452
    },
    {
      "epoch": 0.11620598986724813,
      "grad_norm": 27.53243064880371,
      "learning_rate": 5e-06,
      "loss": 1.7284,
      "num_input_tokens_seen": 57239516,
      "step": 453
    },
    {
      "epoch": 0.11620598986724813,
      "loss": 1.6692149639129639,
      "loss_ce": 0.0012461625738069415,
      "loss_iou": 0.7578125,
      "loss_num": 0.0311279296875,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 57239516,
      "step": 453
    },
    {
      "epoch": 0.11646251523119348,
      "grad_norm": 30.878704071044922,
      "learning_rate": 5e-06,
      "loss": 1.725,
      "num_input_tokens_seen": 57365124,
      "step": 454
    },
    {
      "epoch": 0.11646251523119348,
      "loss": 1.6984126567840576,
      "loss_ce": 0.004076790995895863,
      "loss_iou": 0.76171875,
      "loss_num": 0.0341796875,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 57365124,
      "step": 454
    },
    {
      "epoch": 0.11671904059513885,
      "grad_norm": 95.86900329589844,
      "learning_rate": 5e-06,
      "loss": 1.6021,
      "num_input_tokens_seen": 57492680,
      "step": 455
    },
    {
      "epoch": 0.11671904059513885,
      "loss": 1.5831823348999023,
      "loss_ce": 0.0011511017801240087,
      "loss_iou": 0.73828125,
      "loss_num": 0.020751953125,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 57492680,
      "step": 455
    },
    {
      "epoch": 0.1169755659590842,
      "grad_norm": 37.60855484008789,
      "learning_rate": 5e-06,
      "loss": 2.0232,
      "num_input_tokens_seen": 57618624,
      "step": 456
    },
    {
      "epoch": 0.1169755659590842,
      "loss": 2.0790798664093018,
      "loss_ce": 0.005837695673108101,
      "loss_iou": 0.92578125,
      "loss_num": 0.044677734375,
      "loss_xval": 2.078125,
      "num_input_tokens_seen": 57618624,
      "step": 456
    },
    {
      "epoch": 0.11723209132302956,
      "grad_norm": 33.16410446166992,
      "learning_rate": 5e-06,
      "loss": 1.885,
      "num_input_tokens_seen": 57744172,
      "step": 457
    },
    {
      "epoch": 0.11723209132302956,
      "loss": 1.9857099056243896,
      "loss_ce": 0.00914732925593853,
      "loss_iou": 0.875,
      "loss_num": 0.044921875,
      "loss_xval": 1.9765625,
      "num_input_tokens_seen": 57744172,
      "step": 457
    },
    {
      "epoch": 0.11748861668697493,
      "grad_norm": 29.640005111694336,
      "learning_rate": 5e-06,
      "loss": 1.7067,
      "num_input_tokens_seen": 57870072,
      "step": 458
    },
    {
      "epoch": 0.11748861668697493,
      "loss": 1.7805681228637695,
      "loss_ce": 0.00615404499694705,
      "loss_iou": 0.8203125,
      "loss_num": 0.0263671875,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 57870072,
      "step": 458
    },
    {
      "epoch": 0.11774514205092028,
      "grad_norm": 39.27460479736328,
      "learning_rate": 5e-06,
      "loss": 1.7509,
      "num_input_tokens_seen": 57995948,
      "step": 459
    },
    {
      "epoch": 0.11774514205092028,
      "loss": 1.7685242891311646,
      "loss_ce": 0.0038758430164307356,
      "loss_iou": 0.796875,
      "loss_num": 0.034423828125,
      "loss_xval": 1.765625,
      "num_input_tokens_seen": 57995948,
      "step": 459
    },
    {
      "epoch": 0.11800166741486565,
      "grad_norm": 63.454078674316406,
      "learning_rate": 5e-06,
      "loss": 1.7184,
      "num_input_tokens_seen": 58122476,
      "step": 460
    },
    {
      "epoch": 0.11800166741486565,
      "loss": 1.7562344074249268,
      "loss_ce": 0.0052577354945242405,
      "loss_iou": 0.79296875,
      "loss_num": 0.033203125,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 58122476,
      "step": 460
    },
    {
      "epoch": 0.118258192778811,
      "grad_norm": 36.77939224243164,
      "learning_rate": 5e-06,
      "loss": 1.9286,
      "num_input_tokens_seen": 58248364,
      "step": 461
    },
    {
      "epoch": 0.118258192778811,
      "loss": 1.8818247318267822,
      "loss_ce": 0.0019419132731854916,
      "loss_iou": 0.84765625,
      "loss_num": 0.037841796875,
      "loss_xval": 1.8828125,
      "num_input_tokens_seen": 58248364,
      "step": 461
    },
    {
      "epoch": 0.11851471814275637,
      "grad_norm": 48.50825881958008,
      "learning_rate": 5e-06,
      "loss": 1.7753,
      "num_input_tokens_seen": 58374284,
      "step": 462
    },
    {
      "epoch": 0.11851471814275637,
      "loss": 1.9311033487319946,
      "loss_ce": 0.0014157816767692566,
      "loss_iou": 0.86328125,
      "loss_num": 0.039794921875,
      "loss_xval": 1.9296875,
      "num_input_tokens_seen": 58374284,
      "step": 462
    },
    {
      "epoch": 0.11877124350670172,
      "grad_norm": 69.14360809326172,
      "learning_rate": 5e-06,
      "loss": 1.655,
      "num_input_tokens_seen": 58500824,
      "step": 463
    },
    {
      "epoch": 0.11877124350670172,
      "loss": 1.7856534719467163,
      "loss_ce": 0.003426934825256467,
      "loss_iou": 0.81640625,
      "loss_num": 0.0294189453125,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 58500824,
      "step": 463
    },
    {
      "epoch": 0.11902776887064709,
      "grad_norm": 66.36541748046875,
      "learning_rate": 5e-06,
      "loss": 1.721,
      "num_input_tokens_seen": 58626708,
      "step": 464
    },
    {
      "epoch": 0.11902776887064709,
      "loss": 1.638522982597351,
      "loss_ce": 0.001804242143407464,
      "loss_iou": 0.765625,
      "loss_num": 0.020751953125,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 58626708,
      "step": 464
    },
    {
      "epoch": 0.11928429423459244,
      "grad_norm": 51.17401123046875,
      "learning_rate": 5e-06,
      "loss": 1.6,
      "num_input_tokens_seen": 58752764,
      "step": 465
    },
    {
      "epoch": 0.11928429423459244,
      "loss": 1.3945918083190918,
      "loss_ce": 0.0005488909082487226,
      "loss_iou": 0.65234375,
      "loss_num": 0.018310546875,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 58752764,
      "step": 465
    },
    {
      "epoch": 0.11954081959853781,
      "grad_norm": 50.99451446533203,
      "learning_rate": 5e-06,
      "loss": 1.7114,
      "num_input_tokens_seen": 58878700,
      "step": 466
    },
    {
      "epoch": 0.11954081959853781,
      "loss": 1.6561709642410278,
      "loss_ce": 0.0008974944357760251,
      "loss_iou": 0.7578125,
      "loss_num": 0.027587890625,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 58878700,
      "step": 466
    },
    {
      "epoch": 0.11979734496248316,
      "grad_norm": 48.29070281982422,
      "learning_rate": 5e-06,
      "loss": 1.8735,
      "num_input_tokens_seen": 59004676,
      "step": 467
    },
    {
      "epoch": 0.11979734496248316,
      "loss": 1.8461523056030273,
      "loss_ce": 0.0033788110595196486,
      "loss_iou": 0.828125,
      "loss_num": 0.037841796875,
      "loss_xval": 1.84375,
      "num_input_tokens_seen": 59004676,
      "step": 467
    },
    {
      "epoch": 0.12005387032642853,
      "grad_norm": 42.622894287109375,
      "learning_rate": 5e-06,
      "loss": 1.6268,
      "num_input_tokens_seen": 59131396,
      "step": 468
    },
    {
      "epoch": 0.12005387032642853,
      "loss": 1.6658351421356201,
      "loss_ce": 0.0017726825317367911,
      "loss_iou": 0.75,
      "loss_num": 0.032958984375,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 59131396,
      "step": 468
    },
    {
      "epoch": 0.12031039569037388,
      "grad_norm": 104.28092193603516,
      "learning_rate": 5e-06,
      "loss": 1.7876,
      "num_input_tokens_seen": 59258152,
      "step": 469
    },
    {
      "epoch": 0.12031039569037388,
      "loss": 1.8054823875427246,
      "loss_ce": 0.0017713536508381367,
      "loss_iou": 0.84375,
      "loss_num": 0.023193359375,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 59258152,
      "step": 469
    },
    {
      "epoch": 0.12056692105431925,
      "grad_norm": 38.41648864746094,
      "learning_rate": 5e-06,
      "loss": 2.07,
      "num_input_tokens_seen": 59383784,
      "step": 470
    },
    {
      "epoch": 0.12056692105431925,
      "loss": 2.154125213623047,
      "loss_ce": 0.003734491765499115,
      "loss_iou": 0.9453125,
      "loss_num": 0.052001953125,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 59383784,
      "step": 470
    },
    {
      "epoch": 0.1208234464182646,
      "grad_norm": 40.71257400512695,
      "learning_rate": 5e-06,
      "loss": 1.784,
      "num_input_tokens_seen": 59510216,
      "step": 471
    },
    {
      "epoch": 0.1208234464182646,
      "loss": 1.7215721607208252,
      "loss_ce": 0.0008690999820828438,
      "loss_iou": 0.7890625,
      "loss_num": 0.029052734375,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 59510216,
      "step": 471
    },
    {
      "epoch": 0.12107997178220997,
      "grad_norm": 43.049556732177734,
      "learning_rate": 5e-06,
      "loss": 1.7414,
      "num_input_tokens_seen": 59636372,
      "step": 472
    },
    {
      "epoch": 0.12107997178220997,
      "loss": 1.6449707746505737,
      "loss_ce": 0.01118170004338026,
      "loss_iou": 0.75390625,
      "loss_num": 0.02587890625,
      "loss_xval": 1.6328125,
      "num_input_tokens_seen": 59636372,
      "step": 472
    },
    {
      "epoch": 0.12133649714615533,
      "grad_norm": 41.08643341064453,
      "learning_rate": 5e-06,
      "loss": 1.7773,
      "num_input_tokens_seen": 59761944,
      "step": 473
    },
    {
      "epoch": 0.12133649714615533,
      "loss": 1.6837382316589355,
      "loss_ce": 0.004050835967063904,
      "loss_iou": 0.77734375,
      "loss_num": 0.025146484375,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 59761944,
      "step": 473
    },
    {
      "epoch": 0.12159302251010069,
      "grad_norm": 46.653629302978516,
      "learning_rate": 5e-06,
      "loss": 1.5975,
      "num_input_tokens_seen": 59887824,
      "step": 474
    },
    {
      "epoch": 0.12159302251010069,
      "loss": 1.5279282331466675,
      "loss_ce": 0.0005844776169396937,
      "loss_iou": 0.70703125,
      "loss_num": 0.022216796875,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 59887824,
      "step": 474
    },
    {
      "epoch": 0.12184954787404605,
      "grad_norm": 50.21329879760742,
      "learning_rate": 5e-06,
      "loss": 1.6078,
      "num_input_tokens_seen": 60013776,
      "step": 475
    },
    {
      "epoch": 0.12184954787404605,
      "loss": 1.5767042636871338,
      "loss_ce": 0.0024854273069649935,
      "loss_iou": 0.734375,
      "loss_num": 0.020751953125,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 60013776,
      "step": 475
    },
    {
      "epoch": 0.1221060732379914,
      "grad_norm": 60.5197639465332,
      "learning_rate": 5e-06,
      "loss": 1.6594,
      "num_input_tokens_seen": 60140940,
      "step": 476
    },
    {
      "epoch": 0.1221060732379914,
      "loss": 1.5039000511169434,
      "loss_ce": 0.0009703865507617593,
      "loss_iou": 0.703125,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 60140940,
      "step": 476
    },
    {
      "epoch": 0.12236259860193677,
      "grad_norm": 78.34883880615234,
      "learning_rate": 5e-06,
      "loss": 1.749,
      "num_input_tokens_seen": 60267612,
      "step": 477
    },
    {
      "epoch": 0.12236259860193677,
      "loss": 1.7461729049682617,
      "loss_ce": 0.0010556046618148685,
      "loss_iou": 0.7890625,
      "loss_num": 0.032958984375,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 60267612,
      "step": 477
    },
    {
      "epoch": 0.12261912396588212,
      "grad_norm": 41.61360168457031,
      "learning_rate": 5e-06,
      "loss": 1.8079,
      "num_input_tokens_seen": 60394156,
      "step": 478
    },
    {
      "epoch": 0.12261912396588212,
      "loss": 1.9458622932434082,
      "loss_ce": 0.0025028635282069445,
      "loss_iou": 0.875,
      "loss_num": 0.039306640625,
      "loss_xval": 1.9453125,
      "num_input_tokens_seen": 60394156,
      "step": 478
    },
    {
      "epoch": 0.12287564932982749,
      "grad_norm": 28.599647521972656,
      "learning_rate": 5e-06,
      "loss": 1.6507,
      "num_input_tokens_seen": 60520712,
      "step": 479
    },
    {
      "epoch": 0.12287564932982749,
      "loss": 1.728694200515747,
      "loss_ce": 0.0021316264756023884,
      "loss_iou": 0.7890625,
      "loss_num": 0.029052734375,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 60520712,
      "step": 479
    },
    {
      "epoch": 0.12313217469377284,
      "grad_norm": 29.31183624267578,
      "learning_rate": 5e-06,
      "loss": 1.6464,
      "num_input_tokens_seen": 60646736,
      "step": 480
    },
    {
      "epoch": 0.12313217469377284,
      "loss": 1.7321536540985107,
      "loss_ce": 0.0026613736990839243,
      "loss_iou": 0.7890625,
      "loss_num": 0.0306396484375,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 60646736,
      "step": 480
    },
    {
      "epoch": 0.12338870005771821,
      "grad_norm": 30.173465728759766,
      "learning_rate": 5e-06,
      "loss": 1.6531,
      "num_input_tokens_seen": 60772592,
      "step": 481
    },
    {
      "epoch": 0.12338870005771821,
      "loss": 1.6801327466964722,
      "loss_ce": 0.003374944906681776,
      "loss_iou": 0.76171875,
      "loss_num": 0.031005859375,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 60772592,
      "step": 481
    },
    {
      "epoch": 0.12364522542166356,
      "grad_norm": 43.21902084350586,
      "learning_rate": 5e-06,
      "loss": 1.6918,
      "num_input_tokens_seen": 60898136,
      "step": 482
    },
    {
      "epoch": 0.12364522542166356,
      "loss": 1.501891016960144,
      "loss_ce": 0.000914397242013365,
      "loss_iou": 0.6953125,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 60898136,
      "step": 482
    },
    {
      "epoch": 0.12390175078560893,
      "grad_norm": 86.57583618164062,
      "learning_rate": 5e-06,
      "loss": 1.7655,
      "num_input_tokens_seen": 61024512,
      "step": 483
    },
    {
      "epoch": 0.12390175078560893,
      "loss": 1.7919373512268066,
      "loss_ce": 0.003851282177492976,
      "loss_iou": 0.8203125,
      "loss_num": 0.029541015625,
      "loss_xval": 1.7890625,
      "num_input_tokens_seen": 61024512,
      "step": 483
    },
    {
      "epoch": 0.12415827614955428,
      "grad_norm": 44.79195785522461,
      "learning_rate": 5e-06,
      "loss": 1.7891,
      "num_input_tokens_seen": 61150340,
      "step": 484
    },
    {
      "epoch": 0.12415827614955428,
      "loss": 1.7644908428192139,
      "loss_ce": 0.002772129839286208,
      "loss_iou": 0.80859375,
      "loss_num": 0.0281982421875,
      "loss_xval": 1.765625,
      "num_input_tokens_seen": 61150340,
      "step": 484
    },
    {
      "epoch": 0.12441480151349965,
      "grad_norm": 44.41315460205078,
      "learning_rate": 5e-06,
      "loss": 1.8381,
      "num_input_tokens_seen": 61276012,
      "step": 485
    },
    {
      "epoch": 0.12441480151349965,
      "loss": 1.9642342329025269,
      "loss_ce": 0.001343660755082965,
      "loss_iou": 0.890625,
      "loss_num": 0.037109375,
      "loss_xval": 1.9609375,
      "num_input_tokens_seen": 61276012,
      "step": 485
    },
    {
      "epoch": 0.124671326877445,
      "grad_norm": 47.64482116699219,
      "learning_rate": 5e-06,
      "loss": 1.6081,
      "num_input_tokens_seen": 61402636,
      "step": 486
    },
    {
      "epoch": 0.124671326877445,
      "loss": 1.72786283493042,
      "loss_ce": 0.0013002816122025251,
      "loss_iou": 0.78515625,
      "loss_num": 0.031494140625,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 61402636,
      "step": 486
    },
    {
      "epoch": 0.12492785224139037,
      "grad_norm": 71.87833404541016,
      "learning_rate": 5e-06,
      "loss": 1.7674,
      "num_input_tokens_seen": 61527740,
      "step": 487
    },
    {
      "epoch": 0.12492785224139037,
      "loss": 1.7446229457855225,
      "loss_ce": 0.003411897225305438,
      "loss_iou": 0.79296875,
      "loss_num": 0.030517578125,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 61527740,
      "step": 487
    },
    {
      "epoch": 0.12518437760533574,
      "grad_norm": 56.86620330810547,
      "learning_rate": 5e-06,
      "loss": 1.7852,
      "num_input_tokens_seen": 61653716,
      "step": 488
    },
    {
      "epoch": 0.12518437760533574,
      "loss": 1.754368543624878,
      "loss_ce": 0.00046220317017287016,
      "loss_iou": 0.80859375,
      "loss_num": 0.0279541015625,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 61653716,
      "step": 488
    },
    {
      "epoch": 0.1254409029692811,
      "grad_norm": 30.357770919799805,
      "learning_rate": 5e-06,
      "loss": 1.6365,
      "num_input_tokens_seen": 61780636,
      "step": 489
    },
    {
      "epoch": 0.1254409029692811,
      "loss": 1.6131393909454346,
      "loss_ce": 0.003764481283724308,
      "loss_iou": 0.734375,
      "loss_num": 0.028076171875,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 61780636,
      "step": 489
    },
    {
      "epoch": 0.12569742833322645,
      "grad_norm": 32.89668655395508,
      "learning_rate": 5e-06,
      "loss": 1.4768,
      "num_input_tokens_seen": 61906520,
      "step": 490
    },
    {
      "epoch": 0.12569742833322645,
      "loss": 1.5551114082336426,
      "loss_ce": 0.002377046039327979,
      "loss_iou": 0.71875,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 61906520,
      "step": 490
    },
    {
      "epoch": 0.1259539536971718,
      "grad_norm": 68.21038055419922,
      "learning_rate": 5e-06,
      "loss": 1.5698,
      "num_input_tokens_seen": 62032080,
      "step": 491
    },
    {
      "epoch": 0.1259539536971718,
      "loss": 1.4567121267318726,
      "loss_ce": 0.001633996143937111,
      "loss_iou": 0.67578125,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 62032080,
      "step": 491
    },
    {
      "epoch": 0.12621047906111718,
      "grad_norm": 54.81508255004883,
      "learning_rate": 5e-06,
      "loss": 1.6964,
      "num_input_tokens_seen": 62158264,
      "step": 492
    },
    {
      "epoch": 0.12621047906111718,
      "loss": 1.7056665420532227,
      "loss_ce": 0.0035181199200451374,
      "loss_iou": 0.7890625,
      "loss_num": 0.024658203125,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 62158264,
      "step": 492
    },
    {
      "epoch": 0.12646700442506253,
      "grad_norm": 73.14745330810547,
      "learning_rate": 5e-06,
      "loss": 1.6376,
      "num_input_tokens_seen": 62284376,
      "step": 493
    },
    {
      "epoch": 0.12646700442506253,
      "loss": 1.351789116859436,
      "loss_ce": 0.0007149467710405588,
      "loss_iou": 0.640625,
      "loss_num": 0.01434326171875,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 62284376,
      "step": 493
    },
    {
      "epoch": 0.1267235297890079,
      "grad_norm": 92.09954833984375,
      "learning_rate": 5e-06,
      "loss": 1.6787,
      "num_input_tokens_seen": 62411464,
      "step": 494
    },
    {
      "epoch": 0.1267235297890079,
      "loss": 1.664896845817566,
      "loss_ce": 0.0008343269000761211,
      "loss_iou": 0.78125,
      "loss_num": 0.02099609375,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 62411464,
      "step": 494
    },
    {
      "epoch": 0.12698005515295324,
      "grad_norm": 45.41442108154297,
      "learning_rate": 5e-06,
      "loss": 1.8646,
      "num_input_tokens_seen": 62537136,
      "step": 495
    },
    {
      "epoch": 0.12698005515295324,
      "loss": 1.741948127746582,
      "loss_ce": 0.0007371420506387949,
      "loss_iou": 0.80078125,
      "loss_num": 0.02783203125,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 62537136,
      "step": 495
    },
    {
      "epoch": 0.1272365805168986,
      "grad_norm": 39.136627197265625,
      "learning_rate": 5e-06,
      "loss": 1.7646,
      "num_input_tokens_seen": 62662620,
      "step": 496
    },
    {
      "epoch": 0.1272365805168986,
      "loss": 1.7433350086212158,
      "loss_ce": 0.005053797736763954,
      "loss_iou": 0.78515625,
      "loss_num": 0.033203125,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 62662620,
      "step": 496
    },
    {
      "epoch": 0.12749310588084398,
      "grad_norm": 49.318389892578125,
      "learning_rate": 5e-06,
      "loss": 1.6535,
      "num_input_tokens_seen": 62789096,
      "step": 497
    },
    {
      "epoch": 0.12749310588084398,
      "loss": 1.6110996007919312,
      "loss_ce": 0.0007480541826225817,
      "loss_iou": 0.75390625,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 62789096,
      "step": 497
    },
    {
      "epoch": 0.12774963124478933,
      "grad_norm": 47.046878814697266,
      "learning_rate": 5e-06,
      "loss": 1.7151,
      "num_input_tokens_seen": 62915312,
      "step": 498
    },
    {
      "epoch": 0.12774963124478933,
      "loss": 1.8070034980773926,
      "loss_ce": 0.00231599691323936,
      "loss_iou": 0.81640625,
      "loss_num": 0.03466796875,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 62915312,
      "step": 498
    },
    {
      "epoch": 0.12800615660873468,
      "grad_norm": 69.81344604492188,
      "learning_rate": 5e-06,
      "loss": 1.574,
      "num_input_tokens_seen": 63041640,
      "step": 499
    },
    {
      "epoch": 0.12800615660873468,
      "loss": 1.6115577220916748,
      "loss_ce": 0.0031593618914484978,
      "loss_iou": 0.7421875,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 63041640,
      "step": 499
    },
    {
      "epoch": 0.12826268197268004,
      "grad_norm": 35.509857177734375,
      "learning_rate": 5e-06,
      "loss": 1.7074,
      "num_input_tokens_seen": 63168408,
      "step": 500
    },
    {
      "epoch": 0.12826268197268004,
      "eval_icons_CIoU": -0.08813555911183357,
      "eval_icons_GIoU": -0.12102716788649559,
      "eval_icons_IoU": 0.1143653392791748,
      "eval_icons_MAE_all": 0.059639595448970795,
      "eval_icons_MAE_h": 0.0811239741742611,
      "eval_icons_MAE_w": 0.07068989798426628,
      "eval_icons_MAE_x_boxes": 0.06718512624502182,
      "eval_icons_MAE_y_boxes": 0.07723477482795715,
      "eval_icons_NUM_probability": 0.9998332858085632,
      "eval_icons_inside_bbox": 0.2204861119389534,
      "eval_icons_loss": 2.531628370285034,
      "eval_icons_loss_ce": 0.0009354916110169142,
      "eval_icons_loss_iou": 1.110595703125,
      "eval_icons_loss_num": 0.05770111083984375,
      "eval_icons_loss_xval": 2.50927734375,
      "eval_icons_runtime": 39.9475,
      "eval_icons_samples_per_second": 1.252,
      "eval_icons_steps_per_second": 0.05,
      "num_input_tokens_seen": 63168408,
      "step": 500
    },
    {
      "epoch": 0.12826268197268004,
      "eval_screenspot_CIoU": -0.016426607966423035,
      "eval_screenspot_GIoU": -0.04860709219550093,
      "eval_screenspot_IoU": 0.17466307679812113,
      "eval_screenspot_MAE_all": 0.08095420400301616,
      "eval_screenspot_MAE_h": 0.06321993718544643,
      "eval_screenspot_MAE_w": 0.14798389126857123,
      "eval_screenspot_MAE_x_boxes": 0.11274510622024536,
      "eval_screenspot_MAE_y_boxes": 0.04963180422782898,
      "eval_screenspot_NUM_probability": 0.999764641125997,
      "eval_screenspot_inside_bbox": 0.5541666746139526,
      "eval_screenspot_loss": 2.5440590381622314,
      "eval_screenspot_loss_ce": 0.005904497268299262,
      "eval_screenspot_loss_iou": 1.0734049479166667,
      "eval_screenspot_loss_num": 0.08739217122395833,
      "eval_screenspot_loss_xval": 2.5843098958333335,
      "eval_screenspot_runtime": 68.1776,
      "eval_screenspot_samples_per_second": 1.305,
      "eval_screenspot_steps_per_second": 0.044,
      "num_input_tokens_seen": 63168408,
      "step": 500
    },
    {
      "epoch": 0.12826268197268004,
      "loss": 2.5779953002929688,
      "loss_ce": 0.003776472993195057,
      "loss_iou": 1.0703125,
      "loss_num": 0.0849609375,
      "loss_xval": 2.578125,
      "num_input_tokens_seen": 63168408,
      "step": 500
    },
    {
      "epoch": 0.12851920733662542,
      "grad_norm": 65.97784423828125,
      "learning_rate": 5e-06,
      "loss": 1.625,
      "num_input_tokens_seen": 63294960,
      "step": 501
    },
    {
      "epoch": 0.12851920733662542,
      "loss": 1.494499683380127,
      "loss_ce": 0.0013356480048969388,
      "loss_iou": 0.69140625,
      "loss_num": 0.021484375,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 63294960,
      "step": 501
    },
    {
      "epoch": 0.12877573270057077,
      "grad_norm": 41.564544677734375,
      "learning_rate": 5e-06,
      "loss": 1.7892,
      "num_input_tokens_seen": 63421296,
      "step": 502
    },
    {
      "epoch": 0.12877573270057077,
      "loss": 1.7985565662384033,
      "loss_ce": 0.0007051015854813159,
      "loss_iou": 0.828125,
      "loss_num": 0.028076171875,
      "loss_xval": 1.796875,
      "num_input_tokens_seen": 63421296,
      "step": 502
    },
    {
      "epoch": 0.12903225806451613,
      "grad_norm": 80.64423370361328,
      "learning_rate": 5e-06,
      "loss": 1.7202,
      "num_input_tokens_seen": 63548300,
      "step": 503
    },
    {
      "epoch": 0.12903225806451613,
      "loss": 1.8039515018463135,
      "loss_ce": 0.003170343115925789,
      "loss_iou": 0.8046875,
      "loss_num": 0.03857421875,
      "loss_xval": 1.796875,
      "num_input_tokens_seen": 63548300,
      "step": 503
    },
    {
      "epoch": 0.12928878342846148,
      "grad_norm": 31.872426986694336,
      "learning_rate": 5e-06,
      "loss": 1.6057,
      "num_input_tokens_seen": 63673988,
      "step": 504
    },
    {
      "epoch": 0.12928878342846148,
      "loss": 1.4717856645584106,
      "loss_ce": 0.002059069462120533,
      "loss_iou": 0.671875,
      "loss_num": 0.0244140625,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 63673988,
      "step": 504
    },
    {
      "epoch": 0.12954530879240686,
      "grad_norm": 47.289302825927734,
      "learning_rate": 5e-06,
      "loss": 1.6607,
      "num_input_tokens_seen": 63800988,
      "step": 505
    },
    {
      "epoch": 0.12954530879240686,
      "loss": 1.6136938333511353,
      "loss_ce": 0.003342278767377138,
      "loss_iou": 0.74609375,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 63800988,
      "step": 505
    },
    {
      "epoch": 0.1298018341563522,
      "grad_norm": 38.54035949707031,
      "learning_rate": 5e-06,
      "loss": 1.5921,
      "num_input_tokens_seen": 63927904,
      "step": 506
    },
    {
      "epoch": 0.1298018341563522,
      "loss": 1.4334439039230347,
      "loss_ce": 0.0008266839431598783,
      "loss_iou": 0.6640625,
      "loss_num": 0.0205078125,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 63927904,
      "step": 506
    },
    {
      "epoch": 0.13005835952029757,
      "grad_norm": 37.19766616821289,
      "learning_rate": 5e-06,
      "loss": 1.6291,
      "num_input_tokens_seen": 64053800,
      "step": 507
    },
    {
      "epoch": 0.13005835952029757,
      "loss": 1.7088382244110107,
      "loss_ce": 0.0018070570658892393,
      "loss_iou": 0.78125,
      "loss_num": 0.029296875,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 64053800,
      "step": 507
    },
    {
      "epoch": 0.13031488488424292,
      "grad_norm": 61.4913215637207,
      "learning_rate": 5e-06,
      "loss": 1.5872,
      "num_input_tokens_seen": 64179416,
      "step": 508
    },
    {
      "epoch": 0.13031488488424292,
      "loss": 1.581200122833252,
      "loss_ce": 0.0011220432352274656,
      "loss_iou": 0.7265625,
      "loss_num": 0.024169921875,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 64179416,
      "step": 508
    },
    {
      "epoch": 0.1305714102481883,
      "grad_norm": 42.580650329589844,
      "learning_rate": 5e-06,
      "loss": 1.6808,
      "num_input_tokens_seen": 64304800,
      "step": 509
    },
    {
      "epoch": 0.1305714102481883,
      "loss": 1.6761349439620972,
      "loss_ce": 0.00035372647107578814,
      "loss_iou": 0.78125,
      "loss_num": 0.0233154296875,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 64304800,
      "step": 509
    },
    {
      "epoch": 0.13082793561213366,
      "grad_norm": 44.40543746948242,
      "learning_rate": 5e-06,
      "loss": 1.61,
      "num_input_tokens_seen": 64431492,
      "step": 510
    },
    {
      "epoch": 0.13082793561213366,
      "loss": 1.4809927940368652,
      "loss_ce": 0.0005239903694018722,
      "loss_iou": 0.6953125,
      "loss_num": 0.018310546875,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 64431492,
      "step": 510
    },
    {
      "epoch": 0.131084460976079,
      "grad_norm": 61.31940841674805,
      "learning_rate": 5e-06,
      "loss": 1.7046,
      "num_input_tokens_seen": 64557616,
      "step": 511
    },
    {
      "epoch": 0.131084460976079,
      "loss": 1.811378002166748,
      "loss_ce": 0.003760798368602991,
      "loss_iou": 0.83203125,
      "loss_num": 0.0291748046875,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 64557616,
      "step": 511
    },
    {
      "epoch": 0.13134098634002436,
      "grad_norm": 68.12958526611328,
      "learning_rate": 5e-06,
      "loss": 1.6861,
      "num_input_tokens_seen": 64683780,
      "step": 512
    },
    {
      "epoch": 0.13134098634002436,
      "loss": 1.6338921785354614,
      "loss_ce": 0.006939140148460865,
      "loss_iou": 0.765625,
      "loss_num": 0.01953125,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 64683780,
      "step": 512
    },
    {
      "epoch": 0.13159751170396972,
      "grad_norm": 40.787376403808594,
      "learning_rate": 5e-06,
      "loss": 1.8374,
      "num_input_tokens_seen": 64811172,
      "step": 513
    },
    {
      "epoch": 0.13159751170396972,
      "loss": 1.9357507228851318,
      "loss_ce": 0.0021569635719060898,
      "loss_iou": 0.875,
      "loss_num": 0.035888671875,
      "loss_xval": 1.9375,
      "num_input_tokens_seen": 64811172,
      "step": 513
    },
    {
      "epoch": 0.1318540370679151,
      "grad_norm": 87.03521728515625,
      "learning_rate": 5e-06,
      "loss": 1.6736,
      "num_input_tokens_seen": 64938304,
      "step": 514
    },
    {
      "epoch": 0.1318540370679151,
      "loss": 1.6472301483154297,
      "loss_ce": 0.001722260843962431,
      "loss_iou": 0.74609375,
      "loss_num": 0.0299072265625,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 64938304,
      "step": 514
    },
    {
      "epoch": 0.13211056243186045,
      "grad_norm": 35.112728118896484,
      "learning_rate": 5e-06,
      "loss": 1.6916,
      "num_input_tokens_seen": 65064720,
      "step": 515
    },
    {
      "epoch": 0.13211056243186045,
      "loss": 1.6961196660995483,
      "loss_ce": 0.0008071529446169734,
      "loss_iou": 0.78125,
      "loss_num": 0.02685546875,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 65064720,
      "step": 515
    },
    {
      "epoch": 0.1323670877958058,
      "grad_norm": 47.61723709106445,
      "learning_rate": 5e-06,
      "loss": 1.6344,
      "num_input_tokens_seen": 65190608,
      "step": 516
    },
    {
      "epoch": 0.1323670877958058,
      "loss": 1.5302079916000366,
      "loss_ce": 0.0038408292457461357,
      "loss_iou": 0.69921875,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 65190608,
      "step": 516
    },
    {
      "epoch": 0.13262361315975116,
      "grad_norm": 44.02301788330078,
      "learning_rate": 5e-06,
      "loss": 1.6758,
      "num_input_tokens_seen": 65317176,
      "step": 517
    },
    {
      "epoch": 0.13262361315975116,
      "loss": 1.7421395778656006,
      "loss_ce": 0.002881779335439205,
      "loss_iou": 0.796875,
      "loss_num": 0.02978515625,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 65317176,
      "step": 517
    },
    {
      "epoch": 0.13288013852369654,
      "grad_norm": 88.42464447021484,
      "learning_rate": 5e-06,
      "loss": 1.6965,
      "num_input_tokens_seen": 65443400,
      "step": 518
    },
    {
      "epoch": 0.13288013852369654,
      "loss": 1.682906985282898,
      "loss_ce": 0.0022428741212934256,
      "loss_iou": 0.78125,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 65443400,
      "step": 518
    },
    {
      "epoch": 0.1331366638876419,
      "grad_norm": 46.00665283203125,
      "learning_rate": 5e-06,
      "loss": 1.8612,
      "num_input_tokens_seen": 65569896,
      "step": 519
    },
    {
      "epoch": 0.1331366638876419,
      "loss": 1.9804153442382812,
      "loss_ce": 0.005805996246635914,
      "loss_iou": 0.890625,
      "loss_num": 0.039794921875,
      "loss_xval": 1.9765625,
      "num_input_tokens_seen": 65569896,
      "step": 519
    },
    {
      "epoch": 0.13339318925158725,
      "grad_norm": 37.248634338378906,
      "learning_rate": 5e-06,
      "loss": 1.6576,
      "num_input_tokens_seen": 65696472,
      "step": 520
    },
    {
      "epoch": 0.13339318925158725,
      "loss": 1.6467912197113037,
      "loss_ce": 0.0022599489893764257,
      "loss_iou": 0.75390625,
      "loss_num": 0.02783203125,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 65696472,
      "step": 520
    },
    {
      "epoch": 0.1336497146155326,
      "grad_norm": 40.424705505371094,
      "learning_rate": 5e-06,
      "loss": 1.6382,
      "num_input_tokens_seen": 65822092,
      "step": 521
    },
    {
      "epoch": 0.1336497146155326,
      "loss": 1.8611526489257812,
      "loss_ce": 0.0017776766326278448,
      "loss_iou": 0.83984375,
      "loss_num": 0.036865234375,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 65822092,
      "step": 521
    },
    {
      "epoch": 0.13390623997947798,
      "grad_norm": 103.97928619384766,
      "learning_rate": 5e-06,
      "loss": 1.7141,
      "num_input_tokens_seen": 65948720,
      "step": 522
    },
    {
      "epoch": 0.13390623997947798,
      "loss": 1.7977899312973022,
      "loss_ce": 0.001891533494926989,
      "loss_iou": 0.83984375,
      "loss_num": 0.023681640625,
      "loss_xval": 1.796875,
      "num_input_tokens_seen": 65948720,
      "step": 522
    },
    {
      "epoch": 0.13416276534342333,
      "grad_norm": 37.5026741027832,
      "learning_rate": 5e-06,
      "loss": 1.9319,
      "num_input_tokens_seen": 66074208,
      "step": 523
    },
    {
      "epoch": 0.13416276534342333,
      "loss": 1.9987287521362305,
      "loss_ce": 0.004588027019053698,
      "loss_iou": 0.890625,
      "loss_num": 0.04248046875,
      "loss_xval": 1.9921875,
      "num_input_tokens_seen": 66074208,
      "step": 523
    },
    {
      "epoch": 0.1344192907073687,
      "grad_norm": 37.2819709777832,
      "learning_rate": 5e-06,
      "loss": 1.7502,
      "num_input_tokens_seen": 66200624,
      "step": 524
    },
    {
      "epoch": 0.1344192907073687,
      "loss": 1.7647587060928345,
      "loss_ce": 0.005969722755253315,
      "loss_iou": 0.80078125,
      "loss_num": 0.03173828125,
      "loss_xval": 1.7578125,
      "num_input_tokens_seen": 66200624,
      "step": 524
    },
    {
      "epoch": 0.13467581607131404,
      "grad_norm": 30.838050842285156,
      "learning_rate": 5e-06,
      "loss": 1.5776,
      "num_input_tokens_seen": 66325964,
      "step": 525
    },
    {
      "epoch": 0.13467581607131404,
      "loss": 1.5363616943359375,
      "loss_ce": 0.0021819553803652525,
      "loss_iou": 0.71484375,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 66325964,
      "step": 525
    },
    {
      "epoch": 0.13493234143525942,
      "grad_norm": 40.01436996459961,
      "learning_rate": 5e-06,
      "loss": 1.6046,
      "num_input_tokens_seen": 66452996,
      "step": 526
    },
    {
      "epoch": 0.13493234143525942,
      "loss": 1.6087982654571533,
      "loss_ce": 0.0018647679826244712,
      "loss_iou": 0.72265625,
      "loss_num": 0.0322265625,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 66452996,
      "step": 526
    },
    {
      "epoch": 0.13518886679920478,
      "grad_norm": 59.87229537963867,
      "learning_rate": 5e-06,
      "loss": 1.5952,
      "num_input_tokens_seen": 66579460,
      "step": 527
    },
    {
      "epoch": 0.13518886679920478,
      "loss": 1.6056694984436035,
      "loss_ce": 0.002153842244297266,
      "loss_iou": 0.734375,
      "loss_num": 0.0272216796875,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 66579460,
      "step": 527
    },
    {
      "epoch": 0.13544539216315013,
      "grad_norm": 80.17083740234375,
      "learning_rate": 5e-06,
      "loss": 1.7347,
      "num_input_tokens_seen": 66706472,
      "step": 528
    },
    {
      "epoch": 0.13544539216315013,
      "loss": 1.702104091644287,
      "loss_ce": 0.00483840424567461,
      "loss_iou": 0.78125,
      "loss_num": 0.02734375,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 66706472,
      "step": 528
    },
    {
      "epoch": 0.13570191752709548,
      "grad_norm": 54.53982925415039,
      "learning_rate": 5e-06,
      "loss": 1.7021,
      "num_input_tokens_seen": 66832824,
      "step": 529
    },
    {
      "epoch": 0.13570191752709548,
      "loss": 1.6209640502929688,
      "loss_ce": 0.0018235087627545,
      "loss_iou": 0.7578125,
      "loss_num": 0.021484375,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 66832824,
      "step": 529
    },
    {
      "epoch": 0.13595844289104086,
      "grad_norm": 42.349605560302734,
      "learning_rate": 5e-06,
      "loss": 1.8149,
      "num_input_tokens_seen": 66959856,
      "step": 530
    },
    {
      "epoch": 0.13595844289104086,
      "loss": 1.6692118644714355,
      "loss_ce": 0.0031962350476533175,
      "loss_iou": 0.7578125,
      "loss_num": 0.0296630859375,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 66959856,
      "step": 530
    },
    {
      "epoch": 0.13621496825498622,
      "grad_norm": 68.3973617553711,
      "learning_rate": 5e-06,
      "loss": 1.5381,
      "num_input_tokens_seen": 67086300,
      "step": 531
    },
    {
      "epoch": 0.13621496825498622,
      "loss": 1.566171407699585,
      "loss_ce": 0.0007417317247018218,
      "loss_iou": 0.72265625,
      "loss_num": 0.0247802734375,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 67086300,
      "step": 531
    },
    {
      "epoch": 0.13647149361893157,
      "grad_norm": 45.78357696533203,
      "learning_rate": 5e-06,
      "loss": 1.5934,
      "num_input_tokens_seen": 67211980,
      "step": 532
    },
    {
      "epoch": 0.13647149361893157,
      "loss": 1.4631876945495605,
      "loss_ce": 0.0012736708158627152,
      "loss_iou": 0.68359375,
      "loss_num": 0.01904296875,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 67211980,
      "step": 532
    },
    {
      "epoch": 0.13672801898287693,
      "grad_norm": 85.82099151611328,
      "learning_rate": 5e-06,
      "loss": 1.8069,
      "num_input_tokens_seen": 67337608,
      "step": 533
    },
    {
      "epoch": 0.13672801898287693,
      "loss": 2.0936241149902344,
      "loss_ce": 0.005733604542911053,
      "loss_iou": 0.9375,
      "loss_num": 0.042724609375,
      "loss_xval": 2.09375,
      "num_input_tokens_seen": 67337608,
      "step": 533
    },
    {
      "epoch": 0.13698454434682228,
      "grad_norm": 39.99359130859375,
      "learning_rate": 5e-06,
      "loss": 1.865,
      "num_input_tokens_seen": 67463704,
      "step": 534
    },
    {
      "epoch": 0.13698454434682228,
      "loss": 1.8516842126846313,
      "loss_ce": 0.003051486797630787,
      "loss_iou": 0.83203125,
      "loss_num": 0.03759765625,
      "loss_xval": 1.8515625,
      "num_input_tokens_seen": 67463704,
      "step": 534
    },
    {
      "epoch": 0.13724106971076766,
      "grad_norm": 47.250640869140625,
      "learning_rate": 5e-06,
      "loss": 1.7352,
      "num_input_tokens_seen": 67588860,
      "step": 535
    },
    {
      "epoch": 0.13724106971076766,
      "loss": 1.7179440259933472,
      "loss_ce": 0.0031003328040242195,
      "loss_iou": 0.7734375,
      "loss_num": 0.0341796875,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 67588860,
      "step": 535
    },
    {
      "epoch": 0.137497595074713,
      "grad_norm": 36.00251770019531,
      "learning_rate": 5e-06,
      "loss": 1.7124,
      "num_input_tokens_seen": 67714920,
      "step": 536
    },
    {
      "epoch": 0.137497595074713,
      "loss": 1.6225531101226807,
      "loss_ce": 0.0014592884108424187,
      "loss_iou": 0.734375,
      "loss_num": 0.029541015625,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 67714920,
      "step": 536
    },
    {
      "epoch": 0.13775412043865837,
      "grad_norm": 94.15619659423828,
      "learning_rate": 5e-06,
      "loss": 1.6898,
      "num_input_tokens_seen": 67841600,
      "step": 537
    },
    {
      "epoch": 0.13775412043865837,
      "loss": 1.5061266422271729,
      "loss_ce": 0.0012437943369150162,
      "loss_iou": 0.7109375,
      "loss_num": 0.016845703125,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 67841600,
      "step": 537
    },
    {
      "epoch": 0.13801064580260372,
      "grad_norm": 40.61013412475586,
      "learning_rate": 5e-06,
      "loss": 1.8367,
      "num_input_tokens_seen": 67968416,
      "step": 538
    },
    {
      "epoch": 0.13801064580260372,
      "loss": 1.8107746839523315,
      "loss_ce": 0.004134010057896376,
      "loss_iou": 0.8046875,
      "loss_num": 0.0390625,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 67968416,
      "step": 538
    },
    {
      "epoch": 0.1382671711665491,
      "grad_norm": 43.246856689453125,
      "learning_rate": 5e-06,
      "loss": 1.6373,
      "num_input_tokens_seen": 68094916,
      "step": 539
    },
    {
      "epoch": 0.1382671711665491,
      "loss": 1.5112301111221313,
      "loss_ce": 0.00048792368033900857,
      "loss_iou": 0.69140625,
      "loss_num": 0.026123046875,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 68094916,
      "step": 539
    },
    {
      "epoch": 0.13852369653049446,
      "grad_norm": 49.97499084472656,
      "learning_rate": 5e-06,
      "loss": 1.5353,
      "num_input_tokens_seen": 68222392,
      "step": 540
    },
    {
      "epoch": 0.13852369653049446,
      "loss": 1.468103289604187,
      "loss_ce": 0.0022829363588243723,
      "loss_iou": 0.69140625,
      "loss_num": 0.0162353515625,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 68222392,
      "step": 540
    },
    {
      "epoch": 0.1387802218944398,
      "grad_norm": 63.00365447998047,
      "learning_rate": 5e-06,
      "loss": 1.6641,
      "num_input_tokens_seen": 68348700,
      "step": 541
    },
    {
      "epoch": 0.1387802218944398,
      "loss": 1.7213560342788696,
      "loss_ce": 0.005535767413675785,
      "loss_iou": 0.76953125,
      "loss_num": 0.03515625,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 68348700,
      "step": 541
    },
    {
      "epoch": 0.13903674725838516,
      "grad_norm": 49.11519241333008,
      "learning_rate": 5e-06,
      "loss": 1.6342,
      "num_input_tokens_seen": 68476076,
      "step": 542
    },
    {
      "epoch": 0.13903674725838516,
      "loss": 1.5131175518035889,
      "loss_ce": 0.0023754204157739878,
      "loss_iou": 0.6953125,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 68476076,
      "step": 542
    },
    {
      "epoch": 0.13929327262233054,
      "grad_norm": 50.91838836669922,
      "learning_rate": 5e-06,
      "loss": 1.4742,
      "num_input_tokens_seen": 68601968,
      "step": 543
    },
    {
      "epoch": 0.13929327262233054,
      "loss": 1.2956805229187012,
      "loss_ce": 0.001735169906169176,
      "loss_iou": 0.609375,
      "loss_num": 0.0150146484375,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 68601968,
      "step": 543
    },
    {
      "epoch": 0.1395497979862759,
      "grad_norm": 46.84491729736328,
      "learning_rate": 5e-06,
      "loss": 1.5889,
      "num_input_tokens_seen": 68728448,
      "step": 544
    },
    {
      "epoch": 0.1395497979862759,
      "loss": 1.4698936939239502,
      "loss_ce": 0.003096894593909383,
      "loss_iou": 0.6796875,
      "loss_num": 0.02099609375,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 68728448,
      "step": 544
    },
    {
      "epoch": 0.13980632335022125,
      "grad_norm": 92.95574951171875,
      "learning_rate": 5e-06,
      "loss": 1.5825,
      "num_input_tokens_seen": 68854304,
      "step": 545
    },
    {
      "epoch": 0.13980632335022125,
      "loss": 1.6145811080932617,
      "loss_ce": 0.0022763521410524845,
      "loss_iou": 0.75390625,
      "loss_num": 0.021728515625,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 68854304,
      "step": 545
    },
    {
      "epoch": 0.1400628487141666,
      "grad_norm": 41.20380783081055,
      "learning_rate": 5e-06,
      "loss": 1.8984,
      "num_input_tokens_seen": 68981032,
      "step": 546
    },
    {
      "epoch": 0.1400628487141666,
      "loss": 2.0746302604675293,
      "loss_ce": 0.0023645502515137196,
      "loss_iou": 0.90625,
      "loss_num": 0.052734375,
      "loss_xval": 2.078125,
      "num_input_tokens_seen": 68981032,
      "step": 546
    },
    {
      "epoch": 0.14031937407811199,
      "grad_norm": 49.50692367553711,
      "learning_rate": 5e-06,
      "loss": 1.6751,
      "num_input_tokens_seen": 69107184,
      "step": 547
    },
    {
      "epoch": 0.14031937407811199,
      "loss": 1.585601568222046,
      "loss_ce": 0.0006407101755030453,
      "loss_iou": 0.7265625,
      "loss_num": 0.02587890625,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 69107184,
      "step": 547
    },
    {
      "epoch": 0.14057589944205734,
      "grad_norm": 53.43033981323242,
      "learning_rate": 5e-06,
      "loss": 1.3986,
      "num_input_tokens_seen": 69233372,
      "step": 548
    },
    {
      "epoch": 0.14057589944205734,
      "loss": 1.3398373126983643,
      "loss_ce": 0.0009700690279714763,
      "loss_iou": 0.62890625,
      "loss_num": 0.01519775390625,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 69233372,
      "step": 548
    },
    {
      "epoch": 0.1408324248060027,
      "grad_norm": 56.18838119506836,
      "learning_rate": 5e-06,
      "loss": 1.5654,
      "num_input_tokens_seen": 69360428,
      "step": 549
    },
    {
      "epoch": 0.1408324248060027,
      "loss": 1.522639513015747,
      "loss_ce": 0.0031081875786185265,
      "loss_iou": 0.703125,
      "loss_num": 0.0223388671875,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 69360428,
      "step": 549
    },
    {
      "epoch": 0.14108895016994805,
      "grad_norm": 107.62277221679688,
      "learning_rate": 5e-06,
      "loss": 1.5514,
      "num_input_tokens_seen": 69487312,
      "step": 550
    },
    {
      "epoch": 0.14108895016994805,
      "loss": 1.5685968399047852,
      "loss_ce": 0.005120271351188421,
      "loss_iou": 0.734375,
      "loss_num": 0.019287109375,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 69487312,
      "step": 550
    },
    {
      "epoch": 0.1413454755338934,
      "grad_norm": 42.770843505859375,
      "learning_rate": 5e-06,
      "loss": 1.9004,
      "num_input_tokens_seen": 69615580,
      "step": 551
    },
    {
      "epoch": 0.1413454755338934,
      "loss": 1.8985214233398438,
      "loss_ce": 0.003013565670698881,
      "loss_iou": 0.84765625,
      "loss_num": 0.039306640625,
      "loss_xval": 1.8984375,
      "num_input_tokens_seen": 69615580,
      "step": 551
    },
    {
      "epoch": 0.14160200089783878,
      "grad_norm": 43.04829788208008,
      "learning_rate": 5e-06,
      "loss": 1.7076,
      "num_input_tokens_seen": 69741496,
      "step": 552
    },
    {
      "epoch": 0.14160200089783878,
      "loss": 1.757059097290039,
      "loss_ce": 0.006082567851990461,
      "loss_iou": 0.78125,
      "loss_num": 0.037353515625,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 69741496,
      "step": 552
    },
    {
      "epoch": 0.14185852626178413,
      "grad_norm": 49.3670539855957,
      "learning_rate": 5e-06,
      "loss": 1.4928,
      "num_input_tokens_seen": 69869180,
      "step": 553
    },
    {
      "epoch": 0.14185852626178413,
      "loss": 1.416538953781128,
      "loss_ce": 0.0005233290721662343,
      "loss_iou": 0.6640625,
      "loss_num": 0.018310546875,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 69869180,
      "step": 553
    },
    {
      "epoch": 0.1421150516257295,
      "grad_norm": 45.51365280151367,
      "learning_rate": 5e-06,
      "loss": 1.5454,
      "num_input_tokens_seen": 69994652,
      "step": 554
    },
    {
      "epoch": 0.1421150516257295,
      "loss": 1.473512887954712,
      "loss_ce": 0.000368429406080395,
      "loss_iou": 0.69140625,
      "loss_num": 0.0177001953125,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 69994652,
      "step": 554
    },
    {
      "epoch": 0.14237157698967484,
      "grad_norm": 67.81134033203125,
      "learning_rate": 5e-06,
      "loss": 1.482,
      "num_input_tokens_seen": 70120604,
      "step": 555
    },
    {
      "epoch": 0.14237157698967484,
      "loss": 1.3690364360809326,
      "loss_ce": 0.0008723422652110457,
      "loss_iou": 0.640625,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 70120604,
      "step": 555
    },
    {
      "epoch": 0.14262810235362022,
      "grad_norm": 57.1545295715332,
      "learning_rate": 5e-06,
      "loss": 1.8011,
      "num_input_tokens_seen": 70246764,
      "step": 556
    },
    {
      "epoch": 0.14262810235362022,
      "loss": 1.6394314765930176,
      "loss_ce": 0.002712684217840433,
      "loss_iou": 0.7578125,
      "loss_num": 0.0247802734375,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 70246764,
      "step": 556
    },
    {
      "epoch": 0.14288462771756558,
      "grad_norm": 46.878238677978516,
      "learning_rate": 5e-06,
      "loss": 1.6197,
      "num_input_tokens_seen": 70370944,
      "step": 557
    },
    {
      "epoch": 0.14288462771756558,
      "loss": 1.8017077445983887,
      "loss_ce": 0.004832741804420948,
      "loss_iou": 0.8125,
      "loss_num": 0.03466796875,
      "loss_xval": 1.796875,
      "num_input_tokens_seen": 70370944,
      "step": 557
    },
    {
      "epoch": 0.14314115308151093,
      "grad_norm": 58.380619049072266,
      "learning_rate": 5e-06,
      "loss": 1.5898,
      "num_input_tokens_seen": 70496972,
      "step": 558
    },
    {
      "epoch": 0.14314115308151093,
      "loss": 1.4451154470443726,
      "loss_ce": 0.0017561402637511492,
      "loss_iou": 0.671875,
      "loss_num": 0.0205078125,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 70496972,
      "step": 558
    },
    {
      "epoch": 0.14339767844545628,
      "grad_norm": 51.696044921875,
      "learning_rate": 5e-06,
      "loss": 1.711,
      "num_input_tokens_seen": 70623052,
      "step": 559
    },
    {
      "epoch": 0.14339767844545628,
      "loss": 1.839169979095459,
      "loss_ce": 0.003232384566217661,
      "loss_iou": 0.83203125,
      "loss_num": 0.033447265625,
      "loss_xval": 1.8359375,
      "num_input_tokens_seen": 70623052,
      "step": 559
    },
    {
      "epoch": 0.14365420380940166,
      "grad_norm": 76.79081726074219,
      "learning_rate": 5e-06,
      "loss": 1.5567,
      "num_input_tokens_seen": 70748948,
      "step": 560
    },
    {
      "epoch": 0.14365420380940166,
      "loss": 1.336108684539795,
      "loss_ce": 0.0011477943044155836,
      "loss_iou": 0.62890625,
      "loss_num": 0.01513671875,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 70748948,
      "step": 560
    },
    {
      "epoch": 0.14391072917334702,
      "grad_norm": 43.05482482910156,
      "learning_rate": 5e-06,
      "loss": 1.5965,
      "num_input_tokens_seen": 70875008,
      "step": 561
    },
    {
      "epoch": 0.14391072917334702,
      "loss": 1.5724600553512573,
      "loss_ce": 0.0011710493126884103,
      "loss_iou": 0.71875,
      "loss_num": 0.027587890625,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 70875008,
      "step": 561
    },
    {
      "epoch": 0.14416725453729237,
      "grad_norm": 56.391578674316406,
      "learning_rate": 5e-06,
      "loss": 1.5623,
      "num_input_tokens_seen": 71001072,
      "step": 562
    },
    {
      "epoch": 0.14416725453729237,
      "loss": 1.5528550148010254,
      "loss_ce": 0.0020737135782837868,
      "loss_iou": 0.72265625,
      "loss_num": 0.02099609375,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 71001072,
      "step": 562
    },
    {
      "epoch": 0.14442377990123773,
      "grad_norm": 46.05347442626953,
      "learning_rate": 5e-06,
      "loss": 1.7065,
      "num_input_tokens_seen": 71126932,
      "step": 563
    },
    {
      "epoch": 0.14442377990123773,
      "loss": 1.6381909847259521,
      "loss_ce": 0.0014722333289682865,
      "loss_iou": 0.7578125,
      "loss_num": 0.02392578125,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 71126932,
      "step": 563
    },
    {
      "epoch": 0.1446803052651831,
      "grad_norm": 66.55777740478516,
      "learning_rate": 5e-06,
      "loss": 1.4283,
      "num_input_tokens_seen": 71253280,
      "step": 564
    },
    {
      "epoch": 0.1446803052651831,
      "loss": 1.2392961978912354,
      "loss_ce": 0.0010148679139092565,
      "loss_iou": 0.58984375,
      "loss_num": 0.01202392578125,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 71253280,
      "step": 564
    },
    {
      "epoch": 0.14493683062912846,
      "grad_norm": 46.23533630371094,
      "learning_rate": 5e-06,
      "loss": 1.6927,
      "num_input_tokens_seen": 71379980,
      "step": 565
    },
    {
      "epoch": 0.14493683062912846,
      "loss": 1.6584994792938232,
      "loss_ce": 0.0012729023583233356,
      "loss_iou": 0.73828125,
      "loss_num": 0.035400390625,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 71379980,
      "step": 565
    },
    {
      "epoch": 0.1451933559930738,
      "grad_norm": 37.38328170776367,
      "learning_rate": 5e-06,
      "loss": 1.661,
      "num_input_tokens_seen": 71507300,
      "step": 566
    },
    {
      "epoch": 0.1451933559930738,
      "loss": 1.6988778114318848,
      "loss_ce": 0.000635545002296567,
      "loss_iou": 0.7734375,
      "loss_num": 0.030517578125,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 71507300,
      "step": 566
    },
    {
      "epoch": 0.14544988135701917,
      "grad_norm": 48.878726959228516,
      "learning_rate": 5e-06,
      "loss": 1.5643,
      "num_input_tokens_seen": 71634524,
      "step": 567
    },
    {
      "epoch": 0.14544988135701917,
      "loss": 1.3866894245147705,
      "loss_ce": 0.0009473641403019428,
      "loss_iou": 0.65234375,
      "loss_num": 0.016357421875,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 71634524,
      "step": 567
    },
    {
      "epoch": 0.14570640672096455,
      "grad_norm": 53.29856491088867,
      "learning_rate": 5e-06,
      "loss": 1.7319,
      "num_input_tokens_seen": 71761132,
      "step": 568
    },
    {
      "epoch": 0.14570640672096455,
      "loss": 1.8051761388778687,
      "loss_ce": 0.0014652200043201447,
      "loss_iou": 0.81640625,
      "loss_num": 0.03369140625,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 71761132,
      "step": 568
    },
    {
      "epoch": 0.1459629320849099,
      "grad_norm": 48.535682678222656,
      "learning_rate": 5e-06,
      "loss": 1.6325,
      "num_input_tokens_seen": 71887352,
      "step": 569
    },
    {
      "epoch": 0.1459629320849099,
      "loss": 1.6104873418807983,
      "loss_ce": 0.0030655106529593468,
      "loss_iou": 0.734375,
      "loss_num": 0.0272216796875,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 71887352,
      "step": 569
    },
    {
      "epoch": 0.14621945744885526,
      "grad_norm": 60.103309631347656,
      "learning_rate": 5e-06,
      "loss": 1.7861,
      "num_input_tokens_seen": 72013904,
      "step": 570
    },
    {
      "epoch": 0.14621945744885526,
      "loss": 1.6273894309997559,
      "loss_ce": 0.0033660721965134144,
      "loss_iou": 0.74609375,
      "loss_num": 0.02587890625,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 72013904,
      "step": 570
    },
    {
      "epoch": 0.1464759828128006,
      "grad_norm": 35.31315612792969,
      "learning_rate": 5e-06,
      "loss": 1.6818,
      "num_input_tokens_seen": 72139984,
      "step": 571
    },
    {
      "epoch": 0.1464759828128006,
      "loss": 1.8573236465454102,
      "loss_ce": 0.0013665887527167797,
      "loss_iou": 0.83984375,
      "loss_num": 0.0361328125,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 72139984,
      "step": 571
    },
    {
      "epoch": 0.14673250817674596,
      "grad_norm": 39.63682556152344,
      "learning_rate": 5e-06,
      "loss": 1.4634,
      "num_input_tokens_seen": 72266212,
      "step": 572
    },
    {
      "epoch": 0.14673250817674596,
      "loss": 1.4371800422668457,
      "loss_ce": 0.0026096974033862352,
      "loss_iou": 0.66796875,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 72266212,
      "step": 572
    },
    {
      "epoch": 0.14698903354069134,
      "grad_norm": 73.38729858398438,
      "learning_rate": 5e-06,
      "loss": 1.5782,
      "num_input_tokens_seen": 72393136,
      "step": 573
    },
    {
      "epoch": 0.14698903354069134,
      "loss": 1.584549069404602,
      "loss_ce": 0.0025178072974085808,
      "loss_iou": 0.7265625,
      "loss_num": 0.02490234375,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 72393136,
      "step": 573
    },
    {
      "epoch": 0.1472455589046367,
      "grad_norm": 43.090694427490234,
      "learning_rate": 5e-06,
      "loss": 1.5578,
      "num_input_tokens_seen": 72518564,
      "step": 574
    },
    {
      "epoch": 0.1472455589046367,
      "loss": 1.630611538887024,
      "loss_ce": 0.002681904472410679,
      "loss_iou": 0.7421875,
      "loss_num": 0.02880859375,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 72518564,
      "step": 574
    },
    {
      "epoch": 0.14750208426858205,
      "grad_norm": 36.16836166381836,
      "learning_rate": 5e-06,
      "loss": 1.49,
      "num_input_tokens_seen": 72645676,
      "step": 575
    },
    {
      "epoch": 0.14750208426858205,
      "loss": 1.3360331058502197,
      "loss_ce": 0.0005838978104293346,
      "loss_iou": 0.62890625,
      "loss_num": 0.01556396484375,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 72645676,
      "step": 575
    },
    {
      "epoch": 0.1477586096325274,
      "grad_norm": 70.74276733398438,
      "learning_rate": 5e-06,
      "loss": 1.5439,
      "num_input_tokens_seen": 72771428,
      "step": 576
    },
    {
      "epoch": 0.1477586096325274,
      "loss": 1.5601820945739746,
      "loss_ce": 0.0025649545714259148,
      "loss_iou": 0.71875,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 72771428,
      "step": 576
    },
    {
      "epoch": 0.14801513499647279,
      "grad_norm": 40.81587219238281,
      "learning_rate": 5e-06,
      "loss": 1.7654,
      "num_input_tokens_seen": 72897336,
      "step": 577
    },
    {
      "epoch": 0.14801513499647279,
      "loss": 1.8659732341766357,
      "loss_ce": 0.0017152922227978706,
      "loss_iou": 0.83984375,
      "loss_num": 0.03662109375,
      "loss_xval": 1.8671875,
      "num_input_tokens_seen": 72897336,
      "step": 577
    },
    {
      "epoch": 0.14827166036041814,
      "grad_norm": 39.28877639770508,
      "learning_rate": 5e-06,
      "loss": 1.4362,
      "num_input_tokens_seen": 73024072,
      "step": 578
    },
    {
      "epoch": 0.14827166036041814,
      "loss": 1.3250255584716797,
      "loss_ce": 0.0027599718887358904,
      "loss_iou": 0.625,
      "loss_num": 0.01385498046875,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 73024072,
      "step": 578
    },
    {
      "epoch": 0.1485281857243635,
      "grad_norm": 45.285396575927734,
      "learning_rate": 5e-06,
      "loss": 1.5091,
      "num_input_tokens_seen": 73149644,
      "step": 579
    },
    {
      "epoch": 0.1485281857243635,
      "loss": 1.4105304479599,
      "loss_ce": 0.0013507843250408769,
      "loss_iou": 0.66015625,
      "loss_num": 0.017333984375,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 73149644,
      "step": 579
    },
    {
      "epoch": 0.14878471108830885,
      "grad_norm": 57.239322662353516,
      "learning_rate": 5e-06,
      "loss": 1.4544,
      "num_input_tokens_seen": 73276728,
      "step": 580
    },
    {
      "epoch": 0.14878471108830885,
      "loss": 1.4242689609527588,
      "loss_ce": 0.0023940117098391056,
      "loss_iou": 0.65234375,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 73276728,
      "step": 580
    },
    {
      "epoch": 0.14904123645225423,
      "grad_norm": 75.37710571289062,
      "learning_rate": 5e-06,
      "loss": 1.5413,
      "num_input_tokens_seen": 73403492,
      "step": 581
    },
    {
      "epoch": 0.14904123645225423,
      "loss": 1.4440460205078125,
      "loss_ce": 0.000686710060108453,
      "loss_iou": 0.65625,
      "loss_num": 0.025634765625,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 73403492,
      "step": 581
    },
    {
      "epoch": 0.14929776181619958,
      "grad_norm": 50.49420166015625,
      "learning_rate": 5e-06,
      "loss": 1.7171,
      "num_input_tokens_seen": 73530384,
      "step": 582
    },
    {
      "epoch": 0.14929776181619958,
      "loss": 1.6590261459350586,
      "loss_ce": 0.001799560384824872,
      "loss_iou": 0.7578125,
      "loss_num": 0.0283203125,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 73530384,
      "step": 582
    },
    {
      "epoch": 0.14955428718014493,
      "grad_norm": 43.39142608642578,
      "learning_rate": 5e-06,
      "loss": 1.5826,
      "num_input_tokens_seen": 73655548,
      "step": 583
    },
    {
      "epoch": 0.14955428718014493,
      "loss": 1.8158423900604248,
      "loss_ce": 0.0043189385905861855,
      "loss_iou": 0.81640625,
      "loss_num": 0.035400390625,
      "loss_xval": 1.8125,
      "num_input_tokens_seen": 73655548,
      "step": 583
    },
    {
      "epoch": 0.1498108125440903,
      "grad_norm": 49.67422866821289,
      "learning_rate": 5e-06,
      "loss": 1.7034,
      "num_input_tokens_seen": 73780436,
      "step": 584
    },
    {
      "epoch": 0.1498108125440903,
      "loss": 1.8468043804168701,
      "loss_ce": 0.0020777375902980566,
      "loss_iou": 0.828125,
      "loss_num": 0.037841796875,
      "loss_xval": 1.84375,
      "num_input_tokens_seen": 73780436,
      "step": 584
    },
    {
      "epoch": 0.15006733790803567,
      "grad_norm": 38.22661209106445,
      "learning_rate": 5e-06,
      "loss": 1.4372,
      "num_input_tokens_seen": 73906716,
      "step": 585
    },
    {
      "epoch": 0.15006733790803567,
      "loss": 1.4204368591308594,
      "loss_ce": 0.0034446953795850277,
      "loss_iou": 0.65625,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 73906716,
      "step": 585
    },
    {
      "epoch": 0.15032386327198102,
      "grad_norm": 82.67743682861328,
      "learning_rate": 5e-06,
      "loss": 1.5307,
      "num_input_tokens_seen": 74033596,
      "step": 586
    },
    {
      "epoch": 0.15032386327198102,
      "loss": 1.3638746738433838,
      "loss_ce": 0.0035232193768024445,
      "loss_iou": 0.62890625,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 74033596,
      "step": 586
    },
    {
      "epoch": 0.15058038863592638,
      "grad_norm": 42.65348815917969,
      "learning_rate": 5e-06,
      "loss": 1.6281,
      "num_input_tokens_seen": 74159880,
      "step": 587
    },
    {
      "epoch": 0.15058038863592638,
      "loss": 1.5148348808288574,
      "loss_ce": 0.0011629253858700395,
      "loss_iou": 0.69921875,
      "loss_num": 0.0228271484375,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 74159880,
      "step": 587
    },
    {
      "epoch": 0.15083691399987173,
      "grad_norm": 52.83303451538086,
      "learning_rate": 5e-06,
      "loss": 1.6874,
      "num_input_tokens_seen": 74285212,
      "step": 588
    },
    {
      "epoch": 0.15083691399987173,
      "loss": 1.6562573909759521,
      "loss_ce": 0.0009839492850005627,
      "loss_iou": 0.7578125,
      "loss_num": 0.0279541015625,
      "loss_xval": 1.65625,
      "num_input_tokens_seen": 74285212,
      "step": 588
    },
    {
      "epoch": 0.15109343936381708,
      "grad_norm": 48.557437896728516,
      "learning_rate": 5e-06,
      "loss": 1.7268,
      "num_input_tokens_seen": 74411764,
      "step": 589
    },
    {
      "epoch": 0.15109343936381708,
      "loss": 1.6911873817443848,
      "loss_ce": 0.0017342529026791453,
      "loss_iou": 0.7734375,
      "loss_num": 0.0291748046875,
      "loss_xval": 1.6875,
      "num_input_tokens_seen": 74411764,
      "step": 589
    },
    {
      "epoch": 0.15134996472776246,
      "grad_norm": 52.513004302978516,
      "learning_rate": 5e-06,
      "loss": 1.579,
      "num_input_tokens_seen": 74537668,
      "step": 590
    },
    {
      "epoch": 0.15134996472776246,
      "loss": 1.4191499948501587,
      "loss_ce": 0.004110934678465128,
      "loss_iou": 0.66015625,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 74537668,
      "step": 590
    },
    {
      "epoch": 0.15160649009170782,
      "grad_norm": 45.65567398071289,
      "learning_rate": 5e-06,
      "loss": 1.5378,
      "num_input_tokens_seen": 74663560,
      "step": 591
    },
    {
      "epoch": 0.15160649009170782,
      "loss": 1.4624228477478027,
      "loss_ce": 0.0005087483441457152,
      "loss_iou": 0.68359375,
      "loss_num": 0.01904296875,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 74663560,
      "step": 591
    },
    {
      "epoch": 0.15186301545565317,
      "grad_norm": 64.55572509765625,
      "learning_rate": 5e-06,
      "loss": 1.7781,
      "num_input_tokens_seen": 74789548,
      "step": 592
    },
    {
      "epoch": 0.15186301545565317,
      "loss": 1.8094186782836914,
      "loss_ce": 0.003754502162337303,
      "loss_iou": 0.82421875,
      "loss_num": 0.031005859375,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 74789548,
      "step": 592
    },
    {
      "epoch": 0.15211954081959853,
      "grad_norm": 48.58171463012695,
      "learning_rate": 5e-06,
      "loss": 1.8721,
      "num_input_tokens_seen": 74916696,
      "step": 593
    },
    {
      "epoch": 0.15211954081959853,
      "loss": 1.7366645336151123,
      "loss_ce": 0.0013128416612744331,
      "loss_iou": 0.78515625,
      "loss_num": 0.032470703125,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 74916696,
      "step": 593
    },
    {
      "epoch": 0.1523760661835439,
      "grad_norm": 51.23349380493164,
      "learning_rate": 5e-06,
      "loss": 1.5553,
      "num_input_tokens_seen": 75043144,
      "step": 594
    },
    {
      "epoch": 0.1523760661835439,
      "loss": 2.00990629196167,
      "loss_ce": 0.004047081805765629,
      "loss_iou": 0.88671875,
      "loss_num": 0.04541015625,
      "loss_xval": 2.0,
      "num_input_tokens_seen": 75043144,
      "step": 594
    },
    {
      "epoch": 0.15263259154748926,
      "grad_norm": 54.21349334716797,
      "learning_rate": 5e-06,
      "loss": 1.4874,
      "num_input_tokens_seen": 75168820,
      "step": 595
    },
    {
      "epoch": 0.15263259154748926,
      "loss": 1.444124698638916,
      "loss_ce": 0.0017418676288798451,
      "loss_iou": 0.671875,
      "loss_num": 0.01953125,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 75168820,
      "step": 595
    },
    {
      "epoch": 0.1528891169114346,
      "grad_norm": 56.62431716918945,
      "learning_rate": 5e-06,
      "loss": 1.6738,
      "num_input_tokens_seen": 75296192,
      "step": 596
    },
    {
      "epoch": 0.1528891169114346,
      "loss": 1.876996397972107,
      "loss_ce": 0.004926127847284079,
      "loss_iou": 0.84375,
      "loss_num": 0.036865234375,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 75296192,
      "step": 596
    },
    {
      "epoch": 0.15314564227537997,
      "grad_norm": 73.03638458251953,
      "learning_rate": 5e-06,
      "loss": 1.4456,
      "num_input_tokens_seen": 75423044,
      "step": 597
    },
    {
      "epoch": 0.15314564227537997,
      "loss": 1.5212998390197754,
      "loss_ce": 0.0012802882120013237,
      "loss_iou": 0.6875,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 75423044,
      "step": 597
    },
    {
      "epoch": 0.15340216763932535,
      "grad_norm": 54.039939880371094,
      "learning_rate": 5e-06,
      "loss": 1.6402,
      "num_input_tokens_seen": 75550176,
      "step": 598
    },
    {
      "epoch": 0.15340216763932535,
      "loss": 1.8275648355484009,
      "loss_ce": 0.004322602413594723,
      "loss_iou": 0.8046875,
      "loss_num": 0.042724609375,
      "loss_xval": 1.8203125,
      "num_input_tokens_seen": 75550176,
      "step": 598
    },
    {
      "epoch": 0.1536586930032707,
      "grad_norm": 38.54146194458008,
      "learning_rate": 5e-06,
      "loss": 1.4683,
      "num_input_tokens_seen": 75677316,
      "step": 599
    },
    {
      "epoch": 0.1536586930032707,
      "loss": 1.4439986944198608,
      "loss_ce": 0.0021041773725301027,
      "loss_iou": 0.66796875,
      "loss_num": 0.02099609375,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 75677316,
      "step": 599
    },
    {
      "epoch": 0.15391521836721606,
      "grad_norm": 50.49699401855469,
      "learning_rate": 5e-06,
      "loss": 1.4704,
      "num_input_tokens_seen": 75803556,
      "step": 600
    },
    {
      "epoch": 0.15391521836721606,
      "loss": 1.2889337539672852,
      "loss_ce": 0.0023127233143895864,
      "loss_iou": 0.59765625,
      "loss_num": 0.01806640625,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 75803556,
      "step": 600
    },
    {
      "epoch": 0.1541717437311614,
      "grad_norm": 38.798606872558594,
      "learning_rate": 5e-06,
      "loss": 1.5553,
      "num_input_tokens_seen": 75928968,
      "step": 601
    },
    {
      "epoch": 0.1541717437311614,
      "loss": 1.4038331508636475,
      "loss_ce": 0.00441913353279233,
      "loss_iou": 0.6484375,
      "loss_num": 0.02001953125,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 75928968,
      "step": 601
    },
    {
      "epoch": 0.1544282690951068,
      "grad_norm": 56.033660888671875,
      "learning_rate": 5e-06,
      "loss": 1.4756,
      "num_input_tokens_seen": 76056176,
      "step": 602
    },
    {
      "epoch": 0.1544282690951068,
      "loss": 1.6018264293670654,
      "loss_ce": 0.006123394705355167,
      "loss_iou": 0.73828125,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 76056176,
      "step": 602
    },
    {
      "epoch": 0.15468479445905214,
      "grad_norm": 62.73344039916992,
      "learning_rate": 5e-06,
      "loss": 1.677,
      "num_input_tokens_seen": 76182672,
      "step": 603
    },
    {
      "epoch": 0.15468479445905214,
      "loss": 1.8152211904525757,
      "loss_ce": 0.0027212006971240044,
      "loss_iou": 0.80859375,
      "loss_num": 0.038818359375,
      "loss_xval": 1.8125,
      "num_input_tokens_seen": 76182672,
      "step": 603
    },
    {
      "epoch": 0.1549413198229975,
      "grad_norm": 49.5567626953125,
      "learning_rate": 5e-06,
      "loss": 1.5673,
      "num_input_tokens_seen": 76309224,
      "step": 604
    },
    {
      "epoch": 0.1549413198229975,
      "loss": 1.6534454822540283,
      "loss_ce": 0.0020781990606337786,
      "loss_iou": 0.75,
      "loss_num": 0.030517578125,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 76309224,
      "step": 604
    },
    {
      "epoch": 0.15519784518694285,
      "grad_norm": 74.88670349121094,
      "learning_rate": 5e-06,
      "loss": 1.5139,
      "num_input_tokens_seen": 76435308,
      "step": 605
    },
    {
      "epoch": 0.15519784518694285,
      "loss": 1.4446709156036377,
      "loss_ce": 0.005217882804572582,
      "loss_iou": 0.6796875,
      "loss_num": 0.0166015625,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 76435308,
      "step": 605
    },
    {
      "epoch": 0.15545437055088823,
      "grad_norm": 49.866050720214844,
      "learning_rate": 5e-06,
      "loss": 1.799,
      "num_input_tokens_seen": 76561616,
      "step": 606
    },
    {
      "epoch": 0.15545437055088823,
      "loss": 1.8579350709915161,
      "loss_ce": 0.0005131715442985296,
      "loss_iou": 0.83203125,
      "loss_num": 0.038330078125,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 76561616,
      "step": 606
    },
    {
      "epoch": 0.15571089591483359,
      "grad_norm": 39.4975471496582,
      "learning_rate": 5e-06,
      "loss": 1.4822,
      "num_input_tokens_seen": 76687284,
      "step": 607
    },
    {
      "epoch": 0.15571089591483359,
      "loss": 1.3781297206878662,
      "loss_ce": 0.004594467580318451,
      "loss_iou": 0.63671875,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 76687284,
      "step": 607
    },
    {
      "epoch": 0.15596742127877894,
      "grad_norm": 91.91250610351562,
      "learning_rate": 5e-06,
      "loss": 1.5994,
      "num_input_tokens_seen": 76813556,
      "step": 608
    },
    {
      "epoch": 0.15596742127877894,
      "loss": 1.6230511665344238,
      "loss_ce": 0.003910559229552746,
      "loss_iou": 0.75390625,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 76813556,
      "step": 608
    },
    {
      "epoch": 0.1562239466427243,
      "grad_norm": 53.741783142089844,
      "learning_rate": 5e-06,
      "loss": 1.7303,
      "num_input_tokens_seen": 76940380,
      "step": 609
    },
    {
      "epoch": 0.1562239466427243,
      "loss": 1.7919665575027466,
      "loss_ce": 0.00876346230506897,
      "loss_iou": 0.79296875,
      "loss_num": 0.0400390625,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 76940380,
      "step": 609
    },
    {
      "epoch": 0.15648047200666965,
      "grad_norm": 28.128437042236328,
      "learning_rate": 5e-06,
      "loss": 1.5153,
      "num_input_tokens_seen": 77066396,
      "step": 610
    },
    {
      "epoch": 0.15648047200666965,
      "loss": 1.6679878234863281,
      "loss_ce": 0.000995634589344263,
      "loss_iou": 0.7421875,
      "loss_num": 0.03564453125,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 77066396,
      "step": 610
    },
    {
      "epoch": 0.15673699737061503,
      "grad_norm": 38.44987106323242,
      "learning_rate": 5e-06,
      "loss": 1.4808,
      "num_input_tokens_seen": 77192576,
      "step": 611
    },
    {
      "epoch": 0.15673699737061503,
      "loss": 1.5539766550064087,
      "loss_ce": 0.006125175394117832,
      "loss_iou": 0.6953125,
      "loss_num": 0.031982421875,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 77192576,
      "step": 611
    },
    {
      "epoch": 0.15699352273456038,
      "grad_norm": 42.712196350097656,
      "learning_rate": 5e-06,
      "loss": 1.5177,
      "num_input_tokens_seen": 77318340,
      "step": 612
    },
    {
      "epoch": 0.15699352273456038,
      "loss": 1.5805890560150146,
      "loss_ce": 0.002464146353304386,
      "loss_iou": 0.71484375,
      "loss_num": 0.0299072265625,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 77318340,
      "step": 612
    },
    {
      "epoch": 0.15725004809850573,
      "grad_norm": 67.8608627319336,
      "learning_rate": 5e-06,
      "loss": 1.5112,
      "num_input_tokens_seen": 77444112,
      "step": 613
    },
    {
      "epoch": 0.15725004809850573,
      "loss": 1.3369100093841553,
      "loss_ce": 0.002925680484622717,
      "loss_iou": 0.6171875,
      "loss_num": 0.0196533203125,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 77444112,
      "step": 613
    },
    {
      "epoch": 0.1575065734624511,
      "grad_norm": 51.244388580322266,
      "learning_rate": 5e-06,
      "loss": 1.5678,
      "num_input_tokens_seen": 77569616,
      "step": 614
    },
    {
      "epoch": 0.1575065734624511,
      "loss": 1.5358669757843018,
      "loss_ce": 0.004616935271769762,
      "loss_iou": 0.7109375,
      "loss_num": 0.0220947265625,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 77569616,
      "step": 614
    },
    {
      "epoch": 0.15776309882639647,
      "grad_norm": 39.469173431396484,
      "learning_rate": 5e-06,
      "loss": 1.683,
      "num_input_tokens_seen": 77695044,
      "step": 615
    },
    {
      "epoch": 0.15776309882639647,
      "loss": 1.7164641618728638,
      "loss_ce": 0.008456309325993061,
      "loss_iou": 0.7890625,
      "loss_num": 0.025146484375,
      "loss_xval": 1.7109375,
      "num_input_tokens_seen": 77695044,
      "step": 615
    },
    {
      "epoch": 0.15801962419034182,
      "grad_norm": 62.49048614501953,
      "learning_rate": 5e-06,
      "loss": 1.5193,
      "num_input_tokens_seen": 77820756,
      "step": 616
    },
    {
      "epoch": 0.15801962419034182,
      "loss": 1.7489218711853027,
      "loss_ce": 0.0018515517003834248,
      "loss_iou": 0.78515625,
      "loss_num": 0.03564453125,
      "loss_xval": 1.75,
      "num_input_tokens_seen": 77820756,
      "step": 616
    },
    {
      "epoch": 0.15827614955428718,
      "grad_norm": 95.73761749267578,
      "learning_rate": 5e-06,
      "loss": 1.5191,
      "num_input_tokens_seen": 77946856,
      "step": 617
    },
    {
      "epoch": 0.15827614955428718,
      "loss": 1.4469906091690063,
      "loss_ce": 0.001678092172369361,
      "loss_iou": 0.671875,
      "loss_num": 0.02099609375,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 77946856,
      "step": 617
    },
    {
      "epoch": 0.15853267491823253,
      "grad_norm": 46.59117126464844,
      "learning_rate": 5e-06,
      "loss": 1.7558,
      "num_input_tokens_seen": 78072428,
      "step": 618
    },
    {
      "epoch": 0.15853267491823253,
      "loss": 1.8148832321166992,
      "loss_ce": 0.007265983149409294,
      "loss_iou": 0.8046875,
      "loss_num": 0.039306640625,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 78072428,
      "step": 618
    },
    {
      "epoch": 0.1587892002821779,
      "grad_norm": 39.142032623291016,
      "learning_rate": 5e-06,
      "loss": 1.5875,
      "num_input_tokens_seen": 78199144,
      "step": 619
    },
    {
      "epoch": 0.1587892002821779,
      "loss": 1.518519639968872,
      "loss_ce": 0.0028945913072675467,
      "loss_iou": 0.69140625,
      "loss_num": 0.026123046875,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 78199144,
      "step": 619
    },
    {
      "epoch": 0.15904572564612326,
      "grad_norm": 27.324047088623047,
      "learning_rate": 5e-06,
      "loss": 1.5821,
      "num_input_tokens_seen": 78325808,
      "step": 620
    },
    {
      "epoch": 0.15904572564612326,
      "loss": 1.4541864395141602,
      "loss_ce": 0.0010614325292408466,
      "loss_iou": 0.6796875,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 78325808,
      "step": 620
    },
    {
      "epoch": 0.15930225101006862,
      "grad_norm": 68.94915771484375,
      "learning_rate": 5e-06,
      "loss": 1.452,
      "num_input_tokens_seen": 78452628,
      "step": 621
    },
    {
      "epoch": 0.15930225101006862,
      "loss": 1.3846306800842285,
      "loss_ce": 0.000841553439386189,
      "loss_iou": 0.640625,
      "loss_num": 0.01953125,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 78452628,
      "step": 621
    },
    {
      "epoch": 0.15955877637401397,
      "grad_norm": 49.75607681274414,
      "learning_rate": 5e-06,
      "loss": 1.5777,
      "num_input_tokens_seen": 78579288,
      "step": 622
    },
    {
      "epoch": 0.15955877637401397,
      "loss": 1.4593671560287476,
      "loss_ce": 0.00038276921259239316,
      "loss_iou": 0.671875,
      "loss_num": 0.0233154296875,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 78579288,
      "step": 622
    },
    {
      "epoch": 0.15981530173795935,
      "grad_norm": 37.10400390625,
      "learning_rate": 5e-06,
      "loss": 1.4073,
      "num_input_tokens_seen": 78705280,
      "step": 623
    },
    {
      "epoch": 0.15981530173795935,
      "loss": 1.455942988395691,
      "loss_ce": 0.0028179753571748734,
      "loss_iou": 0.66015625,
      "loss_num": 0.0269775390625,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 78705280,
      "step": 623
    },
    {
      "epoch": 0.1600718271019047,
      "grad_norm": 29.619606018066406,
      "learning_rate": 5e-06,
      "loss": 1.4822,
      "num_input_tokens_seen": 78831620,
      "step": 624
    },
    {
      "epoch": 0.1600718271019047,
      "loss": 1.600303292274475,
      "loss_ce": 0.0006939612794667482,
      "loss_iou": 0.71875,
      "loss_num": 0.032958984375,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 78831620,
      "step": 624
    },
    {
      "epoch": 0.16032835246585006,
      "grad_norm": 60.412601470947266,
      "learning_rate": 5e-06,
      "loss": 1.2927,
      "num_input_tokens_seen": 78958500,
      "step": 625
    },
    {
      "epoch": 0.16032835246585006,
      "loss": 1.5193530321121216,
      "loss_ce": 0.0017749086255207658,
      "loss_iou": 0.71484375,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 78958500,
      "step": 625
    },
    {
      "epoch": 0.1605848778297954,
      "grad_norm": 49.4111328125,
      "learning_rate": 5e-06,
      "loss": 1.65,
      "num_input_tokens_seen": 79085284,
      "step": 626
    },
    {
      "epoch": 0.1605848778297954,
      "loss": 1.847962737083435,
      "loss_ce": 0.0032361664343625307,
      "loss_iou": 0.828125,
      "loss_num": 0.03662109375,
      "loss_xval": 1.84375,
      "num_input_tokens_seen": 79085284,
      "step": 626
    },
    {
      "epoch": 0.16084140319374077,
      "grad_norm": 62.8826789855957,
      "learning_rate": 5e-06,
      "loss": 1.4087,
      "num_input_tokens_seen": 79211980,
      "step": 627
    },
    {
      "epoch": 0.16084140319374077,
      "loss": 1.4072067737579346,
      "loss_ce": 0.0024216885212808847,
      "loss_iou": 0.6484375,
      "loss_num": 0.022216796875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 79211980,
      "step": 627
    },
    {
      "epoch": 0.16109792855768615,
      "grad_norm": 48.82058334350586,
      "learning_rate": 5e-06,
      "loss": 1.6276,
      "num_input_tokens_seen": 79338084,
      "step": 628
    },
    {
      "epoch": 0.16109792855768615,
      "loss": 1.38386070728302,
      "loss_ce": 0.004466169513761997,
      "loss_iou": 0.6328125,
      "loss_num": 0.02294921875,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 79338084,
      "step": 628
    },
    {
      "epoch": 0.1613544539216315,
      "grad_norm": 27.47557258605957,
      "learning_rate": 5e-06,
      "loss": 1.4631,
      "num_input_tokens_seen": 79465124,
      "step": 629
    },
    {
      "epoch": 0.1613544539216315,
      "loss": 1.4801063537597656,
      "loss_ce": 0.0015908535569906235,
      "loss_iou": 0.67578125,
      "loss_num": 0.0262451171875,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 79465124,
      "step": 629
    },
    {
      "epoch": 0.16161097928557686,
      "grad_norm": 44.35489273071289,
      "learning_rate": 5e-06,
      "loss": 1.4472,
      "num_input_tokens_seen": 79591644,
      "step": 630
    },
    {
      "epoch": 0.16161097928557686,
      "loss": 1.5442371368408203,
      "loss_ce": 0.0012683806708082557,
      "loss_iou": 0.703125,
      "loss_num": 0.02783203125,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 79591644,
      "step": 630
    },
    {
      "epoch": 0.1618675046495222,
      "grad_norm": 95.3369369506836,
      "learning_rate": 5e-06,
      "loss": 1.6033,
      "num_input_tokens_seen": 79717444,
      "step": 631
    },
    {
      "epoch": 0.1618675046495222,
      "loss": 1.5621118545532227,
      "loss_ce": 0.001564964884892106,
      "loss_iou": 0.72265625,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 79717444,
      "step": 631
    },
    {
      "epoch": 0.1621240300134676,
      "grad_norm": 49.88316345214844,
      "learning_rate": 5e-06,
      "loss": 1.7543,
      "num_input_tokens_seen": 79844172,
      "step": 632
    },
    {
      "epoch": 0.1621240300134676,
      "loss": 1.7254849672317505,
      "loss_ce": 0.0018520853482186794,
      "loss_iou": 0.77734375,
      "loss_num": 0.03369140625,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 79844172,
      "step": 632
    },
    {
      "epoch": 0.16238055537741294,
      "grad_norm": 57.45986557006836,
      "learning_rate": 5e-06,
      "loss": 1.4382,
      "num_input_tokens_seen": 79970964,
      "step": 633
    },
    {
      "epoch": 0.16238055537741294,
      "loss": 1.5227338075637817,
      "loss_ce": 0.0012494265101850033,
      "loss_iou": 0.69140625,
      "loss_num": 0.0274658203125,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 79970964,
      "step": 633
    },
    {
      "epoch": 0.1626370807413583,
      "grad_norm": 83.04951477050781,
      "learning_rate": 5e-06,
      "loss": 1.6025,
      "num_input_tokens_seen": 80096488,
      "step": 634
    },
    {
      "epoch": 0.1626370807413583,
      "loss": 1.6235147714614868,
      "loss_ce": 0.002420944394543767,
      "loss_iou": 0.734375,
      "loss_num": 0.030517578125,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 80096488,
      "step": 634
    },
    {
      "epoch": 0.16289360610530365,
      "grad_norm": 48.508968353271484,
      "learning_rate": 5e-06,
      "loss": 1.8204,
      "num_input_tokens_seen": 80222752,
      "step": 635
    },
    {
      "epoch": 0.16289360610530365,
      "loss": 1.86301851272583,
      "loss_ce": 0.002666852902621031,
      "loss_iou": 0.83984375,
      "loss_num": 0.0361328125,
      "loss_xval": 1.859375,
      "num_input_tokens_seen": 80222752,
      "step": 635
    },
    {
      "epoch": 0.16315013146924903,
      "grad_norm": 42.72905349731445,
      "learning_rate": 5e-06,
      "loss": 1.4732,
      "num_input_tokens_seen": 80350164,
      "step": 636
    },
    {
      "epoch": 0.16315013146924903,
      "loss": 1.5267226696014404,
      "loss_ce": 0.0032851214054971933,
      "loss_iou": 0.69140625,
      "loss_num": 0.027587890625,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 80350164,
      "step": 636
    },
    {
      "epoch": 0.16340665683319439,
      "grad_norm": 86.05872344970703,
      "learning_rate": 5e-06,
      "loss": 1.4522,
      "num_input_tokens_seen": 80476984,
      "step": 637
    },
    {
      "epoch": 0.16340665683319439,
      "loss": 1.314481496810913,
      "loss_ce": 0.00295812520198524,
      "loss_iou": 0.6171875,
      "loss_num": 0.0145263671875,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 80476984,
      "step": 637
    },
    {
      "epoch": 0.16366318219713974,
      "grad_norm": 48.6816291809082,
      "learning_rate": 5e-06,
      "loss": 1.6099,
      "num_input_tokens_seen": 80604020,
      "step": 638
    },
    {
      "epoch": 0.16366318219713974,
      "loss": 1.511645793914795,
      "loss_ce": 0.0028566729743033648,
      "loss_iou": 0.70703125,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 80604020,
      "step": 638
    },
    {
      "epoch": 0.1639197075610851,
      "grad_norm": 44.24678421020508,
      "learning_rate": 5e-06,
      "loss": 1.518,
      "num_input_tokens_seen": 80729944,
      "step": 639
    },
    {
      "epoch": 0.1639197075610851,
      "loss": 1.5194647312164307,
      "loss_ce": 0.0009101370815187693,
      "loss_iou": 0.70703125,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 80729944,
      "step": 639
    },
    {
      "epoch": 0.16417623292503047,
      "grad_norm": 52.118858337402344,
      "learning_rate": 5e-06,
      "loss": 1.5125,
      "num_input_tokens_seen": 80856280,
      "step": 640
    },
    {
      "epoch": 0.16417623292503047,
      "loss": 1.400589942932129,
      "loss_ce": 0.00312904198653996,
      "loss_iou": 0.640625,
      "loss_num": 0.02294921875,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 80856280,
      "step": 640
    },
    {
      "epoch": 0.16443275828897583,
      "grad_norm": 293.4383239746094,
      "learning_rate": 5e-06,
      "loss": 1.4327,
      "num_input_tokens_seen": 80983024,
      "step": 641
    },
    {
      "epoch": 0.16443275828897583,
      "loss": 1.3168811798095703,
      "loss_ce": 0.0024281772784888744,
      "loss_iou": 0.6171875,
      "loss_num": 0.01611328125,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 80983024,
      "step": 641
    },
    {
      "epoch": 0.16468928365292118,
      "grad_norm": 40.556331634521484,
      "learning_rate": 5e-06,
      "loss": 1.7595,
      "num_input_tokens_seen": 81108952,
      "step": 642
    },
    {
      "epoch": 0.16468928365292118,
      "loss": 1.9438207149505615,
      "loss_ce": 0.003390980651602149,
      "loss_iou": 0.87109375,
      "loss_num": 0.03955078125,
      "loss_xval": 1.9375,
      "num_input_tokens_seen": 81108952,
      "step": 642
    },
    {
      "epoch": 0.16494580901686653,
      "grad_norm": 71.15190124511719,
      "learning_rate": 5e-06,
      "loss": 1.4901,
      "num_input_tokens_seen": 81235368,
      "step": 643
    },
    {
      "epoch": 0.16494580901686653,
      "loss": 1.5523324012756348,
      "loss_ce": 0.0044809505343437195,
      "loss_iou": 0.69921875,
      "loss_num": 0.0303955078125,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 81235368,
      "step": 643
    },
    {
      "epoch": 0.16520233438081192,
      "grad_norm": 71.93428039550781,
      "learning_rate": 5e-06,
      "loss": 1.5502,
      "num_input_tokens_seen": 81362580,
      "step": 644
    },
    {
      "epoch": 0.16520233438081192,
      "loss": 1.6351580619812012,
      "loss_ce": 0.002345508197322488,
      "loss_iou": 0.75,
      "loss_num": 0.0263671875,
      "loss_xval": 1.6328125,
      "num_input_tokens_seen": 81362580,
      "step": 644
    },
    {
      "epoch": 0.16545885974475727,
      "grad_norm": 53.46624755859375,
      "learning_rate": 5e-06,
      "loss": 1.7735,
      "num_input_tokens_seen": 81489448,
      "step": 645
    },
    {
      "epoch": 0.16545885974475727,
      "loss": 1.789193868637085,
      "loss_ce": 0.0011079362593591213,
      "loss_iou": 0.7890625,
      "loss_num": 0.0419921875,
      "loss_xval": 1.7890625,
      "num_input_tokens_seen": 81489448,
      "step": 645
    },
    {
      "epoch": 0.16571538510870262,
      "grad_norm": 85.6688003540039,
      "learning_rate": 5e-06,
      "loss": 1.4593,
      "num_input_tokens_seen": 81616292,
      "step": 646
    },
    {
      "epoch": 0.16571538510870262,
      "loss": 1.557888150215149,
      "loss_ce": 0.00417720153927803,
      "loss_iou": 0.703125,
      "loss_num": 0.029296875,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 81616292,
      "step": 646
    },
    {
      "epoch": 0.16597191047264798,
      "grad_norm": 31.81472396850586,
      "learning_rate": 5e-06,
      "loss": 1.4939,
      "num_input_tokens_seen": 81741648,
      "step": 647
    },
    {
      "epoch": 0.16597191047264798,
      "loss": 1.41986083984375,
      "loss_ce": 0.0023804549127817154,
      "loss_iou": 0.6484375,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 81741648,
      "step": 647
    },
    {
      "epoch": 0.16622843583659333,
      "grad_norm": 53.631752014160156,
      "learning_rate": 5e-06,
      "loss": 1.6074,
      "num_input_tokens_seen": 81868228,
      "step": 648
    },
    {
      "epoch": 0.16622843583659333,
      "loss": 1.5203707218170166,
      "loss_ce": 0.003769185394048691,
      "loss_iou": 0.6953125,
      "loss_num": 0.025146484375,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 81868228,
      "step": 648
    },
    {
      "epoch": 0.1664849612005387,
      "grad_norm": 50.211021423339844,
      "learning_rate": 5e-06,
      "loss": 1.5642,
      "num_input_tokens_seen": 81995368,
      "step": 649
    },
    {
      "epoch": 0.1664849612005387,
      "loss": 1.7067978382110596,
      "loss_ce": 0.0007431370904669166,
      "loss_iou": 0.76953125,
      "loss_num": 0.033447265625,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 81995368,
      "step": 649
    },
    {
      "epoch": 0.16674148656448406,
      "grad_norm": 82.01054382324219,
      "learning_rate": 5e-06,
      "loss": 1.5109,
      "num_input_tokens_seen": 82120904,
      "step": 650
    },
    {
      "epoch": 0.16674148656448406,
      "loss": 1.7389417886734009,
      "loss_ce": 0.0035902070812880993,
      "loss_iou": 0.796875,
      "loss_num": 0.0281982421875,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 82120904,
      "step": 650
    },
    {
      "epoch": 0.16699801192842942,
      "grad_norm": 47.11616134643555,
      "learning_rate": 5e-06,
      "loss": 1.6673,
      "num_input_tokens_seen": 82246992,
      "step": 651
    },
    {
      "epoch": 0.16699801192842942,
      "loss": 1.9247736930847168,
      "loss_ce": 0.001922201132401824,
      "loss_iou": 0.86328125,
      "loss_num": 0.039306640625,
      "loss_xval": 1.921875,
      "num_input_tokens_seen": 82246992,
      "step": 651
    },
    {
      "epoch": 0.16725453729237477,
      "grad_norm": 52.35890197753906,
      "learning_rate": 5e-06,
      "loss": 1.4383,
      "num_input_tokens_seen": 82374624,
      "step": 652
    },
    {
      "epoch": 0.16725453729237477,
      "loss": 1.5015100240707397,
      "loss_ce": 0.001510057132691145,
      "loss_iou": 0.6953125,
      "loss_num": 0.021240234375,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 82374624,
      "step": 652
    },
    {
      "epoch": 0.16751106265632015,
      "grad_norm": 85.18927764892578,
      "learning_rate": 5e-06,
      "loss": 1.5318,
      "num_input_tokens_seen": 82501116,
      "step": 653
    },
    {
      "epoch": 0.16751106265632015,
      "loss": 1.6697872877120972,
      "loss_ce": 0.0032833926379680634,
      "loss_iou": 0.75390625,
      "loss_num": 0.032470703125,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 82501116,
      "step": 653
    },
    {
      "epoch": 0.1677675880202655,
      "grad_norm": 46.05815124511719,
      "learning_rate": 5e-06,
      "loss": 1.4221,
      "num_input_tokens_seen": 82626200,
      "step": 654
    },
    {
      "epoch": 0.1677675880202655,
      "loss": 1.2765986919403076,
      "loss_ce": 0.001207967521622777,
      "loss_iou": 0.58984375,
      "loss_num": 0.0184326171875,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 82626200,
      "step": 654
    },
    {
      "epoch": 0.16802411338421086,
      "grad_norm": 41.75895690917969,
      "learning_rate": 5e-06,
      "loss": 1.5139,
      "num_input_tokens_seen": 82751012,
      "step": 655
    },
    {
      "epoch": 0.16802411338421086,
      "loss": 1.4482321739196777,
      "loss_ce": 0.0009665294783189893,
      "loss_iou": 0.67578125,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 82751012,
      "step": 655
    },
    {
      "epoch": 0.1682806387481562,
      "grad_norm": 40.624298095703125,
      "learning_rate": 5e-06,
      "loss": 1.424,
      "num_input_tokens_seen": 82876864,
      "step": 656
    },
    {
      "epoch": 0.1682806387481562,
      "loss": 1.5138459205627441,
      "loss_ce": 0.0031036450527608395,
      "loss_iou": 0.67578125,
      "loss_num": 0.032470703125,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 82876864,
      "step": 656
    },
    {
      "epoch": 0.1685371641121016,
      "grad_norm": 54.69596481323242,
      "learning_rate": 5e-06,
      "loss": 1.4201,
      "num_input_tokens_seen": 83003076,
      "step": 657
    },
    {
      "epoch": 0.1685371641121016,
      "loss": 1.4386528730392456,
      "loss_ce": 0.0006645869580097497,
      "loss_iou": 0.65625,
      "loss_num": 0.024658203125,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 83003076,
      "step": 657
    },
    {
      "epoch": 0.16879368947604695,
      "grad_norm": 45.89189529418945,
      "learning_rate": 5e-06,
      "loss": 1.7339,
      "num_input_tokens_seen": 83129220,
      "step": 658
    },
    {
      "epoch": 0.16879368947604695,
      "loss": 1.5292792320251465,
      "loss_ce": 0.003888575593009591,
      "loss_iou": 0.69921875,
      "loss_num": 0.025146484375,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 83129220,
      "step": 658
    },
    {
      "epoch": 0.1690502148399923,
      "grad_norm": 41.78361892700195,
      "learning_rate": 5e-06,
      "loss": 1.3603,
      "num_input_tokens_seen": 83255556,
      "step": 659
    },
    {
      "epoch": 0.1690502148399923,
      "loss": 1.4428997039794922,
      "loss_ce": 0.0019817196298390627,
      "loss_iou": 0.66796875,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 83255556,
      "step": 659
    },
    {
      "epoch": 0.16930674020393766,
      "grad_norm": 50.292850494384766,
      "learning_rate": 5e-06,
      "loss": 1.4751,
      "num_input_tokens_seen": 83381916,
      "step": 660
    },
    {
      "epoch": 0.16930674020393766,
      "loss": 1.495980978012085,
      "loss_ce": 0.002816832857206464,
      "loss_iou": 0.68359375,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 83381916,
      "step": 660
    },
    {
      "epoch": 0.16956326556788304,
      "grad_norm": 60.592010498046875,
      "learning_rate": 5e-06,
      "loss": 1.4469,
      "num_input_tokens_seen": 83509156,
      "step": 661
    },
    {
      "epoch": 0.16956326556788304,
      "loss": 1.6751995086669922,
      "loss_ce": 0.002347934525460005,
      "loss_iou": 0.7578125,
      "loss_num": 0.031494140625,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 83509156,
      "step": 661
    },
    {
      "epoch": 0.1698197909318284,
      "grad_norm": 45.439449310302734,
      "learning_rate": 5e-06,
      "loss": 1.586,
      "num_input_tokens_seen": 83635688,
      "step": 662
    },
    {
      "epoch": 0.1698197909318284,
      "loss": 1.609999179840088,
      "loss_ce": 0.0006241374649107456,
      "loss_iou": 0.75,
      "loss_num": 0.02099609375,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 83635688,
      "step": 662
    },
    {
      "epoch": 0.17007631629577374,
      "grad_norm": 34.147151947021484,
      "learning_rate": 5e-06,
      "loss": 1.4549,
      "num_input_tokens_seen": 83761020,
      "step": 663
    },
    {
      "epoch": 0.17007631629577374,
      "loss": 1.1593257188796997,
      "loss_ce": 0.0025874499697238207,
      "loss_iou": 0.546875,
      "loss_num": 0.0130615234375,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 83761020,
      "step": 663
    },
    {
      "epoch": 0.1703328416597191,
      "grad_norm": 45.43739318847656,
      "learning_rate": 5e-06,
      "loss": 1.3533,
      "num_input_tokens_seen": 83887412,
      "step": 664
    },
    {
      "epoch": 0.1703328416597191,
      "loss": 1.2115195989608765,
      "loss_ce": 0.0005821146187372506,
      "loss_iou": 0.5703125,
      "loss_num": 0.01446533203125,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 83887412,
      "step": 664
    },
    {
      "epoch": 0.17058936702366445,
      "grad_norm": 77.38323974609375,
      "learning_rate": 5e-06,
      "loss": 1.5332,
      "num_input_tokens_seen": 84013928,
      "step": 665
    },
    {
      "epoch": 0.17058936702366445,
      "loss": 1.4861634969711304,
      "loss_ce": 0.0008119468111544847,
      "loss_iou": 0.6875,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 84013928,
      "step": 665
    },
    {
      "epoch": 0.17084589238760983,
      "grad_norm": 56.8577880859375,
      "learning_rate": 5e-06,
      "loss": 1.5447,
      "num_input_tokens_seen": 84141456,
      "step": 666
    },
    {
      "epoch": 0.17084589238760983,
      "loss": 1.536839246749878,
      "loss_ce": 0.002659496618434787,
      "loss_iou": 0.703125,
      "loss_num": 0.02587890625,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 84141456,
      "step": 666
    },
    {
      "epoch": 0.17110241775155519,
      "grad_norm": 41.002830505371094,
      "learning_rate": 5e-06,
      "loss": 1.5417,
      "num_input_tokens_seen": 84266544,
      "step": 667
    },
    {
      "epoch": 0.17110241775155519,
      "loss": 1.671589732170105,
      "loss_ce": 0.0031326464377343655,
      "loss_iou": 0.7578125,
      "loss_num": 0.030517578125,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 84266544,
      "step": 667
    },
    {
      "epoch": 0.17135894311550054,
      "grad_norm": 49.825828552246094,
      "learning_rate": 5e-06,
      "loss": 1.3499,
      "num_input_tokens_seen": 84393068,
      "step": 668
    },
    {
      "epoch": 0.17135894311550054,
      "loss": 1.5565457344055176,
      "loss_ce": 0.0018581650219857693,
      "loss_iou": 0.7109375,
      "loss_num": 0.0264892578125,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 84393068,
      "step": 668
    },
    {
      "epoch": 0.1716154684794459,
      "grad_norm": 43.85466766357422,
      "learning_rate": 5e-06,
      "loss": 1.3726,
      "num_input_tokens_seen": 84519164,
      "step": 669
    },
    {
      "epoch": 0.1716154684794459,
      "loss": 1.3671770095825195,
      "loss_ce": 0.0014543866273015738,
      "loss_iou": 0.63671875,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 84519164,
      "step": 669
    },
    {
      "epoch": 0.17187199384339127,
      "grad_norm": 48.001033782958984,
      "learning_rate": 5e-06,
      "loss": 1.4977,
      "num_input_tokens_seen": 84646400,
      "step": 670
    },
    {
      "epoch": 0.17187199384339127,
      "loss": 1.515437126159668,
      "loss_ce": 0.004206589423120022,
      "loss_iou": 0.6875,
      "loss_num": 0.02685546875,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 84646400,
      "step": 670
    },
    {
      "epoch": 0.17212851920733663,
      "grad_norm": 51.94670486450195,
      "learning_rate": 5e-06,
      "loss": 1.5912,
      "num_input_tokens_seen": 84772392,
      "step": 671
    },
    {
      "epoch": 0.17212851920733663,
      "loss": 1.3646857738494873,
      "loss_ce": 0.0014045286225154996,
      "loss_iou": 0.64453125,
      "loss_num": 0.01434326171875,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 84772392,
      "step": 671
    },
    {
      "epoch": 0.17238504457128198,
      "grad_norm": 67.07181549072266,
      "learning_rate": 5e-06,
      "loss": 1.3986,
      "num_input_tokens_seen": 84899036,
      "step": 672
    },
    {
      "epoch": 0.17238504457128198,
      "loss": 1.4572046995162964,
      "loss_ce": 0.003103126771748066,
      "loss_iou": 0.6640625,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 84899036,
      "step": 672
    },
    {
      "epoch": 0.17264156993522733,
      "grad_norm": 49.09014129638672,
      "learning_rate": 5e-06,
      "loss": 1.4432,
      "num_input_tokens_seen": 85025852,
      "step": 673
    },
    {
      "epoch": 0.17264156993522733,
      "loss": 1.4587152004241943,
      "loss_ce": 0.0007074117311276495,
      "loss_iou": 0.66796875,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 85025852,
      "step": 673
    },
    {
      "epoch": 0.17289809529917272,
      "grad_norm": 44.313934326171875,
      "learning_rate": 5e-06,
      "loss": 1.5034,
      "num_input_tokens_seen": 85152016,
      "step": 674
    },
    {
      "epoch": 0.17289809529917272,
      "loss": 1.471702218055725,
      "loss_ce": 0.0029522436670958996,
      "loss_iou": 0.671875,
      "loss_num": 0.024169921875,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 85152016,
      "step": 674
    },
    {
      "epoch": 0.17315462066311807,
      "grad_norm": 46.13582229614258,
      "learning_rate": 5e-06,
      "loss": 1.4027,
      "num_input_tokens_seen": 85278176,
      "step": 675
    },
    {
      "epoch": 0.17315462066311807,
      "loss": 1.2820916175842285,
      "loss_ce": 0.0027948308270424604,
      "loss_iou": 0.58203125,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 85278176,
      "step": 675
    },
    {
      "epoch": 0.17341114602706342,
      "grad_norm": 74.892333984375,
      "learning_rate": 5e-06,
      "loss": 1.4818,
      "num_input_tokens_seen": 85403940,
      "step": 676
    },
    {
      "epoch": 0.17341114602706342,
      "loss": 1.5265682935714722,
      "loss_ce": 0.004107424523681402,
      "loss_iou": 0.6875,
      "loss_num": 0.0299072265625,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 85403940,
      "step": 676
    },
    {
      "epoch": 0.17366767139100878,
      "grad_norm": 48.4569206237793,
      "learning_rate": 5e-06,
      "loss": 1.7342,
      "num_input_tokens_seen": 85530044,
      "step": 677
    },
    {
      "epoch": 0.17366767139100878,
      "loss": 1.4271458387374878,
      "loss_ce": 0.0023411789443343878,
      "loss_iou": 0.65625,
      "loss_num": 0.021240234375,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 85530044,
      "step": 677
    },
    {
      "epoch": 0.17392419675495416,
      "grad_norm": 52.35408020019531,
      "learning_rate": 5e-06,
      "loss": 1.4532,
      "num_input_tokens_seen": 85656044,
      "step": 678
    },
    {
      "epoch": 0.17392419675495416,
      "loss": 1.2278435230255127,
      "loss_ce": 0.0012809957843273878,
      "loss_iou": 0.5703125,
      "loss_num": 0.017578125,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 85656044,
      "step": 678
    },
    {
      "epoch": 0.1741807221188995,
      "grad_norm": 52.754554748535156,
      "learning_rate": 5e-06,
      "loss": 1.5358,
      "num_input_tokens_seen": 85782504,
      "step": 679
    },
    {
      "epoch": 0.1741807221188995,
      "loss": 1.597200632095337,
      "loss_ce": 0.002474140143021941,
      "loss_iou": 0.71484375,
      "loss_num": 0.033203125,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 85782504,
      "step": 679
    },
    {
      "epoch": 0.17443724748284486,
      "grad_norm": 50.909908294677734,
      "learning_rate": 5e-06,
      "loss": 1.419,
      "num_input_tokens_seen": 85908784,
      "step": 680
    },
    {
      "epoch": 0.17443724748284486,
      "loss": 1.1967666149139404,
      "loss_ce": 0.001454145647585392,
      "loss_iou": 0.55859375,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 85908784,
      "step": 680
    },
    {
      "epoch": 0.17469377284679022,
      "grad_norm": 37.427616119384766,
      "learning_rate": 5e-06,
      "loss": 1.374,
      "num_input_tokens_seen": 86034280,
      "step": 681
    },
    {
      "epoch": 0.17469377284679022,
      "loss": 1.3947467803955078,
      "loss_ce": 0.008028069511055946,
      "loss_iou": 0.63671875,
      "loss_num": 0.0230712890625,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 86034280,
      "step": 681
    },
    {
      "epoch": 0.1749502982107356,
      "grad_norm": 56.57387924194336,
      "learning_rate": 5e-06,
      "loss": 1.5934,
      "num_input_tokens_seen": 86161484,
      "step": 682
    },
    {
      "epoch": 0.1749502982107356,
      "loss": 1.6412622928619385,
      "loss_ce": 0.002590326825156808,
      "loss_iou": 0.734375,
      "loss_num": 0.0341796875,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 86161484,
      "step": 682
    },
    {
      "epoch": 0.17520682357468095,
      "grad_norm": 48.387054443359375,
      "learning_rate": 5e-06,
      "loss": 1.3803,
      "num_input_tokens_seen": 86287476,
      "step": 683
    },
    {
      "epoch": 0.17520682357468095,
      "loss": 1.4630337953567505,
      "loss_ce": 0.0016079850029200315,
      "loss_iou": 0.6640625,
      "loss_num": 0.0264892578125,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 86287476,
      "step": 683
    },
    {
      "epoch": 0.1754633489386263,
      "grad_norm": 68.5193862915039,
      "learning_rate": 5e-06,
      "loss": 1.4366,
      "num_input_tokens_seen": 86413448,
      "step": 684
    },
    {
      "epoch": 0.1754633489386263,
      "loss": 1.517972707748413,
      "loss_ce": 0.004300874192267656,
      "loss_iou": 0.6875,
      "loss_num": 0.027099609375,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 86413448,
      "step": 684
    },
    {
      "epoch": 0.17571987430257166,
      "grad_norm": 53.40635681152344,
      "learning_rate": 5e-06,
      "loss": 1.7955,
      "num_input_tokens_seen": 86540748,
      "step": 685
    },
    {
      "epoch": 0.17571987430257166,
      "loss": 1.738936185836792,
      "loss_ce": 0.002608025912195444,
      "loss_iou": 0.78125,
      "loss_num": 0.033935546875,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 86540748,
      "step": 685
    },
    {
      "epoch": 0.175976399666517,
      "grad_norm": 44.375953674316406,
      "learning_rate": 5e-06,
      "loss": 1.4779,
      "num_input_tokens_seen": 86667316,
      "step": 686
    },
    {
      "epoch": 0.175976399666517,
      "loss": 1.3921006917953491,
      "loss_ce": 0.0024522070307284594,
      "loss_iou": 0.625,
      "loss_num": 0.02880859375,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 86667316,
      "step": 686
    },
    {
      "epoch": 0.1762329250304624,
      "grad_norm": 52.596275329589844,
      "learning_rate": 5e-06,
      "loss": 1.2845,
      "num_input_tokens_seen": 86793888,
      "step": 687
    },
    {
      "epoch": 0.1762329250304624,
      "loss": 1.2361373901367188,
      "loss_ce": 0.003715515835210681,
      "loss_iou": 0.58203125,
      "loss_num": 0.01422119140625,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 86793888,
      "step": 687
    },
    {
      "epoch": 0.17648945039440775,
      "grad_norm": 53.17640686035156,
      "learning_rate": 5e-06,
      "loss": 1.4964,
      "num_input_tokens_seen": 86920112,
      "step": 688
    },
    {
      "epoch": 0.17648945039440775,
      "loss": 1.6507009267807007,
      "loss_ce": 0.0022633527405560017,
      "loss_iou": 0.75,
      "loss_num": 0.02880859375,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 86920112,
      "step": 688
    },
    {
      "epoch": 0.1767459757583531,
      "grad_norm": 54.21208190917969,
      "learning_rate": 5e-06,
      "loss": 1.499,
      "num_input_tokens_seen": 87046320,
      "step": 689
    },
    {
      "epoch": 0.1767459757583531,
      "loss": 1.5389537811279297,
      "loss_ce": 0.006727222353219986,
      "loss_iou": 0.703125,
      "loss_num": 0.025390625,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 87046320,
      "step": 689
    },
    {
      "epoch": 0.17700250112229846,
      "grad_norm": 106.88327026367188,
      "learning_rate": 5e-06,
      "loss": 1.5475,
      "num_input_tokens_seen": 87174048,
      "step": 690
    },
    {
      "epoch": 0.17700250112229846,
      "loss": 1.5167627334594727,
      "loss_ce": 0.003090939950197935,
      "loss_iou": 0.6796875,
      "loss_num": 0.03173828125,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 87174048,
      "step": 690
    },
    {
      "epoch": 0.17725902648624384,
      "grad_norm": 37.57487869262695,
      "learning_rate": 5e-06,
      "loss": 1.7019,
      "num_input_tokens_seen": 87299864,
      "step": 691
    },
    {
      "epoch": 0.17725902648624384,
      "loss": 1.6991196870803833,
      "loss_ce": 0.0008774226880632341,
      "loss_iou": 0.78125,
      "loss_num": 0.026611328125,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 87299864,
      "step": 691
    },
    {
      "epoch": 0.1775155518501892,
      "grad_norm": 35.29161834716797,
      "learning_rate": 5e-06,
      "loss": 1.4426,
      "num_input_tokens_seen": 87425864,
      "step": 692
    },
    {
      "epoch": 0.1775155518501892,
      "loss": 1.3353677988052368,
      "loss_ce": 0.001383333932608366,
      "loss_iou": 0.625,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 87425864,
      "step": 692
    },
    {
      "epoch": 0.17777207721413454,
      "grad_norm": 43.37476348876953,
      "learning_rate": 5e-06,
      "loss": 1.4744,
      "num_input_tokens_seen": 87552388,
      "step": 693
    },
    {
      "epoch": 0.17777207721413454,
      "loss": 1.5766165256500244,
      "loss_ce": 0.002397890668362379,
      "loss_iou": 0.71484375,
      "loss_num": 0.02880859375,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 87552388,
      "step": 693
    },
    {
      "epoch": 0.1780286025780799,
      "grad_norm": 57.102535247802734,
      "learning_rate": 5e-06,
      "loss": 1.4526,
      "num_input_tokens_seen": 87678372,
      "step": 694
    },
    {
      "epoch": 0.1780286025780799,
      "loss": 1.2360501289367676,
      "loss_ce": 0.0006985421641729772,
      "loss_iou": 0.578125,
      "loss_num": 0.0152587890625,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 87678372,
      "step": 694
    },
    {
      "epoch": 0.17828512794202528,
      "grad_norm": 48.99152755737305,
      "learning_rate": 5e-06,
      "loss": 1.7008,
      "num_input_tokens_seen": 87803972,
      "step": 695
    },
    {
      "epoch": 0.17828512794202528,
      "loss": 1.7282692193984985,
      "loss_ce": 0.002683269325643778,
      "loss_iou": 0.78515625,
      "loss_num": 0.031005859375,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 87803972,
      "step": 695
    },
    {
      "epoch": 0.17854165330597063,
      "grad_norm": 76.05008697509766,
      "learning_rate": 5e-06,
      "loss": 1.4,
      "num_input_tokens_seen": 87929752,
      "step": 696
    },
    {
      "epoch": 0.17854165330597063,
      "loss": 1.3848971128463745,
      "loss_ce": 0.005502617917954922,
      "loss_iou": 0.62109375,
      "loss_num": 0.0269775390625,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 87929752,
      "step": 696
    },
    {
      "epoch": 0.17879817866991599,
      "grad_norm": 111.44060516357422,
      "learning_rate": 5e-06,
      "loss": 1.6454,
      "num_input_tokens_seen": 88055512,
      "step": 697
    },
    {
      "epoch": 0.17879817866991599,
      "loss": 1.6854281425476074,
      "loss_ce": 0.002810893813148141,
      "loss_iou": 0.73828125,
      "loss_num": 0.04150390625,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 88055512,
      "step": 697
    },
    {
      "epoch": 0.17905470403386134,
      "grad_norm": 48.01878356933594,
      "learning_rate": 5e-06,
      "loss": 1.501,
      "num_input_tokens_seen": 88181984,
      "step": 698
    },
    {
      "epoch": 0.17905470403386134,
      "loss": 1.3288600444793701,
      "loss_ce": 0.0017115051159635186,
      "loss_iou": 0.60546875,
      "loss_num": 0.022705078125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 88181984,
      "step": 698
    },
    {
      "epoch": 0.17931122939780672,
      "grad_norm": 81.63150787353516,
      "learning_rate": 5e-06,
      "loss": 1.4163,
      "num_input_tokens_seen": 88308080,
      "step": 699
    },
    {
      "epoch": 0.17931122939780672,
      "loss": 1.3433727025985718,
      "loss_ce": 0.002064086962491274,
      "loss_iou": 0.61328125,
      "loss_num": 0.022216796875,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 88308080,
      "step": 699
    },
    {
      "epoch": 0.17956775476175207,
      "grad_norm": 51.78082275390625,
      "learning_rate": 5e-06,
      "loss": 1.5951,
      "num_input_tokens_seen": 88434724,
      "step": 700
    },
    {
      "epoch": 0.17956775476175207,
      "loss": 1.7339545488357544,
      "loss_ce": 0.008368520066142082,
      "loss_iou": 0.7734375,
      "loss_num": 0.036376953125,
      "loss_xval": 1.7265625,
      "num_input_tokens_seen": 88434724,
      "step": 700
    },
    {
      "epoch": 0.17982428012569743,
      "grad_norm": 61.713706970214844,
      "learning_rate": 5e-06,
      "loss": 1.4761,
      "num_input_tokens_seen": 88559552,
      "step": 701
    },
    {
      "epoch": 0.17982428012569743,
      "loss": 1.4185237884521484,
      "loss_ce": 0.004461327102035284,
      "loss_iou": 0.671875,
      "loss_num": 0.013671875,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 88559552,
      "step": 701
    },
    {
      "epoch": 0.18008080548964278,
      "grad_norm": 53.97096252441406,
      "learning_rate": 5e-06,
      "loss": 1.6532,
      "num_input_tokens_seen": 88686372,
      "step": 702
    },
    {
      "epoch": 0.18008080548964278,
      "loss": 1.5229980945587158,
      "loss_ce": 0.001513659954071045,
      "loss_iou": 0.70703125,
      "loss_num": 0.022216796875,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 88686372,
      "step": 702
    },
    {
      "epoch": 0.18033733085358813,
      "grad_norm": 92.05032348632812,
      "learning_rate": 5e-06,
      "loss": 1.3969,
      "num_input_tokens_seen": 88813596,
      "step": 703
    },
    {
      "epoch": 0.18033733085358813,
      "loss": 1.4159787893295288,
      "loss_ce": 0.0028928820975124836,
      "loss_iou": 0.65234375,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 88813596,
      "step": 703
    },
    {
      "epoch": 0.18059385621753352,
      "grad_norm": 35.70454406738281,
      "learning_rate": 5e-06,
      "loss": 1.3612,
      "num_input_tokens_seen": 88939532,
      "step": 704
    },
    {
      "epoch": 0.18059385621753352,
      "loss": 1.3291815519332886,
      "loss_ce": 0.004962760955095291,
      "loss_iou": 0.62890625,
      "loss_num": 0.012939453125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 88939532,
      "step": 704
    },
    {
      "epoch": 0.18085038158147887,
      "grad_norm": 57.268531799316406,
      "learning_rate": 5e-06,
      "loss": 1.5287,
      "num_input_tokens_seen": 89066196,
      "step": 705
    },
    {
      "epoch": 0.18085038158147887,
      "loss": 1.3902287483215332,
      "loss_ce": 0.0005803777603432536,
      "loss_iou": 0.65625,
      "loss_num": 0.01507568359375,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 89066196,
      "step": 705
    },
    {
      "epoch": 0.18110690694542422,
      "grad_norm": 56.077842712402344,
      "learning_rate": 5e-06,
      "loss": 1.6653,
      "num_input_tokens_seen": 89193192,
      "step": 706
    },
    {
      "epoch": 0.18110690694542422,
      "loss": 1.7315073013305664,
      "loss_ce": 0.0010385378263890743,
      "loss_iou": 0.7890625,
      "loss_num": 0.0306396484375,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 89193192,
      "step": 706
    },
    {
      "epoch": 0.18136343230936958,
      "grad_norm": 64.09819030761719,
      "learning_rate": 5e-06,
      "loss": 1.4835,
      "num_input_tokens_seen": 89319032,
      "step": 707
    },
    {
      "epoch": 0.18136343230936958,
      "loss": 1.4756860733032227,
      "loss_ce": 0.004982961807399988,
      "loss_iou": 0.66796875,
      "loss_num": 0.0269775390625,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 89319032,
      "step": 707
    },
    {
      "epoch": 0.18161995767331496,
      "grad_norm": 38.08344650268555,
      "learning_rate": 5e-06,
      "loss": 1.4401,
      "num_input_tokens_seen": 89444948,
      "step": 708
    },
    {
      "epoch": 0.18161995767331496,
      "loss": 1.4717217683792114,
      "loss_ce": 0.0019951669964939356,
      "loss_iou": 0.67578125,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 89444948,
      "step": 708
    },
    {
      "epoch": 0.1818764830372603,
      "grad_norm": 58.17047882080078,
      "learning_rate": 5e-06,
      "loss": 1.4684,
      "num_input_tokens_seen": 89570324,
      "step": 709
    },
    {
      "epoch": 0.1818764830372603,
      "loss": 1.6193065643310547,
      "loss_ce": 0.007001795340329409,
      "loss_iou": 0.7109375,
      "loss_num": 0.037109375,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 89570324,
      "step": 709
    },
    {
      "epoch": 0.18213300840120566,
      "grad_norm": 60.13876724243164,
      "learning_rate": 5e-06,
      "loss": 1.5736,
      "num_input_tokens_seen": 89698004,
      "step": 710
    },
    {
      "epoch": 0.18213300840120566,
      "loss": 1.5884690284729004,
      "loss_ce": 0.005949506536126137,
      "loss_iou": 0.73046875,
      "loss_num": 0.02490234375,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 89698004,
      "step": 710
    },
    {
      "epoch": 0.18238953376515102,
      "grad_norm": 65.3223648071289,
      "learning_rate": 5e-06,
      "loss": 1.3573,
      "num_input_tokens_seen": 89823896,
      "step": 711
    },
    {
      "epoch": 0.18238953376515102,
      "loss": 1.3171595335006714,
      "loss_ce": 0.0007532262243330479,
      "loss_iou": 0.6171875,
      "loss_num": 0.015625,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 89823896,
      "step": 711
    },
    {
      "epoch": 0.1826460591290964,
      "grad_norm": 50.57582473754883,
      "learning_rate": 5e-06,
      "loss": 1.478,
      "num_input_tokens_seen": 89949416,
      "step": 712
    },
    {
      "epoch": 0.1826460591290964,
      "loss": 1.5792417526245117,
      "loss_ce": 0.0030699511989951134,
      "loss_iou": 0.72265625,
      "loss_num": 0.0255126953125,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 89949416,
      "step": 712
    },
    {
      "epoch": 0.18290258449304175,
      "grad_norm": 51.11810302734375,
      "learning_rate": 5e-06,
      "loss": 1.4436,
      "num_input_tokens_seen": 90075980,
      "step": 713
    },
    {
      "epoch": 0.18290258449304175,
      "loss": 1.4309558868408203,
      "loss_ce": 0.002244966570287943,
      "loss_iou": 0.65625,
      "loss_num": 0.02294921875,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 90075980,
      "step": 713
    },
    {
      "epoch": 0.1831591098569871,
      "grad_norm": 43.62511444091797,
      "learning_rate": 5e-06,
      "loss": 1.4995,
      "num_input_tokens_seen": 90201756,
      "step": 714
    },
    {
      "epoch": 0.1831591098569871,
      "loss": 1.4851667881011963,
      "loss_ce": 0.0017683382611721754,
      "loss_iou": 0.68359375,
      "loss_num": 0.0233154296875,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 90201756,
      "step": 714
    },
    {
      "epoch": 0.18341563522093246,
      "grad_norm": 76.03456115722656,
      "learning_rate": 5e-06,
      "loss": 1.4729,
      "num_input_tokens_seen": 90328752,
      "step": 715
    },
    {
      "epoch": 0.18341563522093246,
      "loss": 1.546578049659729,
      "loss_ce": 0.006050685420632362,
      "loss_iou": 0.68359375,
      "loss_num": 0.034423828125,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 90328752,
      "step": 715
    },
    {
      "epoch": 0.18367216058487784,
      "grad_norm": 50.04610061645508,
      "learning_rate": 5e-06,
      "loss": 1.5025,
      "num_input_tokens_seen": 90455132,
      "step": 716
    },
    {
      "epoch": 0.18367216058487784,
      "loss": 1.3907361030578613,
      "loss_ce": 0.0020642559975385666,
      "loss_iou": 0.64453125,
      "loss_num": 0.0198974609375,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 90455132,
      "step": 716
    },
    {
      "epoch": 0.1839286859488232,
      "grad_norm": 55.3236198425293,
      "learning_rate": 5e-06,
      "loss": 1.4647,
      "num_input_tokens_seen": 90581768,
      "step": 717
    },
    {
      "epoch": 0.1839286859488232,
      "loss": 1.2487831115722656,
      "loss_ce": 0.001224456587806344,
      "loss_iou": 0.58984375,
      "loss_num": 0.01348876953125,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 90581768,
      "step": 717
    },
    {
      "epoch": 0.18418521131276855,
      "grad_norm": 49.5446662902832,
      "learning_rate": 5e-06,
      "loss": 1.6264,
      "num_input_tokens_seen": 90707736,
      "step": 718
    },
    {
      "epoch": 0.18418521131276855,
      "loss": 1.538797378540039,
      "loss_ce": 0.002664659172296524,
      "loss_iou": 0.7109375,
      "loss_num": 0.022705078125,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 90707736,
      "step": 718
    },
    {
      "epoch": 0.1844417366767139,
      "grad_norm": 101.7543716430664,
      "learning_rate": 5e-06,
      "loss": 1.4319,
      "num_input_tokens_seen": 90835340,
      "step": 719
    },
    {
      "epoch": 0.1844417366767139,
      "loss": 1.3595223426818848,
      "loss_ce": 0.0021004541777074337,
      "loss_iou": 0.63671875,
      "loss_num": 0.0166015625,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 90835340,
      "step": 719
    },
    {
      "epoch": 0.18469826204065928,
      "grad_norm": 38.48265838623047,
      "learning_rate": 5e-06,
      "loss": 1.566,
      "num_input_tokens_seen": 90961292,
      "step": 720
    },
    {
      "epoch": 0.18469826204065928,
      "loss": 1.4886090755462646,
      "loss_ce": 0.002280927961692214,
      "loss_iou": 0.6953125,
      "loss_num": 0.018798828125,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 90961292,
      "step": 720
    },
    {
      "epoch": 0.18495478740460464,
      "grad_norm": 40.244483947753906,
      "learning_rate": 5e-06,
      "loss": 1.3516,
      "num_input_tokens_seen": 91087004,
      "step": 721
    },
    {
      "epoch": 0.18495478740460464,
      "loss": 1.3487298488616943,
      "loss_ce": 0.0015619590412825346,
      "loss_iou": 0.6171875,
      "loss_num": 0.0233154296875,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 91087004,
      "step": 721
    },
    {
      "epoch": 0.18521131276855,
      "grad_norm": 35.15084457397461,
      "learning_rate": 5e-06,
      "loss": 1.4244,
      "num_input_tokens_seen": 91214024,
      "step": 722
    },
    {
      "epoch": 0.18521131276855,
      "loss": 1.5300304889678955,
      "loss_ce": 0.0026867641136050224,
      "loss_iou": 0.69921875,
      "loss_num": 0.0262451171875,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 91214024,
      "step": 722
    },
    {
      "epoch": 0.18546783813249534,
      "grad_norm": 79.00787353515625,
      "learning_rate": 5e-06,
      "loss": 1.6179,
      "num_input_tokens_seen": 91340904,
      "step": 723
    },
    {
      "epoch": 0.18546783813249534,
      "loss": 1.5487065315246582,
      "loss_ce": 0.0008550257771275938,
      "loss_iou": 0.72265625,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 91340904,
      "step": 723
    },
    {
      "epoch": 0.1857243634964407,
      "grad_norm": 41.29024124145508,
      "learning_rate": 5e-06,
      "loss": 1.6778,
      "num_input_tokens_seen": 91466564,
      "step": 724
    },
    {
      "epoch": 0.1857243634964407,
      "loss": 1.5871570110321045,
      "loss_ce": 0.0036608753725886345,
      "loss_iou": 0.7109375,
      "loss_num": 0.03173828125,
      "loss_xval": 1.5859375,
      "num_input_tokens_seen": 91466564,
      "step": 724
    },
    {
      "epoch": 0.18598088886038608,
      "grad_norm": 44.04233932495117,
      "learning_rate": 5e-06,
      "loss": 1.2749,
      "num_input_tokens_seen": 91592404,
      "step": 725
    },
    {
      "epoch": 0.18598088886038608,
      "loss": 1.5660603046417236,
      "loss_ce": 0.0020954369101673365,
      "loss_iou": 0.6875,
      "loss_num": 0.03759765625,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 91592404,
      "step": 725
    },
    {
      "epoch": 0.18623741422433143,
      "grad_norm": 54.60873031616211,
      "learning_rate": 5e-06,
      "loss": 1.3854,
      "num_input_tokens_seen": 91718816,
      "step": 726
    },
    {
      "epoch": 0.18623741422433143,
      "loss": 1.4901278018951416,
      "loss_ce": 0.00282311555929482,
      "loss_iou": 0.6640625,
      "loss_num": 0.0308837890625,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 91718816,
      "step": 726
    },
    {
      "epoch": 0.18649393958827679,
      "grad_norm": 43.745304107666016,
      "learning_rate": 5e-06,
      "loss": 1.501,
      "num_input_tokens_seen": 91845428,
      "step": 727
    },
    {
      "epoch": 0.18649393958827679,
      "loss": 1.3656672239303589,
      "loss_ce": 0.0009211193537339568,
      "loss_iou": 0.62890625,
      "loss_num": 0.0220947265625,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 91845428,
      "step": 727
    },
    {
      "epoch": 0.18675046495222214,
      "grad_norm": 46.35885238647461,
      "learning_rate": 5e-06,
      "loss": 1.484,
      "num_input_tokens_seen": 91971588,
      "step": 728
    },
    {
      "epoch": 0.18675046495222214,
      "loss": 1.3003261089324951,
      "loss_ce": 0.001009780098684132,
      "loss_iou": 0.61328125,
      "loss_num": 0.0145263671875,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 91971588,
      "step": 728
    },
    {
      "epoch": 0.18700699031616752,
      "grad_norm": 56.08134460449219,
      "learning_rate": 5e-06,
      "loss": 1.4602,
      "num_input_tokens_seen": 92098052,
      "step": 729
    },
    {
      "epoch": 0.18700699031616752,
      "loss": 1.4000930786132812,
      "loss_ce": 0.0021439180709421635,
      "loss_iou": 0.66015625,
      "loss_num": 0.01611328125,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 92098052,
      "step": 729
    },
    {
      "epoch": 0.18726351568011287,
      "grad_norm": 95.84259033203125,
      "learning_rate": 5e-06,
      "loss": 1.4713,
      "num_input_tokens_seen": 92224264,
      "step": 730
    },
    {
      "epoch": 0.18726351568011287,
      "loss": 1.5204403400421143,
      "loss_ce": 0.0018856195965781808,
      "loss_iou": 0.6875,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 92224264,
      "step": 730
    },
    {
      "epoch": 0.18752004104405823,
      "grad_norm": 43.581787109375,
      "learning_rate": 5e-06,
      "loss": 1.6635,
      "num_input_tokens_seen": 92350128,
      "step": 731
    },
    {
      "epoch": 0.18752004104405823,
      "loss": 1.5579040050506592,
      "loss_ce": 0.00028678763192147017,
      "loss_iou": 0.7109375,
      "loss_num": 0.026611328125,
      "loss_xval": 1.5546875,
      "num_input_tokens_seen": 92350128,
      "step": 731
    },
    {
      "epoch": 0.18777656640800358,
      "grad_norm": 45.12299346923828,
      "learning_rate": 5e-06,
      "loss": 1.4914,
      "num_input_tokens_seen": 92476876,
      "step": 732
    },
    {
      "epoch": 0.18777656640800358,
      "loss": 1.491039514541626,
      "loss_ce": 0.002758322050794959,
      "loss_iou": 0.65234375,
      "loss_num": 0.03662109375,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 92476876,
      "step": 732
    },
    {
      "epoch": 0.18803309177194896,
      "grad_norm": 54.27924728393555,
      "learning_rate": 5e-06,
      "loss": 1.4341,
      "num_input_tokens_seen": 92604404,
      "step": 733
    },
    {
      "epoch": 0.18803309177194896,
      "loss": 1.5657432079315186,
      "loss_ce": 0.003243240062147379,
      "loss_iou": 0.6875,
      "loss_num": 0.03759765625,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 92604404,
      "step": 733
    },
    {
      "epoch": 0.18828961713589432,
      "grad_norm": 59.329132080078125,
      "learning_rate": 5e-06,
      "loss": 1.517,
      "num_input_tokens_seen": 92730800,
      "step": 734
    },
    {
      "epoch": 0.18828961713589432,
      "loss": 1.7183482646942139,
      "loss_ce": 0.003504466963931918,
      "loss_iou": 0.78125,
      "loss_num": 0.03076171875,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 92730800,
      "step": 734
    },
    {
      "epoch": 0.18854614249983967,
      "grad_norm": 72.88380432128906,
      "learning_rate": 5e-06,
      "loss": 1.4632,
      "num_input_tokens_seen": 92856428,
      "step": 735
    },
    {
      "epoch": 0.18854614249983967,
      "loss": 1.7092386484146118,
      "loss_ce": 0.00904332846403122,
      "loss_iou": 0.7578125,
      "loss_num": 0.03759765625,
      "loss_xval": 1.703125,
      "num_input_tokens_seen": 92856428,
      "step": 735
    },
    {
      "epoch": 0.18880266786378502,
      "grad_norm": 41.17212677001953,
      "learning_rate": 5e-06,
      "loss": 1.4264,
      "num_input_tokens_seen": 92981156,
      "step": 736
    },
    {
      "epoch": 0.18880266786378502,
      "loss": 1.3443195819854736,
      "loss_ce": 0.0015460492577403784,
      "loss_iou": 0.625,
      "loss_num": 0.018310546875,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 92981156,
      "step": 736
    },
    {
      "epoch": 0.1890591932277304,
      "grad_norm": 53.11419677734375,
      "learning_rate": 5e-06,
      "loss": 1.3451,
      "num_input_tokens_seen": 93106920,
      "step": 737
    },
    {
      "epoch": 0.1890591932277304,
      "loss": 1.2838952541351318,
      "loss_ce": 0.0016686737071722746,
      "loss_iou": 0.59375,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 93106920,
      "step": 737
    },
    {
      "epoch": 0.18931571859167576,
      "grad_norm": 49.766700744628906,
      "learning_rate": 5e-06,
      "loss": 1.6252,
      "num_input_tokens_seen": 93232984,
      "step": 738
    },
    {
      "epoch": 0.18931571859167576,
      "loss": 1.608275055885315,
      "loss_ce": 0.0018296812195330858,
      "loss_iou": 0.7421875,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 93232984,
      "step": 738
    },
    {
      "epoch": 0.1895722439556211,
      "grad_norm": 85.74491882324219,
      "learning_rate": 5e-06,
      "loss": 1.4723,
      "num_input_tokens_seen": 93359004,
      "step": 739
    },
    {
      "epoch": 0.1895722439556211,
      "loss": 1.192650318145752,
      "loss_ce": 0.0012441009748727083,
      "loss_iou": 0.56640625,
      "loss_num": 0.01123046875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 93359004,
      "step": 739
    },
    {
      "epoch": 0.18982876931956646,
      "grad_norm": 43.55925750732422,
      "learning_rate": 5e-06,
      "loss": 1.3945,
      "num_input_tokens_seen": 93485496,
      "step": 740
    },
    {
      "epoch": 0.18982876931956646,
      "loss": 1.568324327468872,
      "loss_ce": 0.0038712667301297188,
      "loss_iou": 0.7109375,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.5625,
      "num_input_tokens_seen": 93485496,
      "step": 740
    },
    {
      "epoch": 0.19008529468351182,
      "grad_norm": 71.7542953491211,
      "learning_rate": 5e-06,
      "loss": 1.4572,
      "num_input_tokens_seen": 93611524,
      "step": 741
    },
    {
      "epoch": 0.19008529468351182,
      "loss": 1.6233015060424805,
      "loss_ce": 0.002207789570093155,
      "loss_iou": 0.734375,
      "loss_num": 0.029541015625,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 93611524,
      "step": 741
    },
    {
      "epoch": 0.1903418200474572,
      "grad_norm": 56.21603012084961,
      "learning_rate": 5e-06,
      "loss": 1.6034,
      "num_input_tokens_seen": 93738492,
      "step": 742
    },
    {
      "epoch": 0.1903418200474572,
      "loss": 1.608897089958191,
      "loss_ce": 0.0014752072747796774,
      "loss_iou": 0.734375,
      "loss_num": 0.0283203125,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 93738492,
      "step": 742
    },
    {
      "epoch": 0.19059834541140255,
      "grad_norm": 66.59623718261719,
      "learning_rate": 5e-06,
      "loss": 1.4841,
      "num_input_tokens_seen": 93864340,
      "step": 743
    },
    {
      "epoch": 0.19059834541140255,
      "loss": 1.5329947471618652,
      "loss_ce": 0.0007681584684178233,
      "loss_iou": 0.71484375,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 93864340,
      "step": 743
    },
    {
      "epoch": 0.1908548707753479,
      "grad_norm": 59.25039291381836,
      "learning_rate": 5e-06,
      "loss": 1.4918,
      "num_input_tokens_seen": 93990016,
      "step": 744
    },
    {
      "epoch": 0.1908548707753479,
      "loss": 1.404555082321167,
      "loss_ce": 0.007094152271747589,
      "loss_iou": 0.63671875,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 93990016,
      "step": 744
    },
    {
      "epoch": 0.19111139613929326,
      "grad_norm": 70.17887878417969,
      "learning_rate": 5e-06,
      "loss": 1.371,
      "num_input_tokens_seen": 94116340,
      "step": 745
    },
    {
      "epoch": 0.19111139613929326,
      "loss": 1.1463377475738525,
      "loss_ce": 0.005224438849836588,
      "loss_iou": 0.53125,
      "loss_num": 0.01519775390625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 94116340,
      "step": 745
    },
    {
      "epoch": 0.19136792150323864,
      "grad_norm": 45.97539520263672,
      "learning_rate": 5e-06,
      "loss": 1.4958,
      "num_input_tokens_seen": 94242608,
      "step": 746
    },
    {
      "epoch": 0.19136792150323864,
      "loss": 1.4609613418579102,
      "loss_ce": 0.005394945852458477,
      "loss_iou": 0.6484375,
      "loss_num": 0.031494140625,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 94242608,
      "step": 746
    },
    {
      "epoch": 0.191624446867184,
      "grad_norm": 37.92036056518555,
      "learning_rate": 5e-06,
      "loss": 1.387,
      "num_input_tokens_seen": 94368212,
      "step": 747
    },
    {
      "epoch": 0.191624446867184,
      "loss": 1.3088114261627197,
      "loss_ce": 0.003635610220953822,
      "loss_iou": 0.59765625,
      "loss_num": 0.022216796875,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 94368212,
      "step": 747
    },
    {
      "epoch": 0.19188097223112935,
      "grad_norm": 30.749116897583008,
      "learning_rate": 5e-06,
      "loss": 1.3136,
      "num_input_tokens_seen": 94492160,
      "step": 748
    },
    {
      "epoch": 0.19188097223112935,
      "loss": 1.2855565547943115,
      "loss_ce": 0.0008885765564627945,
      "loss_iou": 0.59765625,
      "loss_num": 0.01708984375,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 94492160,
      "step": 748
    },
    {
      "epoch": 0.1921374975950747,
      "grad_norm": 48.46091079711914,
      "learning_rate": 5e-06,
      "loss": 1.4013,
      "num_input_tokens_seen": 94618756,
      "step": 749
    },
    {
      "epoch": 0.1921374975950747,
      "loss": 1.5843840837478638,
      "loss_ce": 0.002352833980694413,
      "loss_iou": 0.71484375,
      "loss_num": 0.0302734375,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 94618756,
      "step": 749
    },
    {
      "epoch": 0.19239402295902008,
      "grad_norm": 52.85329818725586,
      "learning_rate": 5e-06,
      "loss": 1.364,
      "num_input_tokens_seen": 94745468,
      "step": 750
    },
    {
      "epoch": 0.19239402295902008,
      "eval_icons_CIoU": -0.01894897874444723,
      "eval_icons_GIoU": -0.04759606532752514,
      "eval_icons_IoU": 0.1573554091155529,
      "eval_icons_MAE_all": 0.05506601929664612,
      "eval_icons_MAE_h": 0.07492277398705482,
      "eval_icons_MAE_w": 0.06497159227728844,
      "eval_icons_MAE_x_boxes": 0.05891689844429493,
      "eval_icons_MAE_y_boxes": 0.06718555651605129,
      "eval_icons_NUM_probability": 0.9998254776000977,
      "eval_icons_inside_bbox": 0.3385416716337204,
      "eval_icons_loss": 2.3671042919158936,
      "eval_icons_loss_ce": 0.0007935907924547791,
      "eval_icons_loss_iou": 1.0693359375,
      "eval_icons_loss_num": 0.05898284912109375,
      "eval_icons_loss_xval": 2.43359375,
      "eval_icons_runtime": 40.2373,
      "eval_icons_samples_per_second": 1.243,
      "eval_icons_steps_per_second": 0.05,
      "num_input_tokens_seen": 94745468,
      "step": 750
    },
    {
      "epoch": 0.19239402295902008,
      "eval_screenspot_CIoU": 0.058582218984762825,
      "eval_screenspot_GIoU": 0.04530087734262148,
      "eval_screenspot_IoU": 0.22695686419804892,
      "eval_screenspot_MAE_all": 0.08712503562370937,
      "eval_screenspot_MAE_h": 0.06914001454909642,
      "eval_screenspot_MAE_w": 0.14226938784122467,
      "eval_screenspot_MAE_x_boxes": 0.10903208206097285,
      "eval_screenspot_MAE_y_boxes": 0.058699255188306175,
      "eval_screenspot_NUM_probability": 0.9997839331626892,
      "eval_screenspot_inside_bbox": 0.609166661898295,
      "eval_screenspot_loss": 2.388688087463379,
      "eval_screenspot_loss_ce": 0.005509096353004376,
      "eval_screenspot_loss_iou": 0.9768880208333334,
      "eval_screenspot_loss_num": 0.09430440266927083,
      "eval_screenspot_loss_xval": 2.4264322916666665,
      "eval_screenspot_runtime": 67.0868,
      "eval_screenspot_samples_per_second": 1.327,
      "eval_screenspot_steps_per_second": 0.045,
      "num_input_tokens_seen": 94745468,
      "step": 750
    },
    {
      "epoch": 0.19239402295902008,
      "loss": 2.4279370307922363,
      "loss_ce": 0.00508531928062439,
      "loss_iou": 0.984375,
      "loss_num": 0.0908203125,
      "loss_xval": 2.421875,
      "num_input_tokens_seen": 94745468,
      "step": 750
    },
    {
      "epoch": 0.19265054832296544,
      "grad_norm": 89.9964599609375,
      "learning_rate": 5e-06,
      "loss": 1.4015,
      "num_input_tokens_seen": 94872620,
      "step": 751
    },
    {
      "epoch": 0.19265054832296544,
      "loss": 1.2995052337646484,
      "loss_ce": 0.0026302128098905087,
      "loss_iou": 0.609375,
      "loss_num": 0.0159912109375,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 94872620,
      "step": 751
    },
    {
      "epoch": 0.1929070736869108,
      "grad_norm": 44.04330825805664,
      "learning_rate": 5e-06,
      "loss": 1.5271,
      "num_input_tokens_seen": 94998292,
      "step": 752
    },
    {
      "epoch": 0.1929070736869108,
      "loss": 1.4665632247924805,
      "loss_ce": 0.0007428829558193684,
      "loss_iou": 0.6796875,
      "loss_num": 0.021728515625,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 94998292,
      "step": 752
    },
    {
      "epoch": 0.19316359905085614,
      "grad_norm": 46.42055892944336,
      "learning_rate": 5e-06,
      "loss": 1.429,
      "num_input_tokens_seen": 95125332,
      "step": 753
    },
    {
      "epoch": 0.19316359905085614,
      "loss": 1.265074372291565,
      "loss_ce": 0.0009142071940004826,
      "loss_iou": 0.58984375,
      "loss_num": 0.017333984375,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 95125332,
      "step": 753
    },
    {
      "epoch": 0.19342012441480153,
      "grad_norm": 92.1563491821289,
      "learning_rate": 5e-06,
      "loss": 1.3619,
      "num_input_tokens_seen": 95252376,
      "step": 754
    },
    {
      "epoch": 0.19342012441480153,
      "loss": 1.5032415390014648,
      "loss_ce": 0.0012883726740255952,
      "loss_iou": 0.6796875,
      "loss_num": 0.028564453125,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 95252376,
      "step": 754
    },
    {
      "epoch": 0.19367664977874688,
      "grad_norm": 46.85188674926758,
      "learning_rate": 5e-06,
      "loss": 1.7522,
      "num_input_tokens_seen": 95379464,
      "step": 755
    },
    {
      "epoch": 0.19367664977874688,
      "loss": 1.876871109008789,
      "loss_ce": 0.0018711804877966642,
      "loss_iou": 0.83984375,
      "loss_num": 0.038818359375,
      "loss_xval": 1.875,
      "num_input_tokens_seen": 95379464,
      "step": 755
    },
    {
      "epoch": 0.19393317514269223,
      "grad_norm": 55.023311614990234,
      "learning_rate": 5e-06,
      "loss": 1.4824,
      "num_input_tokens_seen": 95505724,
      "step": 756
    },
    {
      "epoch": 0.19393317514269223,
      "loss": 1.5398664474487305,
      "loss_ce": 0.0012922082096338272,
      "loss_iou": 0.68359375,
      "loss_num": 0.0341796875,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 95505724,
      "step": 756
    },
    {
      "epoch": 0.19418970050663759,
      "grad_norm": 84.13701629638672,
      "learning_rate": 5e-06,
      "loss": 1.3595,
      "num_input_tokens_seen": 95632768,
      "step": 757
    },
    {
      "epoch": 0.19418970050663759,
      "loss": 1.4067058563232422,
      "loss_ce": 0.0024089363869279623,
      "loss_iou": 0.65625,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 95632768,
      "step": 757
    },
    {
      "epoch": 0.19444622587058297,
      "grad_norm": 45.137237548828125,
      "learning_rate": 5e-06,
      "loss": 1.6751,
      "num_input_tokens_seen": 95760508,
      "step": 758
    },
    {
      "epoch": 0.19444622587058297,
      "loss": 1.7807172536849976,
      "loss_ce": 0.0033734641037881374,
      "loss_iou": 0.8046875,
      "loss_num": 0.03369140625,
      "loss_xval": 1.78125,
      "num_input_tokens_seen": 95760508,
      "step": 758
    },
    {
      "epoch": 0.19470275123452832,
      "grad_norm": 40.1661491394043,
      "learning_rate": 5e-06,
      "loss": 1.4898,
      "num_input_tokens_seen": 95886204,
      "step": 759
    },
    {
      "epoch": 0.19470275123452832,
      "loss": 1.3750102519989014,
      "loss_ce": 0.004893088713288307,
      "loss_iou": 0.62109375,
      "loss_num": 0.0250244140625,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 95886204,
      "step": 759
    },
    {
      "epoch": 0.19495927659847367,
      "grad_norm": 79.29988861083984,
      "learning_rate": 5e-06,
      "loss": 1.3263,
      "num_input_tokens_seen": 96013096,
      "step": 760
    },
    {
      "epoch": 0.19495927659847367,
      "loss": 1.4730665683746338,
      "loss_ce": 0.006269759498536587,
      "loss_iou": 0.65625,
      "loss_num": 0.0308837890625,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 96013096,
      "step": 760
    },
    {
      "epoch": 0.19521580196241903,
      "grad_norm": 52.226383209228516,
      "learning_rate": 5e-06,
      "loss": 1.6003,
      "num_input_tokens_seen": 96139400,
      "step": 761
    },
    {
      "epoch": 0.19521580196241903,
      "loss": 2.0208628177642822,
      "loss_ce": 0.005237806122750044,
      "loss_iou": 0.86328125,
      "loss_num": 0.057861328125,
      "loss_xval": 2.015625,
      "num_input_tokens_seen": 96139400,
      "step": 761
    },
    {
      "epoch": 0.19547232732636438,
      "grad_norm": 36.015525817871094,
      "learning_rate": 5e-06,
      "loss": 1.4566,
      "num_input_tokens_seen": 96265368,
      "step": 762
    },
    {
      "epoch": 0.19547232732636438,
      "loss": 1.4844902753829956,
      "loss_ce": 0.0010917759500443935,
      "loss_iou": 0.67578125,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 96265368,
      "step": 762
    },
    {
      "epoch": 0.19572885269030976,
      "grad_norm": 43.686038970947266,
      "learning_rate": 5e-06,
      "loss": 1.2942,
      "num_input_tokens_seen": 96391796,
      "step": 763
    },
    {
      "epoch": 0.19572885269030976,
      "loss": 1.3235526084899902,
      "loss_ce": 0.0022636253852397203,
      "loss_iou": 0.6015625,
      "loss_num": 0.022705078125,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 96391796,
      "step": 763
    },
    {
      "epoch": 0.19598537805425512,
      "grad_norm": 63.98824691772461,
      "learning_rate": 5e-06,
      "loss": 1.3309,
      "num_input_tokens_seen": 96519024,
      "step": 764
    },
    {
      "epoch": 0.19598537805425512,
      "loss": 1.3297908306121826,
      "loss_ce": 0.0036188391968607903,
      "loss_iou": 0.61328125,
      "loss_num": 0.019287109375,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 96519024,
      "step": 764
    },
    {
      "epoch": 0.19624190341820047,
      "grad_norm": 46.816593170166016,
      "learning_rate": 5e-06,
      "loss": 1.5543,
      "num_input_tokens_seen": 96644892,
      "step": 765
    },
    {
      "epoch": 0.19624190341820047,
      "loss": 1.521022915840149,
      "loss_ce": 0.0024682474322617054,
      "loss_iou": 0.6953125,
      "loss_num": 0.025146484375,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 96644892,
      "step": 765
    },
    {
      "epoch": 0.19649842878214582,
      "grad_norm": 53.84040451049805,
      "learning_rate": 5e-06,
      "loss": 1.2711,
      "num_input_tokens_seen": 96770360,
      "step": 766
    },
    {
      "epoch": 0.19649842878214582,
      "loss": 1.33516526222229,
      "loss_ce": 0.0006925397319719195,
      "loss_iou": 0.62890625,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 96770360,
      "step": 766
    },
    {
      "epoch": 0.1967549541460912,
      "grad_norm": 48.041412353515625,
      "learning_rate": 5e-06,
      "loss": 1.423,
      "num_input_tokens_seen": 96896116,
      "step": 767
    },
    {
      "epoch": 0.1967549541460912,
      "loss": 1.3917702436447144,
      "loss_ce": 0.000656980206258595,
      "loss_iou": 0.62890625,
      "loss_num": 0.02734375,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 96896116,
      "step": 767
    },
    {
      "epoch": 0.19701147951003656,
      "grad_norm": 39.182594299316406,
      "learning_rate": 5e-06,
      "loss": 1.4535,
      "num_input_tokens_seen": 97021760,
      "step": 768
    },
    {
      "epoch": 0.19701147951003656,
      "loss": 1.2645025253295898,
      "loss_ce": 0.0013189890887588263,
      "loss_iou": 0.578125,
      "loss_num": 0.02099609375,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 97021760,
      "step": 768
    },
    {
      "epoch": 0.1972680048739819,
      "grad_norm": 53.010398864746094,
      "learning_rate": 5e-06,
      "loss": 1.4903,
      "num_input_tokens_seen": 97146952,
      "step": 769
    },
    {
      "epoch": 0.1972680048739819,
      "loss": 1.525557041168213,
      "loss_ce": 0.002119513927027583,
      "loss_iou": 0.6953125,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 97146952,
      "step": 769
    },
    {
      "epoch": 0.19752453023792726,
      "grad_norm": 81.08814239501953,
      "learning_rate": 5e-06,
      "loss": 1.5406,
      "num_input_tokens_seen": 97273620,
      "step": 770
    },
    {
      "epoch": 0.19752453023792726,
      "loss": 1.5113434791564941,
      "loss_ce": 0.0015779165551066399,
      "loss_iou": 0.71484375,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 97273620,
      "step": 770
    },
    {
      "epoch": 0.19778105560187265,
      "grad_norm": 44.36695098876953,
      "learning_rate": 5e-06,
      "loss": 1.7818,
      "num_input_tokens_seen": 97400476,
      "step": 771
    },
    {
      "epoch": 0.19778105560187265,
      "loss": 1.807408332824707,
      "loss_ce": 0.0017443099059164524,
      "loss_iou": 0.8125,
      "loss_num": 0.03564453125,
      "loss_xval": 1.8046875,
      "num_input_tokens_seen": 97400476,
      "step": 771
    },
    {
      "epoch": 0.198037580965818,
      "grad_norm": 43.34067916870117,
      "learning_rate": 5e-06,
      "loss": 1.4146,
      "num_input_tokens_seen": 97526952,
      "step": 772
    },
    {
      "epoch": 0.198037580965818,
      "loss": 1.3824810981750488,
      "loss_ce": 0.003086468204855919,
      "loss_iou": 0.6328125,
      "loss_num": 0.02197265625,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 97526952,
      "step": 772
    },
    {
      "epoch": 0.19829410632976335,
      "grad_norm": 94.08848571777344,
      "learning_rate": 5e-06,
      "loss": 1.4381,
      "num_input_tokens_seen": 97652484,
      "step": 773
    },
    {
      "epoch": 0.19829410632976335,
      "loss": 1.4073779582977295,
      "loss_ce": 0.0021044581662863493,
      "loss_iou": 0.66015625,
      "loss_num": 0.016357421875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 97652484,
      "step": 773
    },
    {
      "epoch": 0.1985506316937087,
      "grad_norm": 48.792503356933594,
      "learning_rate": 5e-06,
      "loss": 1.5903,
      "num_input_tokens_seen": 97779496,
      "step": 774
    },
    {
      "epoch": 0.1985506316937087,
      "loss": 1.539163589477539,
      "loss_ce": 0.0010775867849588394,
      "loss_iou": 0.70703125,
      "loss_num": 0.024169921875,
      "loss_xval": 1.5390625,
      "num_input_tokens_seen": 97779496,
      "step": 774
    },
    {
      "epoch": 0.1988071570576541,
      "grad_norm": 32.22834014892578,
      "learning_rate": 5e-06,
      "loss": 1.3709,
      "num_input_tokens_seen": 97904904,
      "step": 775
    },
    {
      "epoch": 0.1988071570576541,
      "loss": 1.3850696086883545,
      "loss_ce": 0.003722058143466711,
      "loss_iou": 0.63671875,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 97904904,
      "step": 775
    },
    {
      "epoch": 0.19906368242159944,
      "grad_norm": 41.414955139160156,
      "learning_rate": 5e-06,
      "loss": 1.2273,
      "num_input_tokens_seen": 98031372,
      "step": 776
    },
    {
      "epoch": 0.19906368242159944,
      "loss": 1.1168365478515625,
      "loss_ce": 0.0016021563205868006,
      "loss_iou": 0.515625,
      "loss_num": 0.016357421875,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 98031372,
      "step": 776
    },
    {
      "epoch": 0.1993202077855448,
      "grad_norm": 76.48211669921875,
      "learning_rate": 5e-06,
      "loss": 1.3155,
      "num_input_tokens_seen": 98158076,
      "step": 777
    },
    {
      "epoch": 0.1993202077855448,
      "loss": 1.1445887088775635,
      "loss_ce": 0.0005457630031742156,
      "loss_iou": 0.546875,
      "loss_num": 0.01031494140625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 98158076,
      "step": 777
    },
    {
      "epoch": 0.19957673314949015,
      "grad_norm": 52.87351608276367,
      "learning_rate": 5e-06,
      "loss": 1.5774,
      "num_input_tokens_seen": 98285056,
      "step": 778
    },
    {
      "epoch": 0.19957673314949015,
      "loss": 1.4616940021514893,
      "loss_ce": 0.0017330326372757554,
      "loss_iou": 0.68359375,
      "loss_num": 0.01806640625,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 98285056,
      "step": 778
    },
    {
      "epoch": 0.1998332585134355,
      "grad_norm": 48.8697509765625,
      "learning_rate": 5e-06,
      "loss": 1.3163,
      "num_input_tokens_seen": 98411888,
      "step": 779
    },
    {
      "epoch": 0.1998332585134355,
      "loss": 1.3153234720230103,
      "loss_ce": 0.0008703308994881809,
      "loss_iou": 0.609375,
      "loss_num": 0.0198974609375,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 98411888,
      "step": 779
    },
    {
      "epoch": 0.20008978387738088,
      "grad_norm": 58.962825775146484,
      "learning_rate": 5e-06,
      "loss": 1.4027,
      "num_input_tokens_seen": 98539188,
      "step": 780
    },
    {
      "epoch": 0.20008978387738088,
      "loss": 1.5080323219299316,
      "loss_ce": 0.0011963420547544956,
      "loss_iou": 0.66796875,
      "loss_num": 0.0341796875,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 98539188,
      "step": 780
    },
    {
      "epoch": 0.20034630924132624,
      "grad_norm": 78.9335708618164,
      "learning_rate": 5e-06,
      "loss": 1.4963,
      "num_input_tokens_seen": 98664888,
      "step": 781
    },
    {
      "epoch": 0.20034630924132624,
      "loss": 1.776686191558838,
      "loss_ce": 0.003248599823564291,
      "loss_iou": 0.7890625,
      "loss_num": 0.039306640625,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 98664888,
      "step": 781
    },
    {
      "epoch": 0.2006028346052716,
      "grad_norm": 50.15766143798828,
      "learning_rate": 5e-06,
      "loss": 1.5371,
      "num_input_tokens_seen": 98791076,
      "step": 782
    },
    {
      "epoch": 0.2006028346052716,
      "loss": 1.482041358947754,
      "loss_ce": 0.00157262256834656,
      "loss_iou": 0.671875,
      "loss_num": 0.0262451171875,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 98791076,
      "step": 782
    },
    {
      "epoch": 0.20085935996921694,
      "grad_norm": 28.655424118041992,
      "learning_rate": 5e-06,
      "loss": 1.2313,
      "num_input_tokens_seen": 98918000,
      "step": 783
    },
    {
      "epoch": 0.20085935996921694,
      "loss": 1.322141170501709,
      "loss_ce": 0.0008520561968907714,
      "loss_iou": 0.6171875,
      "loss_num": 0.01806640625,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 98918000,
      "step": 783
    },
    {
      "epoch": 0.20111588533316233,
      "grad_norm": 64.15157318115234,
      "learning_rate": 5e-06,
      "loss": 1.25,
      "num_input_tokens_seen": 99045596,
      "step": 784
    },
    {
      "epoch": 0.20111588533316233,
      "loss": 1.271141529083252,
      "loss_ce": 0.002586791757494211,
      "loss_iou": 0.5859375,
      "loss_num": 0.019287109375,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 99045596,
      "step": 784
    },
    {
      "epoch": 0.20137241069710768,
      "grad_norm": 37.62996292114258,
      "learning_rate": 5e-06,
      "loss": 1.4693,
      "num_input_tokens_seen": 99170992,
      "step": 785
    },
    {
      "epoch": 0.20137241069710768,
      "loss": 1.5090820789337158,
      "loss_ce": 0.001757932361215353,
      "loss_iou": 0.69140625,
      "loss_num": 0.0244140625,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 99170992,
      "step": 785
    },
    {
      "epoch": 0.20162893606105303,
      "grad_norm": 50.869712829589844,
      "learning_rate": 5e-06,
      "loss": 1.3314,
      "num_input_tokens_seen": 99297100,
      "step": 786
    },
    {
      "epoch": 0.20162893606105303,
      "loss": 1.1391561031341553,
      "loss_ce": 0.0019490821287035942,
      "loss_iou": 0.52734375,
      "loss_num": 0.016845703125,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 99297100,
      "step": 786
    },
    {
      "epoch": 0.20188546142499839,
      "grad_norm": 40.34794998168945,
      "learning_rate": 5e-06,
      "loss": 1.4675,
      "num_input_tokens_seen": 99423248,
      "step": 787
    },
    {
      "epoch": 0.20188546142499839,
      "loss": 1.4730722904205322,
      "loss_ce": 0.0009043117752298713,
      "loss_iou": 0.6796875,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 99423248,
      "step": 787
    },
    {
      "epoch": 0.20214198678894377,
      "grad_norm": 65.97105407714844,
      "learning_rate": 5e-06,
      "loss": 1.3843,
      "num_input_tokens_seen": 99548900,
      "step": 788
    },
    {
      "epoch": 0.20214198678894377,
      "loss": 1.373723030090332,
      "loss_ce": 0.0016527818515896797,
      "loss_iou": 0.6328125,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 99548900,
      "step": 788
    },
    {
      "epoch": 0.20239851215288912,
      "grad_norm": 52.80813980102539,
      "learning_rate": 5e-06,
      "loss": 1.4535,
      "num_input_tokens_seen": 99676004,
      "step": 789
    },
    {
      "epoch": 0.20239851215288912,
      "loss": 1.4932620525360107,
      "loss_ce": 0.0015628508990630507,
      "loss_iou": 0.671875,
      "loss_num": 0.02978515625,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 99676004,
      "step": 789
    },
    {
      "epoch": 0.20265503751683447,
      "grad_norm": 32.37436294555664,
      "learning_rate": 5e-06,
      "loss": 1.398,
      "num_input_tokens_seen": 99802560,
      "step": 790
    },
    {
      "epoch": 0.20265503751683447,
      "loss": 1.1959346532821655,
      "loss_ce": 0.001110466313548386,
      "loss_iou": 0.5546875,
      "loss_num": 0.0167236328125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 99802560,
      "step": 790
    },
    {
      "epoch": 0.20291156288077983,
      "grad_norm": 44.16609191894531,
      "learning_rate": 5e-06,
      "loss": 1.4235,
      "num_input_tokens_seen": 99928444,
      "step": 791
    },
    {
      "epoch": 0.20291156288077983,
      "loss": 1.4066507816314697,
      "loss_ce": 0.0062601035460829735,
      "loss_iou": 0.640625,
      "loss_num": 0.02392578125,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 99928444,
      "step": 791
    },
    {
      "epoch": 0.2031680882447252,
      "grad_norm": 60.706478118896484,
      "learning_rate": 5e-06,
      "loss": 1.4484,
      "num_input_tokens_seen": 100055836,
      "step": 792
    },
    {
      "epoch": 0.2031680882447252,
      "loss": 1.4433939456939697,
      "loss_ce": 0.002964270766824484,
      "loss_iou": 0.65234375,
      "loss_num": 0.0269775390625,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 100055836,
      "step": 792
    },
    {
      "epoch": 0.20342461360867056,
      "grad_norm": 55.016624450683594,
      "learning_rate": 5e-06,
      "loss": 1.3917,
      "num_input_tokens_seen": 100181760,
      "step": 793
    },
    {
      "epoch": 0.20342461360867056,
      "loss": 1.3301042318344116,
      "loss_ce": 0.001002660719677806,
      "loss_iou": 0.62109375,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 100181760,
      "step": 793
    },
    {
      "epoch": 0.20368113897261592,
      "grad_norm": 85.83236694335938,
      "learning_rate": 5e-06,
      "loss": 1.4286,
      "num_input_tokens_seen": 100308316,
      "step": 794
    },
    {
      "epoch": 0.20368113897261592,
      "loss": 1.4247946739196777,
      "loss_ce": 0.0019430036190897226,
      "loss_iou": 0.671875,
      "loss_num": 0.014892578125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 100308316,
      "step": 794
    },
    {
      "epoch": 0.20393766433656127,
      "grad_norm": 54.04437255859375,
      "learning_rate": 5e-06,
      "loss": 1.5507,
      "num_input_tokens_seen": 100434196,
      "step": 795
    },
    {
      "epoch": 0.20393766433656127,
      "loss": 1.4950535297393799,
      "loss_ce": 0.0018894305685535073,
      "loss_iou": 0.69921875,
      "loss_num": 0.01953125,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 100434196,
      "step": 795
    },
    {
      "epoch": 0.20419418970050665,
      "grad_norm": 36.24423599243164,
      "learning_rate": 5e-06,
      "loss": 1.5537,
      "num_input_tokens_seen": 100560204,
      "step": 796
    },
    {
      "epoch": 0.20419418970050665,
      "loss": 1.568851351737976,
      "loss_ce": 0.0004919501952826977,
      "loss_iou": 0.70703125,
      "loss_num": 0.03076171875,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 100560204,
      "step": 796
    },
    {
      "epoch": 0.204450715064452,
      "grad_norm": 45.03144836425781,
      "learning_rate": 5e-06,
      "loss": 1.4457,
      "num_input_tokens_seen": 100686512,
      "step": 797
    },
    {
      "epoch": 0.204450715064452,
      "loss": 1.4703400135040283,
      "loss_ce": 0.0015899080317467451,
      "loss_iou": 0.68359375,
      "loss_num": 0.0198974609375,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 100686512,
      "step": 797
    },
    {
      "epoch": 0.20470724042839736,
      "grad_norm": 82.81558990478516,
      "learning_rate": 5e-06,
      "loss": 1.2971,
      "num_input_tokens_seen": 100812672,
      "step": 798
    },
    {
      "epoch": 0.20470724042839736,
      "loss": 1.2421239614486694,
      "loss_ce": 0.0018895948305726051,
      "loss_iou": 0.5625,
      "loss_num": 0.0230712890625,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 100812672,
      "step": 798
    },
    {
      "epoch": 0.2049637657923427,
      "grad_norm": 45.349609375,
      "learning_rate": 5e-06,
      "loss": 1.7063,
      "num_input_tokens_seen": 100939496,
      "step": 799
    },
    {
      "epoch": 0.2049637657923427,
      "loss": 1.6473942995071411,
      "loss_ce": 0.0018865675665438175,
      "loss_iou": 0.75,
      "loss_num": 0.029541015625,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 100939496,
      "step": 799
    },
    {
      "epoch": 0.20522029115628806,
      "grad_norm": 51.783843994140625,
      "learning_rate": 5e-06,
      "loss": 1.354,
      "num_input_tokens_seen": 101067232,
      "step": 800
    },
    {
      "epoch": 0.20522029115628806,
      "loss": 1.234392523765564,
      "loss_ce": 0.004900284577161074,
      "loss_iou": 0.56640625,
      "loss_num": 0.0185546875,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 101067232,
      "step": 800
    },
    {
      "epoch": 0.20547681652023345,
      "grad_norm": 91.6460189819336,
      "learning_rate": 5e-06,
      "loss": 1.5017,
      "num_input_tokens_seen": 101192436,
      "step": 801
    },
    {
      "epoch": 0.20547681652023345,
      "loss": 1.45248544216156,
      "loss_ce": 0.0022901983465999365,
      "loss_iou": 0.6640625,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 101192436,
      "step": 801
    },
    {
      "epoch": 0.2057333418841788,
      "grad_norm": 62.732173919677734,
      "learning_rate": 5e-06,
      "loss": 1.4953,
      "num_input_tokens_seen": 101320300,
      "step": 802
    },
    {
      "epoch": 0.2057333418841788,
      "loss": 1.6269625425338745,
      "loss_ce": 0.0009860070422291756,
      "loss_iou": 0.74609375,
      "loss_num": 0.0263671875,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 101320300,
      "step": 802
    },
    {
      "epoch": 0.20598986724812415,
      "grad_norm": 55.252281188964844,
      "learning_rate": 5e-06,
      "loss": 1.2914,
      "num_input_tokens_seen": 101445868,
      "step": 803
    },
    {
      "epoch": 0.20598986724812415,
      "loss": 1.183439016342163,
      "loss_ce": 0.001310082501731813,
      "loss_iou": 0.546875,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 101445868,
      "step": 803
    },
    {
      "epoch": 0.2062463926120695,
      "grad_norm": 33.75856018066406,
      "learning_rate": 5e-06,
      "loss": 1.4096,
      "num_input_tokens_seen": 101571532,
      "step": 804
    },
    {
      "epoch": 0.2062463926120695,
      "loss": 1.4584627151489258,
      "loss_ce": 0.006314342841506004,
      "loss_iou": 0.625,
      "loss_num": 0.039794921875,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 101571532,
      "step": 804
    },
    {
      "epoch": 0.2065029179760149,
      "grad_norm": 30.69576072692871,
      "learning_rate": 5e-06,
      "loss": 1.3549,
      "num_input_tokens_seen": 101697644,
      "step": 805
    },
    {
      "epoch": 0.2065029179760149,
      "loss": 1.3334208726882935,
      "loss_ce": 0.0013896661112084985,
      "loss_iou": 0.6171875,
      "loss_num": 0.019775390625,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 101697644,
      "step": 805
    },
    {
      "epoch": 0.20675944333996024,
      "grad_norm": 60.3752555847168,
      "learning_rate": 5e-06,
      "loss": 1.3265,
      "num_input_tokens_seen": 101823464,
      "step": 806
    },
    {
      "epoch": 0.20675944333996024,
      "loss": 1.4075208902359009,
      "loss_ce": 0.002735760062932968,
      "loss_iou": 0.6328125,
      "loss_num": 0.0272216796875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 101823464,
      "step": 806
    },
    {
      "epoch": 0.2070159687039056,
      "grad_norm": 53.74232864379883,
      "learning_rate": 5e-06,
      "loss": 1.5127,
      "num_input_tokens_seen": 101950832,
      "step": 807
    },
    {
      "epoch": 0.2070159687039056,
      "loss": 1.6723754405975342,
      "loss_ce": 0.0024535488337278366,
      "loss_iou": 0.765625,
      "loss_num": 0.028076171875,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 101950832,
      "step": 807
    },
    {
      "epoch": 0.20727249406785095,
      "grad_norm": 45.628204345703125,
      "learning_rate": 5e-06,
      "loss": 1.2721,
      "num_input_tokens_seen": 102077556,
      "step": 808
    },
    {
      "epoch": 0.20727249406785095,
      "loss": 1.4370296001434326,
      "loss_ce": 0.0009944618213921785,
      "loss_iou": 0.671875,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 102077556,
      "step": 808
    },
    {
      "epoch": 0.20752901943179633,
      "grad_norm": 48.517242431640625,
      "learning_rate": 5e-06,
      "loss": 1.462,
      "num_input_tokens_seen": 102203288,
      "step": 809
    },
    {
      "epoch": 0.20752901943179633,
      "loss": 1.6231465339660645,
      "loss_ce": 0.005959098692983389,
      "loss_iou": 0.7109375,
      "loss_num": 0.03857421875,
      "loss_xval": 1.6171875,
      "num_input_tokens_seen": 102203288,
      "step": 809
    },
    {
      "epoch": 0.20778554479574168,
      "grad_norm": 55.30953598022461,
      "learning_rate": 5e-06,
      "loss": 1.3801,
      "num_input_tokens_seen": 102329584,
      "step": 810
    },
    {
      "epoch": 0.20778554479574168,
      "loss": 1.3222111463546753,
      "loss_ce": 0.001898646936751902,
      "loss_iou": 0.609375,
      "loss_num": 0.020751953125,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 102329584,
      "step": 810
    },
    {
      "epoch": 0.20804207015968704,
      "grad_norm": 54.080875396728516,
      "learning_rate": 5e-06,
      "loss": 1.5275,
      "num_input_tokens_seen": 102456596,
      "step": 811
    },
    {
      "epoch": 0.20804207015968704,
      "loss": 1.4465858936309814,
      "loss_ce": 0.0012734452029690146,
      "loss_iou": 0.671875,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 102456596,
      "step": 811
    },
    {
      "epoch": 0.2082985955236324,
      "grad_norm": 62.66007995605469,
      "learning_rate": 5e-06,
      "loss": 1.4349,
      "num_input_tokens_seen": 102582100,
      "step": 812
    },
    {
      "epoch": 0.2082985955236324,
      "loss": 1.3630447387695312,
      "loss_ce": 0.0046462505124509335,
      "loss_iou": 0.62890625,
      "loss_num": 0.020751953125,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 102582100,
      "step": 812
    },
    {
      "epoch": 0.20855512088757777,
      "grad_norm": 47.617431640625,
      "learning_rate": 5e-06,
      "loss": 1.2773,
      "num_input_tokens_seen": 102708012,
      "step": 813
    },
    {
      "epoch": 0.20855512088757777,
      "loss": 1.2044544219970703,
      "loss_ce": 0.0018176923040300608,
      "loss_iou": 0.55859375,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 102708012,
      "step": 813
    },
    {
      "epoch": 0.20881164625152313,
      "grad_norm": 46.293365478515625,
      "learning_rate": 5e-06,
      "loss": 1.3346,
      "num_input_tokens_seen": 102835288,
      "step": 814
    },
    {
      "epoch": 0.20881164625152313,
      "loss": 1.2680859565734863,
      "loss_ce": 0.0005077685927972198,
      "loss_iou": 0.59375,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 102835288,
      "step": 814
    },
    {
      "epoch": 0.20906817161546848,
      "grad_norm": 53.65690231323242,
      "learning_rate": 5e-06,
      "loss": 1.3652,
      "num_input_tokens_seen": 102962128,
      "step": 815
    },
    {
      "epoch": 0.20906817161546848,
      "loss": 1.369244933128357,
      "loss_ce": 0.004010563716292381,
      "loss_iou": 0.6328125,
      "loss_num": 0.0205078125,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 102962128,
      "step": 815
    },
    {
      "epoch": 0.20932469697941383,
      "grad_norm": 100.80943298339844,
      "learning_rate": 5e-06,
      "loss": 1.2632,
      "num_input_tokens_seen": 103089540,
      "step": 816
    },
    {
      "epoch": 0.20932469697941383,
      "loss": 1.3470107316970825,
      "loss_ce": 0.002284254413098097,
      "loss_iou": 0.62109375,
      "loss_num": 0.0205078125,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 103089540,
      "step": 816
    },
    {
      "epoch": 0.20958122234335919,
      "grad_norm": 51.63835525512695,
      "learning_rate": 5e-06,
      "loss": 1.4528,
      "num_input_tokens_seen": 103216072,
      "step": 817
    },
    {
      "epoch": 0.20958122234335919,
      "loss": 1.3604388236999512,
      "loss_ce": 0.002040391555055976,
      "loss_iou": 0.62890625,
      "loss_num": 0.0205078125,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 103216072,
      "step": 817
    },
    {
      "epoch": 0.20983774770730457,
      "grad_norm": 60.27116394042969,
      "learning_rate": 5e-06,
      "loss": 1.3946,
      "num_input_tokens_seen": 103342160,
      "step": 818
    },
    {
      "epoch": 0.20983774770730457,
      "loss": 1.3125784397125244,
      "loss_ce": 0.0015433471417054534,
      "loss_iou": 0.59375,
      "loss_num": 0.0247802734375,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 103342160,
      "step": 818
    },
    {
      "epoch": 0.21009427307124992,
      "grad_norm": 53.027748107910156,
      "learning_rate": 5e-06,
      "loss": 1.3837,
      "num_input_tokens_seen": 103468968,
      "step": 819
    },
    {
      "epoch": 0.21009427307124992,
      "loss": 1.3300693035125732,
      "loss_ce": 0.0009676225599832833,
      "loss_iou": 0.6171875,
      "loss_num": 0.019287109375,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 103468968,
      "step": 819
    },
    {
      "epoch": 0.21035079843519527,
      "grad_norm": 79.68496704101562,
      "learning_rate": 5e-06,
      "loss": 1.2889,
      "num_input_tokens_seen": 103596460,
      "step": 820
    },
    {
      "epoch": 0.21035079843519527,
      "loss": 1.4892619848251343,
      "loss_ce": 0.0009806393645703793,
      "loss_iou": 0.67578125,
      "loss_num": 0.0272216796875,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 103596460,
      "step": 820
    },
    {
      "epoch": 0.21060732379914063,
      "grad_norm": 45.95759201049805,
      "learning_rate": 5e-06,
      "loss": 1.5171,
      "num_input_tokens_seen": 103722560,
      "step": 821
    },
    {
      "epoch": 0.21060732379914063,
      "loss": 1.4734864234924316,
      "loss_ce": 0.0057129324413836,
      "loss_iou": 0.66796875,
      "loss_num": 0.026123046875,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 103722560,
      "step": 821
    },
    {
      "epoch": 0.210863849163086,
      "grad_norm": 43.79263687133789,
      "learning_rate": 5e-06,
      "loss": 1.3843,
      "num_input_tokens_seen": 103848852,
      "step": 822
    },
    {
      "epoch": 0.210863849163086,
      "loss": 1.3302783966064453,
      "loss_ce": 0.0036182901822030544,
      "loss_iou": 0.62109375,
      "loss_num": 0.0162353515625,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 103848852,
      "step": 822
    },
    {
      "epoch": 0.21112037452703136,
      "grad_norm": 37.63969421386719,
      "learning_rate": 5e-06,
      "loss": 1.3906,
      "num_input_tokens_seen": 103975516,
      "step": 823
    },
    {
      "epoch": 0.21112037452703136,
      "loss": 1.3655592203140259,
      "loss_ce": 0.0003248662978876382,
      "loss_iou": 0.63671875,
      "loss_num": 0.017822265625,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 103975516,
      "step": 823
    },
    {
      "epoch": 0.21137689989097672,
      "grad_norm": 43.72939682006836,
      "learning_rate": 5e-06,
      "loss": 1.3723,
      "num_input_tokens_seen": 104102344,
      "step": 824
    },
    {
      "epoch": 0.21137689989097672,
      "loss": 1.3853837251663208,
      "loss_ce": 0.0025712454225867987,
      "loss_iou": 0.62890625,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 104102344,
      "step": 824
    },
    {
      "epoch": 0.21163342525492207,
      "grad_norm": 43.155025482177734,
      "learning_rate": 5e-06,
      "loss": 1.48,
      "num_input_tokens_seen": 104227936,
      "step": 825
    },
    {
      "epoch": 0.21163342525492207,
      "loss": 1.3939366340637207,
      "loss_ce": 0.0023349791299551725,
      "loss_iou": 0.640625,
      "loss_num": 0.022705078125,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 104227936,
      "step": 825
    },
    {
      "epoch": 0.21188995061886745,
      "grad_norm": 63.234066009521484,
      "learning_rate": 5e-06,
      "loss": 1.2369,
      "num_input_tokens_seen": 104355140,
      "step": 826
    },
    {
      "epoch": 0.21188995061886745,
      "loss": 1.2037829160690308,
      "loss_ce": 0.0011461504036560655,
      "loss_iou": 0.55859375,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 104355140,
      "step": 826
    },
    {
      "epoch": 0.2121464759828128,
      "grad_norm": 64.97721099853516,
      "learning_rate": 5e-06,
      "loss": 1.2823,
      "num_input_tokens_seen": 104481824,
      "step": 827
    },
    {
      "epoch": 0.2121464759828128,
      "loss": 1.1754415035247803,
      "loss_ce": 0.0006368473987095058,
      "loss_iou": 0.55078125,
      "loss_num": 0.01458740234375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 104481824,
      "step": 827
    },
    {
      "epoch": 0.21240300134675816,
      "grad_norm": 72.48421478271484,
      "learning_rate": 5e-06,
      "loss": 1.4317,
      "num_input_tokens_seen": 104608260,
      "step": 828
    },
    {
      "epoch": 0.21240300134675816,
      "loss": 1.3465311527252197,
      "loss_ce": 0.0027811911422759295,
      "loss_iou": 0.62109375,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 104608260,
      "step": 828
    },
    {
      "epoch": 0.2126595267107035,
      "grad_norm": 41.29340744018555,
      "learning_rate": 5e-06,
      "loss": 1.3899,
      "num_input_tokens_seen": 104735052,
      "step": 829
    },
    {
      "epoch": 0.2126595267107035,
      "loss": 1.2978742122650146,
      "loss_ce": 0.0009992625564336777,
      "loss_iou": 0.58984375,
      "loss_num": 0.02294921875,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 104735052,
      "step": 829
    },
    {
      "epoch": 0.2129160520746489,
      "grad_norm": 46.55683898925781,
      "learning_rate": 5e-06,
      "loss": 1.2984,
      "num_input_tokens_seen": 104862176,
      "step": 830
    },
    {
      "epoch": 0.2129160520746489,
      "loss": 1.2739205360412598,
      "loss_ce": 0.0009714420302771032,
      "loss_iou": 0.59375,
      "loss_num": 0.017333984375,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 104862176,
      "step": 830
    },
    {
      "epoch": 0.21317257743859425,
      "grad_norm": 55.45515823364258,
      "learning_rate": 5e-06,
      "loss": 1.5183,
      "num_input_tokens_seen": 104989212,
      "step": 831
    },
    {
      "epoch": 0.21317257743859425,
      "loss": 1.397540807723999,
      "loss_ce": 0.0010564766125753522,
      "loss_iou": 0.65234375,
      "loss_num": 0.018798828125,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 104989212,
      "step": 831
    },
    {
      "epoch": 0.2134291028025396,
      "grad_norm": 48.31146240234375,
      "learning_rate": 5e-06,
      "loss": 1.2856,
      "num_input_tokens_seen": 105115396,
      "step": 832
    },
    {
      "epoch": 0.2134291028025396,
      "loss": 1.3623230457305908,
      "loss_ce": 0.0009949113009497523,
      "loss_iou": 0.63671875,
      "loss_num": 0.01806640625,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 105115396,
      "step": 832
    },
    {
      "epoch": 0.21368562816648495,
      "grad_norm": 47.06501770019531,
      "learning_rate": 5e-06,
      "loss": 1.3505,
      "num_input_tokens_seen": 105241008,
      "step": 833
    },
    {
      "epoch": 0.21368562816648495,
      "loss": 1.1678062677383423,
      "loss_ce": 0.004231990315020084,
      "loss_iou": 0.54296875,
      "loss_num": 0.015625,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 105241008,
      "step": 833
    },
    {
      "epoch": 0.21394215353043033,
      "grad_norm": 91.97337341308594,
      "learning_rate": 5e-06,
      "loss": 1.4153,
      "num_input_tokens_seen": 105366460,
      "step": 834
    },
    {
      "epoch": 0.21394215353043033,
      "loss": 1.7248039245605469,
      "loss_ce": 0.005077243782579899,
      "loss_iou": 0.78125,
      "loss_num": 0.03076171875,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 105366460,
      "step": 834
    },
    {
      "epoch": 0.2141986788943757,
      "grad_norm": 51.19464874267578,
      "learning_rate": 5e-06,
      "loss": 1.6737,
      "num_input_tokens_seen": 105492976,
      "step": 835
    },
    {
      "epoch": 0.2141986788943757,
      "loss": 1.7197816371917725,
      "loss_ce": 0.0020082485862076283,
      "loss_iou": 0.765625,
      "loss_num": 0.037841796875,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 105492976,
      "step": 835
    },
    {
      "epoch": 0.21445520425832104,
      "grad_norm": 44.47203826904297,
      "learning_rate": 5e-06,
      "loss": 1.3802,
      "num_input_tokens_seen": 105618980,
      "step": 836
    },
    {
      "epoch": 0.21445520425832104,
      "loss": 1.3062474727630615,
      "loss_ce": 0.0010716654360294342,
      "loss_iou": 0.58203125,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 105618980,
      "step": 836
    },
    {
      "epoch": 0.2147117296222664,
      "grad_norm": 89.10150909423828,
      "learning_rate": 5e-06,
      "loss": 1.4376,
      "num_input_tokens_seen": 105745284,
      "step": 837
    },
    {
      "epoch": 0.2147117296222664,
      "loss": 1.2511318922042847,
      "loss_ce": 0.0021083992905914783,
      "loss_iou": 0.58203125,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 105745284,
      "step": 837
    },
    {
      "epoch": 0.21496825498621175,
      "grad_norm": 46.902748107910156,
      "learning_rate": 5e-06,
      "loss": 1.5398,
      "num_input_tokens_seen": 105871968,
      "step": 838
    },
    {
      "epoch": 0.21496825498621175,
      "loss": 1.6062655448913574,
      "loss_ce": 0.0007968974532559514,
      "loss_iou": 0.7421875,
      "loss_num": 0.024169921875,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 105871968,
      "step": 838
    },
    {
      "epoch": 0.21522478035015713,
      "grad_norm": 45.26897048950195,
      "learning_rate": 5e-06,
      "loss": 1.2715,
      "num_input_tokens_seen": 105998052,
      "step": 839
    },
    {
      "epoch": 0.21522478035015713,
      "loss": 1.1095643043518066,
      "loss_ce": 0.0021425168961286545,
      "loss_iou": 0.50390625,
      "loss_num": 0.0198974609375,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 105998052,
      "step": 839
    },
    {
      "epoch": 0.21548130571410248,
      "grad_norm": 54.874427795410156,
      "learning_rate": 5e-06,
      "loss": 1.2929,
      "num_input_tokens_seen": 106124128,
      "step": 840
    },
    {
      "epoch": 0.21548130571410248,
      "loss": 1.1453044414520264,
      "loss_ce": 0.001261463388800621,
      "loss_iou": 0.53515625,
      "loss_num": 0.01531982421875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 106124128,
      "step": 840
    },
    {
      "epoch": 0.21573783107804784,
      "grad_norm": 55.62739181518555,
      "learning_rate": 5e-06,
      "loss": 1.4505,
      "num_input_tokens_seen": 106251148,
      "step": 841
    },
    {
      "epoch": 0.21573783107804784,
      "loss": 1.4168570041656494,
      "loss_ce": 0.007677407935261726,
      "loss_iou": 0.640625,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 106251148,
      "step": 841
    },
    {
      "epoch": 0.2159943564419932,
      "grad_norm": 72.67060089111328,
      "learning_rate": 5e-06,
      "loss": 1.2879,
      "num_input_tokens_seen": 106377760,
      "step": 842
    },
    {
      "epoch": 0.2159943564419932,
      "loss": 1.3242168426513672,
      "loss_ce": 0.00048632241669110954,
      "loss_iou": 0.61328125,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 106377760,
      "step": 842
    },
    {
      "epoch": 0.21625088180593857,
      "grad_norm": 49.955142974853516,
      "learning_rate": 5e-06,
      "loss": 1.3913,
      "num_input_tokens_seen": 106503728,
      "step": 843
    },
    {
      "epoch": 0.21625088180593857,
      "loss": 1.4327881336212158,
      "loss_ce": 0.0031006329227238894,
      "loss_iou": 0.65625,
      "loss_num": 0.0234375,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 106503728,
      "step": 843
    },
    {
      "epoch": 0.21650740716988393,
      "grad_norm": 54.71107864379883,
      "learning_rate": 5e-06,
      "loss": 1.1264,
      "num_input_tokens_seen": 106630604,
      "step": 844
    },
    {
      "epoch": 0.21650740716988393,
      "loss": 1.162672996520996,
      "loss_ce": 0.0010519400238990784,
      "loss_iou": 0.55078125,
      "loss_num": 0.01165771484375,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 106630604,
      "step": 844
    },
    {
      "epoch": 0.21676393253382928,
      "grad_norm": 96.05371856689453,
      "learning_rate": 5e-06,
      "loss": 1.5255,
      "num_input_tokens_seen": 106757264,
      "step": 845
    },
    {
      "epoch": 0.21676393253382928,
      "loss": 1.250503420829773,
      "loss_ce": 0.004409621469676495,
      "loss_iou": 0.57421875,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 106757264,
      "step": 845
    },
    {
      "epoch": 0.21702045789777463,
      "grad_norm": 51.8949089050293,
      "learning_rate": 5e-06,
      "loss": 1.4789,
      "num_input_tokens_seen": 106885472,
      "step": 846
    },
    {
      "epoch": 0.21702045789777463,
      "loss": 1.2629574537277222,
      "loss_ce": 0.0027034739032387733,
      "loss_iou": 0.58203125,
      "loss_num": 0.019775390625,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 106885472,
      "step": 846
    },
    {
      "epoch": 0.21727698326172,
      "grad_norm": 47.95415496826172,
      "learning_rate": 5e-06,
      "loss": 1.298,
      "num_input_tokens_seen": 107012156,
      "step": 847
    },
    {
      "epoch": 0.21727698326172,
      "loss": 1.4818785190582275,
      "loss_ce": 0.0014097160892561078,
      "loss_iou": 0.65625,
      "loss_num": 0.033203125,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 107012156,
      "step": 847
    },
    {
      "epoch": 0.21753350862566537,
      "grad_norm": 37.76900100708008,
      "learning_rate": 5e-06,
      "loss": 1.2597,
      "num_input_tokens_seen": 107137948,
      "step": 848
    },
    {
      "epoch": 0.21753350862566537,
      "loss": 1.111304521560669,
      "loss_ce": 0.003394325729459524,
      "loss_iou": 0.51953125,
      "loss_num": 0.0135498046875,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 107137948,
      "step": 848
    },
    {
      "epoch": 0.21779003398961072,
      "grad_norm": 38.0576286315918,
      "learning_rate": 5e-06,
      "loss": 1.419,
      "num_input_tokens_seen": 107264188,
      "step": 849
    },
    {
      "epoch": 0.21779003398961072,
      "loss": 1.7798386812210083,
      "loss_ce": 0.003471519099548459,
      "loss_iou": 0.76171875,
      "loss_num": 0.05029296875,
      "loss_xval": 1.7734375,
      "num_input_tokens_seen": 107264188,
      "step": 849
    },
    {
      "epoch": 0.21804655935355607,
      "grad_norm": 70.96070861816406,
      "learning_rate": 5e-06,
      "loss": 1.422,
      "num_input_tokens_seen": 107391188,
      "step": 850
    },
    {
      "epoch": 0.21804655935355607,
      "loss": 1.4808650016784668,
      "loss_ce": 0.0013728067278862,
      "loss_iou": 0.703125,
      "loss_num": 0.01434326171875,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 107391188,
      "step": 850
    },
    {
      "epoch": 0.21830308471750146,
      "grad_norm": 45.92108154296875,
      "learning_rate": 5e-06,
      "loss": 1.5359,
      "num_input_tokens_seen": 107516540,
      "step": 851
    },
    {
      "epoch": 0.21830308471750146,
      "loss": 1.464888572692871,
      "loss_ce": 0.0019980687648057938,
      "loss_iou": 0.66796875,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 107516540,
      "step": 851
    },
    {
      "epoch": 0.2185596100814468,
      "grad_norm": 26.80365753173828,
      "learning_rate": 5e-06,
      "loss": 1.3157,
      "num_input_tokens_seen": 107641844,
      "step": 852
    },
    {
      "epoch": 0.2185596100814468,
      "loss": 1.4777626991271973,
      "loss_ce": 0.002176663838326931,
      "loss_iou": 0.6484375,
      "loss_num": 0.035400390625,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 107641844,
      "step": 852
    },
    {
      "epoch": 0.21881613544539216,
      "grad_norm": 34.28759765625,
      "learning_rate": 5e-06,
      "loss": 1.2558,
      "num_input_tokens_seen": 107770012,
      "step": 853
    },
    {
      "epoch": 0.21881613544539216,
      "loss": 1.2734986543655396,
      "loss_ce": 0.0025026067160069942,
      "loss_iou": 0.5859375,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 107770012,
      "step": 853
    },
    {
      "epoch": 0.21907266080933752,
      "grad_norm": 47.869895935058594,
      "learning_rate": 5e-06,
      "loss": 1.2348,
      "num_input_tokens_seen": 107896956,
      "step": 854
    },
    {
      "epoch": 0.21907266080933752,
      "loss": 1.1121585369110107,
      "loss_ce": 0.0008303733193315566,
      "loss_iou": 0.52734375,
      "loss_num": 0.01190185546875,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 107896956,
      "step": 854
    },
    {
      "epoch": 0.21932918617328287,
      "grad_norm": 80.51130676269531,
      "learning_rate": 5e-06,
      "loss": 1.4419,
      "num_input_tokens_seen": 108023328,
      "step": 855
    },
    {
      "epoch": 0.21932918617328287,
      "loss": 1.328608512878418,
      "loss_ce": 0.0019484497606754303,
      "loss_iou": 0.61328125,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 108023328,
      "step": 855
    },
    {
      "epoch": 0.21958571153722825,
      "grad_norm": 53.079898834228516,
      "learning_rate": 5e-06,
      "loss": 1.41,
      "num_input_tokens_seen": 108149916,
      "step": 856
    },
    {
      "epoch": 0.21958571153722825,
      "loss": 1.3083007335662842,
      "loss_ce": 0.0016601296374574304,
      "loss_iou": 0.58984375,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 108149916,
      "step": 856
    },
    {
      "epoch": 0.2198422369011736,
      "grad_norm": 44.758968353271484,
      "learning_rate": 5e-06,
      "loss": 1.2811,
      "num_input_tokens_seen": 108276980,
      "step": 857
    },
    {
      "epoch": 0.2198422369011736,
      "loss": 1.339543342590332,
      "loss_ce": 0.0011643850011751056,
      "loss_iou": 0.6328125,
      "loss_num": 0.0152587890625,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 108276980,
      "step": 857
    },
    {
      "epoch": 0.22009876226511896,
      "grad_norm": 39.31000518798828,
      "learning_rate": 5e-06,
      "loss": 1.3571,
      "num_input_tokens_seen": 108403728,
      "step": 858
    },
    {
      "epoch": 0.22009876226511896,
      "loss": 1.3346402645111084,
      "loss_ce": 0.005050357896834612,
      "loss_iou": 0.58984375,
      "loss_num": 0.0303955078125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 108403728,
      "step": 858
    },
    {
      "epoch": 0.2203552876290643,
      "grad_norm": 71.66879272460938,
      "learning_rate": 5e-06,
      "loss": 1.262,
      "num_input_tokens_seen": 108529600,
      "step": 859
    },
    {
      "epoch": 0.2203552876290643,
      "loss": 1.2392791509628296,
      "loss_ce": 0.00099792773835361,
      "loss_iou": 0.58203125,
      "loss_num": 0.01446533203125,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 108529600,
      "step": 859
    },
    {
      "epoch": 0.2206118129930097,
      "grad_norm": 62.0504264831543,
      "learning_rate": 5e-06,
      "loss": 1.4328,
      "num_input_tokens_seen": 108656260,
      "step": 860
    },
    {
      "epoch": 0.2206118129930097,
      "loss": 1.4119822978973389,
      "loss_ce": 0.0037791808135807514,
      "loss_iou": 0.6328125,
      "loss_num": 0.028076171875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 108656260,
      "step": 860
    },
    {
      "epoch": 0.22086833835695505,
      "grad_norm": 77.06497192382812,
      "learning_rate": 5e-06,
      "loss": 1.34,
      "num_input_tokens_seen": 108784348,
      "step": 861
    },
    {
      "epoch": 0.22086833835695505,
      "loss": 1.4308797121047974,
      "loss_ce": 0.001192188821732998,
      "loss_iou": 0.66796875,
      "loss_num": 0.0185546875,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 108784348,
      "step": 861
    },
    {
      "epoch": 0.2211248637209004,
      "grad_norm": 51.25062942504883,
      "learning_rate": 5e-06,
      "loss": 1.5666,
      "num_input_tokens_seen": 108910704,
      "step": 862
    },
    {
      "epoch": 0.2211248637209004,
      "loss": 1.519243597984314,
      "loss_ce": 0.0006889344658702612,
      "loss_iou": 0.6875,
      "loss_num": 0.028564453125,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 108910704,
      "step": 862
    },
    {
      "epoch": 0.22138138908484575,
      "grad_norm": 42.317352294921875,
      "learning_rate": 5e-06,
      "loss": 1.3336,
      "num_input_tokens_seen": 109035996,
      "step": 863
    },
    {
      "epoch": 0.22138138908484575,
      "loss": 1.2780342102050781,
      "loss_ce": 0.0016669936012476683,
      "loss_iou": 0.58984375,
      "loss_num": 0.01904296875,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 109035996,
      "step": 863
    },
    {
      "epoch": 0.22163791444879113,
      "grad_norm": 31.0533390045166,
      "learning_rate": 5e-06,
      "loss": 1.3345,
      "num_input_tokens_seen": 109161060,
      "step": 864
    },
    {
      "epoch": 0.22163791444879113,
      "loss": 1.3667558431625366,
      "loss_ce": 0.001521471654996276,
      "loss_iou": 0.6171875,
      "loss_num": 0.0257568359375,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 109161060,
      "step": 864
    },
    {
      "epoch": 0.2218944398127365,
      "grad_norm": 39.44700622558594,
      "learning_rate": 5e-06,
      "loss": 1.2082,
      "num_input_tokens_seen": 109287920,
      "step": 865
    },
    {
      "epoch": 0.2218944398127365,
      "loss": 1.478264331817627,
      "loss_ce": 0.002678437391296029,
      "loss_iou": 0.67578125,
      "loss_num": 0.02490234375,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 109287920,
      "step": 865
    },
    {
      "epoch": 0.22215096517668184,
      "grad_norm": 58.90821075439453,
      "learning_rate": 5e-06,
      "loss": 1.4515,
      "num_input_tokens_seen": 109414996,
      "step": 866
    },
    {
      "epoch": 0.22215096517668184,
      "loss": 1.3711152076721191,
      "loss_ce": 0.0009980072500184178,
      "loss_iou": 0.625,
      "loss_num": 0.02392578125,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 109414996,
      "step": 866
    },
    {
      "epoch": 0.2224074905406272,
      "grad_norm": 42.269081115722656,
      "learning_rate": 5e-06,
      "loss": 1.2681,
      "num_input_tokens_seen": 109538420,
      "step": 867
    },
    {
      "epoch": 0.2224074905406272,
      "loss": 1.471693754196167,
      "loss_ce": 0.000990603817626834,
      "loss_iou": 0.671875,
      "loss_num": 0.025146484375,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 109538420,
      "step": 867
    },
    {
      "epoch": 0.22266401590457258,
      "grad_norm": 38.11931610107422,
      "learning_rate": 5e-06,
      "loss": 1.192,
      "num_input_tokens_seen": 109663540,
      "step": 868
    },
    {
      "epoch": 0.22266401590457258,
      "loss": 1.1448726654052734,
      "loss_ce": 0.0022946279495954514,
      "loss_iou": 0.5234375,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 109663540,
      "step": 868
    },
    {
      "epoch": 0.22292054126851793,
      "grad_norm": 50.76338577270508,
      "learning_rate": 5e-06,
      "loss": 1.1968,
      "num_input_tokens_seen": 109790684,
      "step": 869
    },
    {
      "epoch": 0.22292054126851793,
      "loss": 1.1969025135040283,
      "loss_ce": 0.0054962593130767345,
      "loss_iou": 0.5625,
      "loss_num": 0.0126953125,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 109790684,
      "step": 869
    },
    {
      "epoch": 0.22317706663246328,
      "grad_norm": 118.55126190185547,
      "learning_rate": 5e-06,
      "loss": 1.4395,
      "num_input_tokens_seen": 109917928,
      "step": 870
    },
    {
      "epoch": 0.22317706663246328,
      "loss": 1.4637610912322998,
      "loss_ce": 0.0018470440991222858,
      "loss_iou": 0.671875,
      "loss_num": 0.024169921875,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 109917928,
      "step": 870
    },
    {
      "epoch": 0.22343359199640864,
      "grad_norm": 43.04262161254883,
      "learning_rate": 5e-06,
      "loss": 1.6447,
      "num_input_tokens_seen": 110044084,
      "step": 871
    },
    {
      "epoch": 0.22343359199640864,
      "loss": 1.7243461608886719,
      "loss_ce": 0.002666470594704151,
      "loss_iou": 0.76171875,
      "loss_num": 0.0400390625,
      "loss_xval": 1.71875,
      "num_input_tokens_seen": 110044084,
      "step": 871
    },
    {
      "epoch": 0.22369011736035402,
      "grad_norm": 36.56740951538086,
      "learning_rate": 5e-06,
      "loss": 1.4981,
      "num_input_tokens_seen": 110169636,
      "step": 872
    },
    {
      "epoch": 0.22369011736035402,
      "loss": 1.4007444381713867,
      "loss_ce": 0.0013303777668625116,
      "loss_iou": 0.63671875,
      "loss_num": 0.0247802734375,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 110169636,
      "step": 872
    },
    {
      "epoch": 0.22394664272429937,
      "grad_norm": 46.4896354675293,
      "learning_rate": 5e-06,
      "loss": 1.3143,
      "num_input_tokens_seen": 110295380,
      "step": 873
    },
    {
      "epoch": 0.22394664272429937,
      "loss": 1.302603006362915,
      "loss_ce": 0.0008451527683064342,
      "loss_iou": 0.6015625,
      "loss_num": 0.019775390625,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 110295380,
      "step": 873
    },
    {
      "epoch": 0.22420316808824473,
      "grad_norm": 42.694236755371094,
      "learning_rate": 5e-06,
      "loss": 1.3806,
      "num_input_tokens_seen": 110423364,
      "step": 874
    },
    {
      "epoch": 0.22420316808824473,
      "loss": 1.3460360765457153,
      "loss_ce": 0.0022860628087073565,
      "loss_iou": 0.625,
      "loss_num": 0.0184326171875,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 110423364,
      "step": 874
    },
    {
      "epoch": 0.22445969345219008,
      "grad_norm": 106.21011352539062,
      "learning_rate": 5e-06,
      "loss": 1.3139,
      "num_input_tokens_seen": 110550520,
      "step": 875
    },
    {
      "epoch": 0.22445969345219008,
      "loss": 1.1505510807037354,
      "loss_ce": 0.00260187778621912,
      "loss_iou": 0.546875,
      "loss_num": 0.0113525390625,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 110550520,
      "step": 875
    },
    {
      "epoch": 0.22471621881613543,
      "grad_norm": 188.66481018066406,
      "learning_rate": 5e-06,
      "loss": 1.5292,
      "num_input_tokens_seen": 110676896,
      "step": 876
    },
    {
      "epoch": 0.22471621881613543,
      "loss": 1.5147008895874023,
      "loss_ce": 0.005911848973482847,
      "loss_iou": 0.67578125,
      "loss_num": 0.03173828125,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 110676896,
      "step": 876
    },
    {
      "epoch": 0.2249727441800808,
      "grad_norm": 42.38863754272461,
      "learning_rate": 5e-06,
      "loss": 1.3636,
      "num_input_tokens_seen": 110803728,
      "step": 877
    },
    {
      "epoch": 0.2249727441800808,
      "loss": 1.4267995357513428,
      "loss_ce": 0.0010182390687987208,
      "loss_iou": 0.65625,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 110803728,
      "step": 877
    },
    {
      "epoch": 0.22522926954402617,
      "grad_norm": 32.36529541015625,
      "learning_rate": 5e-06,
      "loss": 1.2338,
      "num_input_tokens_seen": 110930224,
      "step": 878
    },
    {
      "epoch": 0.22522926954402617,
      "loss": 1.123304009437561,
      "loss_ce": 0.005139881744980812,
      "loss_iou": 0.51953125,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 110930224,
      "step": 878
    },
    {
      "epoch": 0.22548579490797152,
      "grad_norm": 72.23925018310547,
      "learning_rate": 5e-06,
      "loss": 1.3108,
      "num_input_tokens_seen": 111057324,
      "step": 879
    },
    {
      "epoch": 0.22548579490797152,
      "loss": 1.4704192876815796,
      "loss_ce": 0.0016692212084308267,
      "loss_iou": 0.671875,
      "loss_num": 0.024658203125,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 111057324,
      "step": 879
    },
    {
      "epoch": 0.22574232027191687,
      "grad_norm": 51.39903259277344,
      "learning_rate": 5e-06,
      "loss": 1.4156,
      "num_input_tokens_seen": 111184256,
      "step": 880
    },
    {
      "epoch": 0.22574232027191687,
      "loss": 1.5473936796188354,
      "loss_ce": 0.0024719019420444965,
      "loss_iou": 0.7109375,
      "loss_num": 0.0244140625,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 111184256,
      "step": 880
    },
    {
      "epoch": 0.22599884563586226,
      "grad_norm": 30.70134735107422,
      "learning_rate": 5e-06,
      "loss": 1.3595,
      "num_input_tokens_seen": 111309196,
      "step": 881
    },
    {
      "epoch": 0.22599884563586226,
      "loss": 1.4198918342590332,
      "loss_ce": 0.005829379893839359,
      "loss_iou": 0.625,
      "loss_num": 0.031982421875,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 111309196,
      "step": 881
    },
    {
      "epoch": 0.2262553709998076,
      "grad_norm": 31.428083419799805,
      "learning_rate": 5e-06,
      "loss": 1.2574,
      "num_input_tokens_seen": 111435944,
      "step": 882
    },
    {
      "epoch": 0.2262553709998076,
      "loss": 1.2775641679763794,
      "loss_ce": 0.003150083590298891,
      "loss_iou": 0.5859375,
      "loss_num": 0.02001953125,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 111435944,
      "step": 882
    },
    {
      "epoch": 0.22651189636375296,
      "grad_norm": 76.35772705078125,
      "learning_rate": 5e-06,
      "loss": 1.3322,
      "num_input_tokens_seen": 111563032,
      "step": 883
    },
    {
      "epoch": 0.22651189636375296,
      "loss": 1.3312240839004517,
      "loss_ce": 0.0016342223389074206,
      "loss_iou": 0.61328125,
      "loss_num": 0.02001953125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 111563032,
      "step": 883
    },
    {
      "epoch": 0.22676842172769832,
      "grad_norm": 56.5334587097168,
      "learning_rate": 5e-06,
      "loss": 1.4896,
      "num_input_tokens_seen": 111690080,
      "step": 884
    },
    {
      "epoch": 0.22676842172769832,
      "loss": 1.4997889995574951,
      "loss_ce": 0.001742122694849968,
      "loss_iou": 0.6796875,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 111690080,
      "step": 884
    },
    {
      "epoch": 0.2270249470916437,
      "grad_norm": 28.566360473632812,
      "learning_rate": 5e-06,
      "loss": 1.1853,
      "num_input_tokens_seen": 111815640,
      "step": 885
    },
    {
      "epoch": 0.2270249470916437,
      "loss": 1.199195384979248,
      "loss_ce": 0.00046489731175825,
      "loss_iou": 0.55859375,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 111815640,
      "step": 885
    },
    {
      "epoch": 0.22728147245558905,
      "grad_norm": 31.808095932006836,
      "learning_rate": 5e-06,
      "loss": 1.2149,
      "num_input_tokens_seen": 111941608,
      "step": 886
    },
    {
      "epoch": 0.22728147245558905,
      "loss": 1.158692717552185,
      "loss_ce": 0.0029309988021850586,
      "loss_iou": 0.5390625,
      "loss_num": 0.0159912109375,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 111941608,
      "step": 886
    },
    {
      "epoch": 0.2275379978195344,
      "grad_norm": 35.20946502685547,
      "learning_rate": 5e-06,
      "loss": 1.3034,
      "num_input_tokens_seen": 112068000,
      "step": 887
    },
    {
      "epoch": 0.2275379978195344,
      "loss": 1.1006805896759033,
      "loss_ce": 0.0025360831059515476,
      "loss_iou": 0.50390625,
      "loss_num": 0.018310546875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 112068000,
      "step": 887
    },
    {
      "epoch": 0.22779452318347976,
      "grad_norm": 46.20315170288086,
      "learning_rate": 5e-06,
      "loss": 1.3607,
      "num_input_tokens_seen": 112193772,
      "step": 888
    },
    {
      "epoch": 0.22779452318347976,
      "loss": 1.375450849533081,
      "loss_ce": 0.0053336480632424355,
      "loss_iou": 0.6328125,
      "loss_num": 0.021484375,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 112193772,
      "step": 888
    },
    {
      "epoch": 0.22805104854742514,
      "grad_norm": 50.60459899902344,
      "learning_rate": 5e-06,
      "loss": 1.327,
      "num_input_tokens_seen": 112318384,
      "step": 889
    },
    {
      "epoch": 0.22805104854742514,
      "loss": 1.34164559841156,
      "loss_ce": 0.0013135320041328669,
      "loss_iou": 0.609375,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 112318384,
      "step": 889
    },
    {
      "epoch": 0.2283075739113705,
      "grad_norm": 63.13187789916992,
      "learning_rate": 5e-06,
      "loss": 1.3183,
      "num_input_tokens_seen": 112444360,
      "step": 890
    },
    {
      "epoch": 0.2283075739113705,
      "loss": 1.4495114088058472,
      "loss_ce": 0.002245801966637373,
      "loss_iou": 0.6640625,
      "loss_num": 0.024169921875,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 112444360,
      "step": 890
    },
    {
      "epoch": 0.22856409927531585,
      "grad_norm": 64.76119995117188,
      "learning_rate": 5e-06,
      "loss": 1.4067,
      "num_input_tokens_seen": 112571028,
      "step": 891
    },
    {
      "epoch": 0.22856409927531585,
      "loss": 1.3949520587921143,
      "loss_ce": 0.004327083937823772,
      "loss_iou": 0.6328125,
      "loss_num": 0.025634765625,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 112571028,
      "step": 891
    },
    {
      "epoch": 0.2288206246392612,
      "grad_norm": 47.076847076416016,
      "learning_rate": 5e-06,
      "loss": 1.3417,
      "num_input_tokens_seen": 112697236,
      "step": 892
    },
    {
      "epoch": 0.2288206246392612,
      "loss": 1.2416125535964966,
      "loss_ce": 0.0018663909286260605,
      "loss_iou": 0.57421875,
      "loss_num": 0.01806640625,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 112697236,
      "step": 892
    },
    {
      "epoch": 0.22907715000320655,
      "grad_norm": 61.032447814941406,
      "learning_rate": 5e-06,
      "loss": 1.3628,
      "num_input_tokens_seen": 112824148,
      "step": 893
    },
    {
      "epoch": 0.22907715000320655,
      "loss": 1.4645155668258667,
      "loss_ce": 0.004554663319140673,
      "loss_iou": 0.6484375,
      "loss_num": 0.032470703125,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 112824148,
      "step": 893
    },
    {
      "epoch": 0.22933367536715193,
      "grad_norm": 51.111209869384766,
      "learning_rate": 5e-06,
      "loss": 1.4243,
      "num_input_tokens_seen": 112950352,
      "step": 894
    },
    {
      "epoch": 0.22933367536715193,
      "loss": 1.4502856731414795,
      "loss_ce": 0.0020435431506484747,
      "loss_iou": 0.6796875,
      "loss_num": 0.017822265625,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 112950352,
      "step": 894
    },
    {
      "epoch": 0.2295902007310973,
      "grad_norm": 58.70512771606445,
      "learning_rate": 5e-06,
      "loss": 1.2075,
      "num_input_tokens_seen": 113076876,
      "step": 895
    },
    {
      "epoch": 0.2295902007310973,
      "loss": 1.20267915725708,
      "loss_ce": 0.0010190506000071764,
      "loss_iou": 0.57421875,
      "loss_num": 0.0107421875,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 113076876,
      "step": 895
    },
    {
      "epoch": 0.22984672609504264,
      "grad_norm": 85.51910400390625,
      "learning_rate": 5e-06,
      "loss": 1.2902,
      "num_input_tokens_seen": 113202840,
      "step": 896
    },
    {
      "epoch": 0.22984672609504264,
      "loss": 1.1747854948043823,
      "loss_ce": 0.0009574600262567401,
      "loss_iou": 0.5625,
      "loss_num": 0.01025390625,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 113202840,
      "step": 896
    },
    {
      "epoch": 0.230103251458988,
      "grad_norm": 49.33277130126953,
      "learning_rate": 5e-06,
      "loss": 1.3604,
      "num_input_tokens_seen": 113328056,
      "step": 897
    },
    {
      "epoch": 0.230103251458988,
      "loss": 1.2637230157852173,
      "loss_ce": 0.0005393297178670764,
      "loss_iou": 0.58203125,
      "loss_num": 0.0206298828125,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 113328056,
      "step": 897
    },
    {
      "epoch": 0.23035977682293338,
      "grad_norm": 52.3984489440918,
      "learning_rate": 5e-06,
      "loss": 1.3301,
      "num_input_tokens_seen": 113454580,
      "step": 898
    },
    {
      "epoch": 0.23035977682293338,
      "loss": 1.3169317245483398,
      "loss_ce": 0.0034551904536783695,
      "loss_iou": 0.60546875,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 113454580,
      "step": 898
    },
    {
      "epoch": 0.23061630218687873,
      "grad_norm": 36.869808197021484,
      "learning_rate": 5e-06,
      "loss": 1.3663,
      "num_input_tokens_seen": 113580796,
      "step": 899
    },
    {
      "epoch": 0.23061630218687873,
      "loss": 1.4155957698822021,
      "loss_ce": 0.0005568009219132364,
      "loss_iou": 0.63671875,
      "loss_num": 0.028564453125,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 113580796,
      "step": 899
    },
    {
      "epoch": 0.23087282755082408,
      "grad_norm": 49.00529098510742,
      "learning_rate": 5e-06,
      "loss": 1.4235,
      "num_input_tokens_seen": 113707456,
      "step": 900
    },
    {
      "epoch": 0.23087282755082408,
      "loss": 1.423506259918213,
      "loss_ce": 0.002119549782946706,
      "loss_iou": 0.640625,
      "loss_num": 0.027099609375,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 113707456,
      "step": 900
    },
    {
      "epoch": 0.23112935291476944,
      "grad_norm": 60.6417121887207,
      "learning_rate": 5e-06,
      "loss": 1.3792,
      "num_input_tokens_seen": 113833424,
      "step": 901
    },
    {
      "epoch": 0.23112935291476944,
      "loss": 1.5023759603500366,
      "loss_ce": 0.002376062795519829,
      "loss_iou": 0.6875,
      "loss_num": 0.025634765625,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 113833424,
      "step": 901
    },
    {
      "epoch": 0.23138587827871482,
      "grad_norm": 48.91705322265625,
      "learning_rate": 5e-06,
      "loss": 1.5556,
      "num_input_tokens_seen": 113960460,
      "step": 902
    },
    {
      "epoch": 0.23138587827871482,
      "loss": 1.4730918407440186,
      "loss_ce": 0.006295007653534412,
      "loss_iou": 0.65625,
      "loss_num": 0.0303955078125,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 113960460,
      "step": 902
    },
    {
      "epoch": 0.23164240364266017,
      "grad_norm": 50.46155548095703,
      "learning_rate": 5e-06,
      "loss": 1.1693,
      "num_input_tokens_seen": 114086824,
      "step": 903
    },
    {
      "epoch": 0.23164240364266017,
      "loss": 1.1526782512664795,
      "loss_ce": 0.001310959691181779,
      "loss_iou": 0.546875,
      "loss_num": 0.0118408203125,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 114086824,
      "step": 903
    },
    {
      "epoch": 0.23189892900660553,
      "grad_norm": 54.59313201904297,
      "learning_rate": 5e-06,
      "loss": 1.4334,
      "num_input_tokens_seen": 114213796,
      "step": 904
    },
    {
      "epoch": 0.23189892900660553,
      "loss": 1.3652406930923462,
      "loss_ce": 0.001471168827265501,
      "loss_iou": 0.625,
      "loss_num": 0.0228271484375,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 114213796,
      "step": 904
    },
    {
      "epoch": 0.23215545437055088,
      "grad_norm": 93.16931915283203,
      "learning_rate": 5e-06,
      "loss": 1.2587,
      "num_input_tokens_seen": 114340112,
      "step": 905
    },
    {
      "epoch": 0.23215545437055088,
      "loss": 1.3593249320983887,
      "loss_ce": 0.004832704085856676,
      "loss_iou": 0.60546875,
      "loss_num": 0.0286865234375,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 114340112,
      "step": 905
    },
    {
      "epoch": 0.23241197973449626,
      "grad_norm": 49.08348846435547,
      "learning_rate": 5e-06,
      "loss": 1.4423,
      "num_input_tokens_seen": 114466964,
      "step": 906
    },
    {
      "epoch": 0.23241197973449626,
      "loss": 1.4324429035186768,
      "loss_ce": 0.0017787908436730504,
      "loss_iou": 0.66796875,
      "loss_num": 0.019287109375,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 114466964,
      "step": 906
    },
    {
      "epoch": 0.2326685050984416,
      "grad_norm": 41.74802017211914,
      "learning_rate": 5e-06,
      "loss": 1.3938,
      "num_input_tokens_seen": 114593444,
      "step": 907
    },
    {
      "epoch": 0.2326685050984416,
      "loss": 1.3631118535995483,
      "loss_ce": 0.0032484966795891523,
      "loss_iou": 0.6015625,
      "loss_num": 0.0306396484375,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 114593444,
      "step": 907
    },
    {
      "epoch": 0.23292503046238697,
      "grad_norm": 40.076210021972656,
      "learning_rate": 5e-06,
      "loss": 1.2671,
      "num_input_tokens_seen": 114719352,
      "step": 908
    },
    {
      "epoch": 0.23292503046238697,
      "loss": 1.4410052299499512,
      "loss_ce": 0.0005755225429311395,
      "loss_iou": 0.6640625,
      "loss_num": 0.02197265625,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 114719352,
      "step": 908
    },
    {
      "epoch": 0.23318155582633232,
      "grad_norm": 83.48221588134766,
      "learning_rate": 5e-06,
      "loss": 1.4485,
      "num_input_tokens_seen": 114846156,
      "step": 909
    },
    {
      "epoch": 0.23318155582633232,
      "loss": 1.3747888803482056,
      "loss_ce": 0.0007655267836526036,
      "loss_iou": 0.65625,
      "loss_num": 0.01287841796875,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 114846156,
      "step": 909
    },
    {
      "epoch": 0.2334380811902777,
      "grad_norm": 54.399654388427734,
      "learning_rate": 5e-06,
      "loss": 1.4232,
      "num_input_tokens_seen": 114972376,
      "step": 910
    },
    {
      "epoch": 0.2334380811902777,
      "loss": 1.487208604812622,
      "loss_ce": 0.0013687292812392116,
      "loss_iou": 0.68359375,
      "loss_num": 0.023681640625,
      "loss_xval": 1.484375,
      "num_input_tokens_seen": 114972376,
      "step": 910
    },
    {
      "epoch": 0.23369460655422306,
      "grad_norm": 35.098358154296875,
      "learning_rate": 5e-06,
      "loss": 1.3081,
      "num_input_tokens_seen": 115098408,
      "step": 911
    },
    {
      "epoch": 0.23369460655422306,
      "loss": 1.2594969272613525,
      "loss_ce": 0.002172773703932762,
      "loss_iou": 0.5703125,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 115098408,
      "step": 911
    },
    {
      "epoch": 0.2339511319181684,
      "grad_norm": 47.6381950378418,
      "learning_rate": 5e-06,
      "loss": 1.2513,
      "num_input_tokens_seen": 115224764,
      "step": 912
    },
    {
      "epoch": 0.2339511319181684,
      "loss": 1.1750240325927734,
      "loss_ce": 0.0011959951370954514,
      "loss_iou": 0.55078125,
      "loss_num": 0.01409912109375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 115224764,
      "step": 912
    },
    {
      "epoch": 0.23420765728211376,
      "grad_norm": 59.1236457824707,
      "learning_rate": 5e-06,
      "loss": 1.3541,
      "num_input_tokens_seen": 115350732,
      "step": 913
    },
    {
      "epoch": 0.23420765728211376,
      "loss": 1.7742127180099487,
      "loss_ce": 0.005169817246496677,
      "loss_iou": 0.765625,
      "loss_num": 0.04736328125,
      "loss_xval": 1.765625,
      "num_input_tokens_seen": 115350732,
      "step": 913
    },
    {
      "epoch": 0.23446418264605912,
      "grad_norm": 46.39772033691406,
      "learning_rate": 5e-06,
      "loss": 1.2511,
      "num_input_tokens_seen": 115477568,
      "step": 914
    },
    {
      "epoch": 0.23446418264605912,
      "loss": 1.1894718408584595,
      "loss_ce": 0.0005069676553830504,
      "loss_iou": 0.546875,
      "loss_num": 0.018798828125,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 115477568,
      "step": 914
    },
    {
      "epoch": 0.2347207080100045,
      "grad_norm": 69.56977844238281,
      "learning_rate": 5e-06,
      "loss": 1.2961,
      "num_input_tokens_seen": 115603948,
      "step": 915
    },
    {
      "epoch": 0.2347207080100045,
      "loss": 1.4186091423034668,
      "loss_ce": 0.0016170348972082138,
      "loss_iou": 0.63671875,
      "loss_num": 0.028564453125,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 115603948,
      "step": 915
    },
    {
      "epoch": 0.23497723337394985,
      "grad_norm": 48.43756866455078,
      "learning_rate": 5e-06,
      "loss": 1.473,
      "num_input_tokens_seen": 115729652,
      "step": 916
    },
    {
      "epoch": 0.23497723337394985,
      "loss": 1.5034310817718506,
      "loss_ce": 0.0005014382768422365,
      "loss_iou": 0.69140625,
      "loss_num": 0.024169921875,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 115729652,
      "step": 916
    },
    {
      "epoch": 0.2352337587378952,
      "grad_norm": 42.2809944152832,
      "learning_rate": 5e-06,
      "loss": 1.3071,
      "num_input_tokens_seen": 115856284,
      "step": 917
    },
    {
      "epoch": 0.2352337587378952,
      "loss": 1.4058789014816284,
      "loss_ce": 0.004023452755063772,
      "loss_iou": 0.640625,
      "loss_num": 0.024169921875,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 115856284,
      "step": 917
    },
    {
      "epoch": 0.23549028410184056,
      "grad_norm": 90.25298309326172,
      "learning_rate": 5e-06,
      "loss": 1.3609,
      "num_input_tokens_seen": 115982756,
      "step": 918
    },
    {
      "epoch": 0.23549028410184056,
      "loss": 1.307147741317749,
      "loss_ce": 0.001483615837059915,
      "loss_iou": 0.6015625,
      "loss_num": 0.0206298828125,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 115982756,
      "step": 918
    },
    {
      "epoch": 0.23574680946578594,
      "grad_norm": 47.443450927734375,
      "learning_rate": 5e-06,
      "loss": 1.5922,
      "num_input_tokens_seen": 116109444,
      "step": 919
    },
    {
      "epoch": 0.23574680946578594,
      "loss": 1.695834994316101,
      "loss_ce": 0.002475664485245943,
      "loss_iou": 0.765625,
      "loss_num": 0.0322265625,
      "loss_xval": 1.6953125,
      "num_input_tokens_seen": 116109444,
      "step": 919
    },
    {
      "epoch": 0.2360033348297313,
      "grad_norm": 42.92817687988281,
      "learning_rate": 5e-06,
      "loss": 1.3072,
      "num_input_tokens_seen": 116236084,
      "step": 920
    },
    {
      "epoch": 0.2360033348297313,
      "loss": 1.285005807876587,
      "loss_ce": 0.002779158763587475,
      "loss_iou": 0.578125,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 116236084,
      "step": 920
    },
    {
      "epoch": 0.23625986019367665,
      "grad_norm": 76.16838073730469,
      "learning_rate": 5e-06,
      "loss": 1.3073,
      "num_input_tokens_seen": 116362756,
      "step": 921
    },
    {
      "epoch": 0.23625986019367665,
      "loss": 1.3620072603225708,
      "loss_ce": 0.0016556193586438894,
      "loss_iou": 0.6171875,
      "loss_num": 0.0255126953125,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 116362756,
      "step": 921
    },
    {
      "epoch": 0.236516385557622,
      "grad_norm": 54.23655319213867,
      "learning_rate": 5e-06,
      "loss": 1.4394,
      "num_input_tokens_seen": 116489232,
      "step": 922
    },
    {
      "epoch": 0.236516385557622,
      "loss": 1.398358702659607,
      "loss_ce": 0.0008977807010523975,
      "loss_iou": 0.62890625,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 116489232,
      "step": 922
    },
    {
      "epoch": 0.23677291092156738,
      "grad_norm": 36.16350555419922,
      "learning_rate": 5e-06,
      "loss": 1.2509,
      "num_input_tokens_seen": 116614940,
      "step": 923
    },
    {
      "epoch": 0.23677291092156738,
      "loss": 1.0950191020965576,
      "loss_ce": 0.001757304766215384,
      "loss_iou": 0.5,
      "loss_num": 0.0185546875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 116614940,
      "step": 923
    },
    {
      "epoch": 0.23702943628551273,
      "grad_norm": 51.979312896728516,
      "learning_rate": 5e-06,
      "loss": 1.2015,
      "num_input_tokens_seen": 116740948,
      "step": 924
    },
    {
      "epoch": 0.23702943628551273,
      "loss": 1.086332082748413,
      "loss_ce": 0.002836087252944708,
      "loss_iou": 0.5,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 116740948,
      "step": 924
    },
    {
      "epoch": 0.2372859616494581,
      "grad_norm": 66.16816711425781,
      "learning_rate": 5e-06,
      "loss": 1.4507,
      "num_input_tokens_seen": 116868292,
      "step": 925
    },
    {
      "epoch": 0.2372859616494581,
      "loss": 1.6645116806030273,
      "loss_ce": 0.000449151499196887,
      "loss_iou": 0.7421875,
      "loss_num": 0.03564453125,
      "loss_xval": 1.6640625,
      "num_input_tokens_seen": 116868292,
      "step": 925
    },
    {
      "epoch": 0.23754248701340344,
      "grad_norm": 47.48419952392578,
      "learning_rate": 5e-06,
      "loss": 1.3316,
      "num_input_tokens_seen": 116994520,
      "step": 926
    },
    {
      "epoch": 0.23754248701340344,
      "loss": 1.4684863090515137,
      "loss_ce": 0.0026660198345780373,
      "loss_iou": 0.69140625,
      "loss_num": 0.0159912109375,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 116994520,
      "step": 926
    },
    {
      "epoch": 0.23779901237734882,
      "grad_norm": 71.9028091430664,
      "learning_rate": 5e-06,
      "loss": 1.3373,
      "num_input_tokens_seen": 117120080,
      "step": 927
    },
    {
      "epoch": 0.23779901237734882,
      "loss": 1.224534273147583,
      "loss_ce": 0.00041311001405119896,
      "loss_iou": 0.5703125,
      "loss_num": 0.0167236328125,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 117120080,
      "step": 927
    },
    {
      "epoch": 0.23805553774129418,
      "grad_norm": 73.9217529296875,
      "learning_rate": 5e-06,
      "loss": 1.5309,
      "num_input_tokens_seen": 117246264,
      "step": 928
    },
    {
      "epoch": 0.23805553774129418,
      "loss": 1.2888407707214355,
      "loss_ce": 0.0007549205329269171,
      "loss_iou": 0.59375,
      "loss_num": 0.0205078125,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 117246264,
      "step": 928
    },
    {
      "epoch": 0.23831206310523953,
      "grad_norm": 32.889286041259766,
      "learning_rate": 5e-06,
      "loss": 1.2808,
      "num_input_tokens_seen": 117371752,
      "step": 929
    },
    {
      "epoch": 0.23831206310523953,
      "loss": 1.2564622163772583,
      "loss_ce": 0.0010911113349720836,
      "loss_iou": 0.5703125,
      "loss_num": 0.023193359375,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 117371752,
      "step": 929
    },
    {
      "epoch": 0.23856858846918488,
      "grad_norm": 52.7745475769043,
      "learning_rate": 5e-06,
      "loss": 1.476,
      "num_input_tokens_seen": 117497356,
      "step": 930
    },
    {
      "epoch": 0.23856858846918488,
      "loss": 1.5290281772613525,
      "loss_ce": 0.0011962195858359337,
      "loss_iou": 0.66796875,
      "loss_num": 0.037841796875,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 117497356,
      "step": 930
    },
    {
      "epoch": 0.23882511383313024,
      "grad_norm": 59.719825744628906,
      "learning_rate": 5e-06,
      "loss": 1.3672,
      "num_input_tokens_seen": 117623312,
      "step": 931
    },
    {
      "epoch": 0.23882511383313024,
      "loss": 1.2019193172454834,
      "loss_ce": 0.0007475175079889596,
      "loss_iou": 0.5703125,
      "loss_num": 0.0123291015625,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 117623312,
      "step": 931
    },
    {
      "epoch": 0.23908163919707562,
      "grad_norm": 55.541954040527344,
      "learning_rate": 5e-06,
      "loss": 1.4339,
      "num_input_tokens_seen": 117748572,
      "step": 932
    },
    {
      "epoch": 0.23908163919707562,
      "loss": 1.7328662872314453,
      "loss_ce": 0.0009327193256467581,
      "loss_iou": 0.73828125,
      "loss_num": 0.05126953125,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 117748572,
      "step": 932
    },
    {
      "epoch": 0.23933816456102097,
      "grad_norm": 47.9677734375,
      "learning_rate": 5e-06,
      "loss": 1.2442,
      "num_input_tokens_seen": 117874284,
      "step": 933
    },
    {
      "epoch": 0.23933816456102097,
      "loss": 1.149627685546875,
      "loss_ce": 0.0026551554910838604,
      "loss_iou": 0.53125,
      "loss_num": 0.0162353515625,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 117874284,
      "step": 933
    },
    {
      "epoch": 0.23959468992496633,
      "grad_norm": 63.40522766113281,
      "learning_rate": 5e-06,
      "loss": 1.5597,
      "num_input_tokens_seen": 118000772,
      "step": 934
    },
    {
      "epoch": 0.23959468992496633,
      "loss": 1.7454923391342163,
      "loss_ce": 0.0033048957120627165,
      "loss_iou": 0.78515625,
      "loss_num": 0.0341796875,
      "loss_xval": 1.7421875,
      "num_input_tokens_seen": 118000772,
      "step": 934
    },
    {
      "epoch": 0.23985121528891168,
      "grad_norm": 42.123023986816406,
      "learning_rate": 5e-06,
      "loss": 1.2598,
      "num_input_tokens_seen": 118127868,
      "step": 935
    },
    {
      "epoch": 0.23985121528891168,
      "loss": 1.318880319595337,
      "loss_ce": 0.0014974601799622178,
      "loss_iou": 0.60546875,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 118127868,
      "step": 935
    },
    {
      "epoch": 0.24010774065285706,
      "grad_norm": 28.688692092895508,
      "learning_rate": 5e-06,
      "loss": 1.2384,
      "num_input_tokens_seen": 118255216,
      "step": 936
    },
    {
      "epoch": 0.24010774065285706,
      "loss": 1.2823504209518433,
      "loss_ce": 0.002565225353464484,
      "loss_iou": 0.59765625,
      "loss_num": 0.0166015625,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 118255216,
      "step": 936
    },
    {
      "epoch": 0.2403642660168024,
      "grad_norm": 42.86612319946289,
      "learning_rate": 5e-06,
      "loss": 1.2441,
      "num_input_tokens_seen": 118380976,
      "step": 937
    },
    {
      "epoch": 0.2403642660168024,
      "loss": 1.3592746257781982,
      "loss_ce": 0.0028293065261095762,
      "loss_iou": 0.62109375,
      "loss_num": 0.02294921875,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 118380976,
      "step": 937
    },
    {
      "epoch": 0.24062079138074777,
      "grad_norm": 60.78129577636719,
      "learning_rate": 5e-06,
      "loss": 1.3635,
      "num_input_tokens_seen": 118506612,
      "step": 938
    },
    {
      "epoch": 0.24062079138074777,
      "loss": 1.2826480865478516,
      "loss_ce": 0.0004214321088511497,
      "loss_iou": 0.6015625,
      "loss_num": 0.0166015625,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 118506612,
      "step": 938
    },
    {
      "epoch": 0.24087731674469312,
      "grad_norm": 48.75016403198242,
      "learning_rate": 5e-06,
      "loss": 1.3597,
      "num_input_tokens_seen": 118632592,
      "step": 939
    },
    {
      "epoch": 0.24087731674469312,
      "loss": 1.2833774089813232,
      "loss_ce": 0.0006625246023759246,
      "loss_iou": 0.59765625,
      "loss_num": 0.017333984375,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 118632592,
      "step": 939
    },
    {
      "epoch": 0.2411338421086385,
      "grad_norm": 56.442256927490234,
      "learning_rate": 5e-06,
      "loss": 1.3694,
      "num_input_tokens_seen": 118758636,
      "step": 940
    },
    {
      "epoch": 0.2411338421086385,
      "loss": 1.3086743354797363,
      "loss_ce": 0.0025218899827450514,
      "loss_iou": 0.60546875,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 118758636,
      "step": 940
    },
    {
      "epoch": 0.24139036747258386,
      "grad_norm": 62.21440887451172,
      "learning_rate": 5e-06,
      "loss": 1.5033,
      "num_input_tokens_seen": 118885372,
      "step": 941
    },
    {
      "epoch": 0.24139036747258386,
      "loss": 1.5830628871917725,
      "loss_ce": 0.003961273934692144,
      "loss_iou": 0.69921875,
      "loss_num": 0.037109375,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 118885372,
      "step": 941
    },
    {
      "epoch": 0.2416468928365292,
      "grad_norm": 71.10104370117188,
      "learning_rate": 5e-06,
      "loss": 1.2683,
      "num_input_tokens_seen": 119011208,
      "step": 942
    },
    {
      "epoch": 0.2416468928365292,
      "loss": 1.086031436920166,
      "loss_ce": 0.0005821855738759041,
      "loss_iou": 0.5078125,
      "loss_num": 0.01385498046875,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 119011208,
      "step": 942
    },
    {
      "epoch": 0.24190341820047456,
      "grad_norm": 38.6158561706543,
      "learning_rate": 5e-06,
      "loss": 1.433,
      "num_input_tokens_seen": 119137268,
      "step": 943
    },
    {
      "epoch": 0.24190341820047456,
      "loss": 1.4961329698562622,
      "loss_ce": 0.004922008141875267,
      "loss_iou": 0.66796875,
      "loss_num": 0.03173828125,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 119137268,
      "step": 943
    },
    {
      "epoch": 0.24215994356441994,
      "grad_norm": 36.52344512939453,
      "learning_rate": 5e-06,
      "loss": 1.2291,
      "num_input_tokens_seen": 119263204,
      "step": 944
    },
    {
      "epoch": 0.24215994356441994,
      "loss": 1.370254397392273,
      "loss_ce": 0.002578596817329526,
      "loss_iou": 0.61328125,
      "loss_num": 0.02734375,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 119263204,
      "step": 944
    },
    {
      "epoch": 0.2424164689283653,
      "grad_norm": 44.93699645996094,
      "learning_rate": 5e-06,
      "loss": 1.2546,
      "num_input_tokens_seen": 119389164,
      "step": 945
    },
    {
      "epoch": 0.2424164689283653,
      "loss": 1.325518012046814,
      "loss_ce": 0.0012992597185075283,
      "loss_iou": 0.60546875,
      "loss_num": 0.0220947265625,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 119389164,
      "step": 945
    },
    {
      "epoch": 0.24267299429231065,
      "grad_norm": 88.58002471923828,
      "learning_rate": 5e-06,
      "loss": 1.2912,
      "num_input_tokens_seen": 119515940,
      "step": 946
    },
    {
      "epoch": 0.24267299429231065,
      "loss": 1.2593683004379272,
      "loss_ce": 0.0005792162264697254,
      "loss_iou": 0.58203125,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 119515940,
      "step": 946
    },
    {
      "epoch": 0.242929519656256,
      "grad_norm": 55.316993713378906,
      "learning_rate": 5e-06,
      "loss": 1.454,
      "num_input_tokens_seen": 119642432,
      "step": 947
    },
    {
      "epoch": 0.242929519656256,
      "loss": 1.5239250659942627,
      "loss_ce": 0.0009758782107383013,
      "loss_iou": 0.69140625,
      "loss_num": 0.028564453125,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 119642432,
      "step": 947
    },
    {
      "epoch": 0.24318604502020139,
      "grad_norm": 44.7547607421875,
      "learning_rate": 5e-06,
      "loss": 1.2484,
      "num_input_tokens_seen": 119769392,
      "step": 948
    },
    {
      "epoch": 0.24318604502020139,
      "loss": 1.219508171081543,
      "loss_ce": 0.0017348392866551876,
      "loss_iou": 0.5546875,
      "loss_num": 0.021728515625,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 119769392,
      "step": 948
    },
    {
      "epoch": 0.24344257038414674,
      "grad_norm": 82.32073974609375,
      "learning_rate": 5e-06,
      "loss": 1.2743,
      "num_input_tokens_seen": 119896988,
      "step": 949
    },
    {
      "epoch": 0.24344257038414674,
      "loss": 1.3550242185592651,
      "loss_ce": 0.007367984391748905,
      "loss_iou": 0.6015625,
      "loss_num": 0.0294189453125,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 119896988,
      "step": 949
    },
    {
      "epoch": 0.2436990957480921,
      "grad_norm": 54.977516174316406,
      "learning_rate": 5e-06,
      "loss": 1.3757,
      "num_input_tokens_seen": 120023292,
      "step": 950
    },
    {
      "epoch": 0.2436990957480921,
      "loss": 1.4976322650909424,
      "loss_ce": 0.0005620034644380212,
      "loss_iou": 0.69140625,
      "loss_num": 0.023681640625,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 120023292,
      "step": 950
    },
    {
      "epoch": 0.24395562111203745,
      "grad_norm": 54.648658752441406,
      "learning_rate": 5e-06,
      "loss": 1.1634,
      "num_input_tokens_seen": 120148804,
      "step": 951
    },
    {
      "epoch": 0.24395562111203745,
      "loss": 1.1707106828689575,
      "loss_ce": 0.0037185377441346645,
      "loss_iou": 0.546875,
      "loss_num": 0.01416015625,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 120148804,
      "step": 951
    },
    {
      "epoch": 0.2442121464759828,
      "grad_norm": 38.99605178833008,
      "learning_rate": 5e-06,
      "loss": 1.2874,
      "num_input_tokens_seen": 120275464,
      "step": 952
    },
    {
      "epoch": 0.2442121464759828,
      "loss": 1.1615612506866455,
      "loss_ce": 0.0033580332528799772,
      "loss_iou": 0.52734375,
      "loss_num": 0.020751953125,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 120275464,
      "step": 952
    },
    {
      "epoch": 0.24446867183992818,
      "grad_norm": 91.07843780517578,
      "learning_rate": 5e-06,
      "loss": 1.2769,
      "num_input_tokens_seen": 120401276,
      "step": 953
    },
    {
      "epoch": 0.24446867183992818,
      "loss": 1.0841130018234253,
      "loss_ce": 0.0008610707009211183,
      "loss_iou": 0.515625,
      "loss_num": 0.0103759765625,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 120401276,
      "step": 953
    },
    {
      "epoch": 0.24472519720387353,
      "grad_norm": 46.4586181640625,
      "learning_rate": 5e-06,
      "loss": 1.5765,
      "num_input_tokens_seen": 120527980,
      "step": 954
    },
    {
      "epoch": 0.24472519720387353,
      "loss": 1.7352337837219238,
      "loss_ce": 0.0018354374915361404,
      "loss_iou": 0.78125,
      "loss_num": 0.03369140625,
      "loss_xval": 1.734375,
      "num_input_tokens_seen": 120527980,
      "step": 954
    },
    {
      "epoch": 0.2449817225678189,
      "grad_norm": 58.7501106262207,
      "learning_rate": 5e-06,
      "loss": 1.1938,
      "num_input_tokens_seen": 120653468,
      "step": 955
    },
    {
      "epoch": 0.2449817225678189,
      "loss": 1.2133777141571045,
      "loss_ce": 0.001951937098056078,
      "loss_iou": 0.57421875,
      "loss_num": 0.0130615234375,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 120653468,
      "step": 955
    },
    {
      "epoch": 0.24523824793176424,
      "grad_norm": 71.12825775146484,
      "learning_rate": 5e-06,
      "loss": 1.2856,
      "num_input_tokens_seen": 120780120,
      "step": 956
    },
    {
      "epoch": 0.24523824793176424,
      "loss": 1.3722120523452759,
      "loss_ce": 0.0020948878955096006,
      "loss_iou": 0.61328125,
      "loss_num": 0.0281982421875,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 120780120,
      "step": 956
    },
    {
      "epoch": 0.24549477329570962,
      "grad_norm": 46.739830017089844,
      "learning_rate": 5e-06,
      "loss": 1.2695,
      "num_input_tokens_seen": 120906140,
      "step": 957
    },
    {
      "epoch": 0.24549477329570962,
      "loss": 1.3327444791793823,
      "loss_ce": 0.0012015195097774267,
      "loss_iou": 0.6171875,
      "loss_num": 0.02001953125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 120906140,
      "step": 957
    },
    {
      "epoch": 0.24575129865965498,
      "grad_norm": 45.56647491455078,
      "learning_rate": 5e-06,
      "loss": 1.4023,
      "num_input_tokens_seen": 121031824,
      "step": 958
    },
    {
      "epoch": 0.24575129865965498,
      "loss": 1.650170087814331,
      "loss_ce": 0.0017324851360172033,
      "loss_iou": 0.75,
      "loss_num": 0.029541015625,
      "loss_xval": 1.6484375,
      "num_input_tokens_seen": 121031824,
      "step": 958
    },
    {
      "epoch": 0.24600782402360033,
      "grad_norm": 68.96953582763672,
      "learning_rate": 5e-06,
      "loss": 1.2962,
      "num_input_tokens_seen": 121157420,
      "step": 959
    },
    {
      "epoch": 0.24600782402360033,
      "loss": 1.2955929040908813,
      "loss_ce": 0.0006709928857162595,
      "loss_iou": 0.61328125,
      "loss_num": 0.0133056640625,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 121157420,
      "step": 959
    },
    {
      "epoch": 0.24626434938754568,
      "grad_norm": 50.26723861694336,
      "learning_rate": 5e-06,
      "loss": 1.3148,
      "num_input_tokens_seen": 121282808,
      "step": 960
    },
    {
      "epoch": 0.24626434938754568,
      "loss": 1.5083248615264893,
      "loss_ce": 0.0014888246078044176,
      "loss_iou": 0.6640625,
      "loss_num": 0.035400390625,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 121282808,
      "step": 960
    },
    {
      "epoch": 0.24652087475149106,
      "grad_norm": 45.44943618774414,
      "learning_rate": 5e-06,
      "loss": 1.3118,
      "num_input_tokens_seen": 121408376,
      "step": 961
    },
    {
      "epoch": 0.24652087475149106,
      "loss": 1.2075881958007812,
      "loss_ce": 0.00348653644323349,
      "loss_iou": 0.55859375,
      "loss_num": 0.01708984375,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 121408376,
      "step": 961
    },
    {
      "epoch": 0.24677740011543642,
      "grad_norm": 67.64009857177734,
      "learning_rate": 5e-06,
      "loss": 1.4012,
      "num_input_tokens_seen": 121533060,
      "step": 962
    },
    {
      "epoch": 0.24677740011543642,
      "loss": 1.558396816253662,
      "loss_ce": 0.009080387651920319,
      "loss_iou": 0.66796875,
      "loss_num": 0.042236328125,
      "loss_xval": 1.546875,
      "num_input_tokens_seen": 121533060,
      "step": 962
    },
    {
      "epoch": 0.24703392547938177,
      "grad_norm": 57.97288513183594,
      "learning_rate": 5e-06,
      "loss": 1.29,
      "num_input_tokens_seen": 121659272,
      "step": 963
    },
    {
      "epoch": 0.24703392547938177,
      "loss": 1.2188966274261475,
      "loss_ce": 0.001123210065998137,
      "loss_iou": 0.5625,
      "loss_num": 0.01806640625,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 121659272,
      "step": 963
    },
    {
      "epoch": 0.24729045084332713,
      "grad_norm": 33.57471466064453,
      "learning_rate": 5e-06,
      "loss": 1.3,
      "num_input_tokens_seen": 121784468,
      "step": 964
    },
    {
      "epoch": 0.24729045084332713,
      "loss": 1.1365251541137695,
      "loss_ce": 0.0007830787217244506,
      "loss_iou": 0.5234375,
      "loss_num": 0.017822265625,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 121784468,
      "step": 964
    },
    {
      "epoch": 0.2475469762072725,
      "grad_norm": 57.19917678833008,
      "learning_rate": 5e-06,
      "loss": 1.3693,
      "num_input_tokens_seen": 121910648,
      "step": 965
    },
    {
      "epoch": 0.2475469762072725,
      "loss": 1.361912488937378,
      "loss_ce": 0.002049215603619814,
      "loss_iou": 0.625,
      "loss_num": 0.021240234375,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 121910648,
      "step": 965
    },
    {
      "epoch": 0.24780350157121786,
      "grad_norm": 56.39918518066406,
      "learning_rate": 5e-06,
      "loss": 1.2543,
      "num_input_tokens_seen": 122035936,
      "step": 966
    },
    {
      "epoch": 0.24780350157121786,
      "loss": 1.2416245937347412,
      "loss_ce": 0.001390199875459075,
      "loss_iou": 0.5625,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 122035936,
      "step": 966
    },
    {
      "epoch": 0.2480600269351632,
      "grad_norm": 74.14239501953125,
      "learning_rate": 5e-06,
      "loss": 1.2815,
      "num_input_tokens_seen": 122162752,
      "step": 967
    },
    {
      "epoch": 0.2480600269351632,
      "loss": 1.2067949771881104,
      "loss_ce": 0.000740223447792232,
      "loss_iou": 0.5703125,
      "loss_num": 0.01348876953125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 122162752,
      "step": 967
    },
    {
      "epoch": 0.24831655229910857,
      "grad_norm": 53.837646484375,
      "learning_rate": 5e-06,
      "loss": 1.4405,
      "num_input_tokens_seen": 122289332,
      "step": 968
    },
    {
      "epoch": 0.24831655229910857,
      "loss": 1.4458200931549072,
      "loss_ce": 0.0014841724187135696,
      "loss_iou": 0.66796875,
      "loss_num": 0.021484375,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 122289332,
      "step": 968
    },
    {
      "epoch": 0.24857307766305392,
      "grad_norm": 27.323348999023438,
      "learning_rate": 5e-06,
      "loss": 1.2665,
      "num_input_tokens_seen": 122415016,
      "step": 969
    },
    {
      "epoch": 0.24857307766305392,
      "loss": 1.098299503326416,
      "loss_ce": 0.0011315593728795648,
      "loss_iou": 0.5,
      "loss_num": 0.0196533203125,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 122415016,
      "step": 969
    },
    {
      "epoch": 0.2488296030269993,
      "grad_norm": 44.42942810058594,
      "learning_rate": 5e-06,
      "loss": 1.1851,
      "num_input_tokens_seen": 122541628,
      "step": 970
    },
    {
      "epoch": 0.2488296030269993,
      "loss": 1.0224496126174927,
      "loss_ce": 0.0019417600706219673,
      "loss_iou": 0.48828125,
      "loss_num": 0.008544921875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 122541628,
      "step": 970
    },
    {
      "epoch": 0.24908612839094466,
      "grad_norm": 39.173648834228516,
      "learning_rate": 5e-06,
      "loss": 1.4571,
      "num_input_tokens_seen": 122668516,
      "step": 971
    },
    {
      "epoch": 0.24908612839094466,
      "loss": 1.3417680263519287,
      "loss_ce": 0.00241252314299345,
      "loss_iou": 0.60546875,
      "loss_num": 0.025634765625,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 122668516,
      "step": 971
    },
    {
      "epoch": 0.24934265375489,
      "grad_norm": 50.44733810424805,
      "learning_rate": 5e-06,
      "loss": 1.1845,
      "num_input_tokens_seen": 122793384,
      "step": 972
    },
    {
      "epoch": 0.24934265375489,
      "loss": 1.4358099699020386,
      "loss_ce": 0.002216234803199768,
      "loss_iou": 0.63671875,
      "loss_num": 0.0322265625,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 122793384,
      "step": 972
    },
    {
      "epoch": 0.24959917911883536,
      "grad_norm": 99.62310028076172,
      "learning_rate": 5e-06,
      "loss": 1.4368,
      "num_input_tokens_seen": 122921236,
      "step": 973
    },
    {
      "epoch": 0.24959917911883536,
      "loss": 1.345449447631836,
      "loss_ce": 0.0016994993202388287,
      "loss_iou": 0.63671875,
      "loss_num": 0.01458740234375,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 122921236,
      "step": 973
    },
    {
      "epoch": 0.24985570448278074,
      "grad_norm": 44.25408935546875,
      "learning_rate": 5e-06,
      "loss": 1.39,
      "num_input_tokens_seen": 123046860,
      "step": 974
    },
    {
      "epoch": 0.24985570448278074,
      "loss": 1.536024808883667,
      "loss_ce": 0.001845052931457758,
      "loss_iou": 0.7109375,
      "loss_num": 0.0234375,
      "loss_xval": 1.53125,
      "num_input_tokens_seen": 123046860,
      "step": 974
    },
    {
      "epoch": 0.2501122298467261,
      "grad_norm": 27.052757263183594,
      "learning_rate": 5e-06,
      "loss": 1.3125,
      "num_input_tokens_seen": 123172024,
      "step": 975
    },
    {
      "epoch": 0.2501122298467261,
      "loss": 1.5058351755142212,
      "loss_ce": 0.0019289260962978005,
      "loss_iou": 0.68359375,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.5,
      "num_input_tokens_seen": 123172024,
      "step": 975
    },
    {
      "epoch": 0.2503687552106715,
      "grad_norm": 27.093488693237305,
      "learning_rate": 5e-06,
      "loss": 1.3169,
      "num_input_tokens_seen": 123298276,
      "step": 976
    },
    {
      "epoch": 0.2503687552106715,
      "loss": 1.2444758415222168,
      "loss_ce": 0.0003352178609929979,
      "loss_iou": 0.57421875,
      "loss_num": 0.018798828125,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 123298276,
      "step": 976
    },
    {
      "epoch": 0.2506252805746168,
      "grad_norm": 25.7451229095459,
      "learning_rate": 5e-06,
      "loss": 1.2262,
      "num_input_tokens_seen": 123424800,
      "step": 977
    },
    {
      "epoch": 0.2506252805746168,
      "loss": 1.1199061870574951,
      "loss_ce": 0.004671868868172169,
      "loss_iou": 0.5,
      "loss_num": 0.023193359375,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 123424800,
      "step": 977
    },
    {
      "epoch": 0.2508818059385622,
      "grad_norm": 32.192726135253906,
      "learning_rate": 5e-06,
      "loss": 1.3083,
      "num_input_tokens_seen": 123552064,
      "step": 978
    },
    {
      "epoch": 0.2508818059385622,
      "loss": 1.3389650583267212,
      "loss_ce": 0.0010744095779955387,
      "loss_iou": 0.609375,
      "loss_num": 0.024658203125,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 123552064,
      "step": 978
    },
    {
      "epoch": 0.2511383313025075,
      "grad_norm": 79.4610824584961,
      "learning_rate": 5e-06,
      "loss": 1.3519,
      "num_input_tokens_seen": 123678808,
      "step": 979
    },
    {
      "epoch": 0.2511383313025075,
      "loss": 1.282730221748352,
      "loss_ce": 0.004409873858094215,
      "loss_iou": 0.57421875,
      "loss_num": 0.0257568359375,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 123678808,
      "step": 979
    },
    {
      "epoch": 0.2513948566664529,
      "grad_norm": 125.48126983642578,
      "learning_rate": 5e-06,
      "loss": 1.446,
      "num_input_tokens_seen": 123805344,
      "step": 980
    },
    {
      "epoch": 0.2513948566664529,
      "loss": 1.6013734340667725,
      "loss_ce": 0.0007874965085648,
      "loss_iou": 0.7265625,
      "loss_num": 0.029296875,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 123805344,
      "step": 980
    },
    {
      "epoch": 0.2516513820303983,
      "grad_norm": 40.6495246887207,
      "learning_rate": 5e-06,
      "loss": 1.2314,
      "num_input_tokens_seen": 123931912,
      "step": 981
    },
    {
      "epoch": 0.2516513820303983,
      "loss": 1.3292638063430786,
      "loss_ce": 0.0050450400449335575,
      "loss_iou": 0.59765625,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 123931912,
      "step": 981
    },
    {
      "epoch": 0.2519079073943436,
      "grad_norm": 66.79524230957031,
      "learning_rate": 5e-06,
      "loss": 1.1997,
      "num_input_tokens_seen": 124057364,
      "step": 982
    },
    {
      "epoch": 0.2519079073943436,
      "loss": 1.376494288444519,
      "loss_ce": 0.000517748761922121,
      "loss_iou": 0.640625,
      "loss_num": 0.0196533203125,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 124057364,
      "step": 982
    },
    {
      "epoch": 0.252164432758289,
      "grad_norm": 49.750221252441406,
      "learning_rate": 5e-06,
      "loss": 1.3311,
      "num_input_tokens_seen": 124184436,
      "step": 983
    },
    {
      "epoch": 0.252164432758289,
      "loss": 1.2988307476043701,
      "loss_ce": 0.0009791739284992218,
      "loss_iou": 0.60546875,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 124184436,
      "step": 983
    },
    {
      "epoch": 0.25242095812223436,
      "grad_norm": 53.73994064331055,
      "learning_rate": 5e-06,
      "loss": 1.1984,
      "num_input_tokens_seen": 124311700,
      "step": 984
    },
    {
      "epoch": 0.25242095812223436,
      "loss": 1.344632625579834,
      "loss_ce": 0.0033241058699786663,
      "loss_iou": 0.61328125,
      "loss_num": 0.022705078125,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 124311700,
      "step": 984
    },
    {
      "epoch": 0.2526774834861797,
      "grad_norm": 69.63384246826172,
      "learning_rate": 5e-06,
      "loss": 1.3606,
      "num_input_tokens_seen": 124438252,
      "step": 985
    },
    {
      "epoch": 0.2526774834861797,
      "loss": 1.2934606075286865,
      "loss_ce": 0.0004919215571135283,
      "loss_iou": 0.60546875,
      "loss_num": 0.01611328125,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 124438252,
      "step": 985
    },
    {
      "epoch": 0.25293400885012507,
      "grad_norm": 86.85189056396484,
      "learning_rate": 5e-06,
      "loss": 1.3455,
      "num_input_tokens_seen": 124564672,
      "step": 986
    },
    {
      "epoch": 0.25293400885012507,
      "loss": 1.2548818588256836,
      "loss_ce": 0.0024404507130384445,
      "loss_iou": 0.58203125,
      "loss_num": 0.017578125,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 124564672,
      "step": 986
    },
    {
      "epoch": 0.2531905342140704,
      "grad_norm": 49.68449401855469,
      "learning_rate": 5e-06,
      "loss": 1.4144,
      "num_input_tokens_seen": 124690052,
      "step": 987
    },
    {
      "epoch": 0.2531905342140704,
      "loss": 1.5087974071502686,
      "loss_ce": 0.0004966843407601118,
      "loss_iou": 0.703125,
      "loss_num": 0.0206298828125,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 124690052,
      "step": 987
    },
    {
      "epoch": 0.2534470595780158,
      "grad_norm": 34.75070571899414,
      "learning_rate": 5e-06,
      "loss": 1.1187,
      "num_input_tokens_seen": 124816300,
      "step": 988
    },
    {
      "epoch": 0.2534470595780158,
      "loss": 1.171462893486023,
      "loss_ce": 0.0015410316409543157,
      "loss_iou": 0.546875,
      "loss_num": 0.01544189453125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 124816300,
      "step": 988
    },
    {
      "epoch": 0.25370358494196116,
      "grad_norm": 39.807132720947266,
      "learning_rate": 5e-06,
      "loss": 1.2715,
      "num_input_tokens_seen": 124942248,
      "step": 989
    },
    {
      "epoch": 0.25370358494196116,
      "loss": 1.301980972290039,
      "loss_ce": 0.001199742779135704,
      "loss_iou": 0.58203125,
      "loss_num": 0.027099609375,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 124942248,
      "step": 989
    },
    {
      "epoch": 0.2539601103059065,
      "grad_norm": 94.57109832763672,
      "learning_rate": 5e-06,
      "loss": 1.3081,
      "num_input_tokens_seen": 125068868,
      "step": 990
    },
    {
      "epoch": 0.2539601103059065,
      "loss": 1.2548375129699707,
      "loss_ce": 0.00434919586405158,
      "loss_iou": 0.58203125,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 125068868,
      "step": 990
    },
    {
      "epoch": 0.25421663566985186,
      "grad_norm": 52.12382125854492,
      "learning_rate": 5e-06,
      "loss": 1.6295,
      "num_input_tokens_seen": 125196324,
      "step": 991
    },
    {
      "epoch": 0.25421663566985186,
      "loss": 1.6332857608795166,
      "loss_ce": 0.0029146838933229446,
      "loss_iou": 0.71484375,
      "loss_num": 0.0400390625,
      "loss_xval": 1.6328125,
      "num_input_tokens_seen": 125196324,
      "step": 991
    },
    {
      "epoch": 0.2544731610337972,
      "grad_norm": 46.503604888916016,
      "learning_rate": 5e-06,
      "loss": 1.2065,
      "num_input_tokens_seen": 125323060,
      "step": 992
    },
    {
      "epoch": 0.2544731610337972,
      "loss": 1.2035973072052002,
      "loss_ce": 0.0009604988154023886,
      "loss_iou": 0.5625,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 125323060,
      "step": 992
    },
    {
      "epoch": 0.25472968639774257,
      "grad_norm": 97.95872497558594,
      "learning_rate": 5e-06,
      "loss": 1.2779,
      "num_input_tokens_seen": 125450492,
      "step": 993
    },
    {
      "epoch": 0.25472968639774257,
      "loss": 1.2648959159851074,
      "loss_ce": 0.0012240895302966237,
      "loss_iou": 0.5859375,
      "loss_num": 0.017578125,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 125450492,
      "step": 993
    },
    {
      "epoch": 0.25498621176168795,
      "grad_norm": 51.53623580932617,
      "learning_rate": 5e-06,
      "loss": 1.5197,
      "num_input_tokens_seen": 125576772,
      "step": 994
    },
    {
      "epoch": 0.25498621176168795,
      "loss": 1.4663052558898926,
      "loss_ce": 0.003414657199755311,
      "loss_iou": 0.65234375,
      "loss_num": 0.031982421875,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 125576772,
      "step": 994
    },
    {
      "epoch": 0.2552427371256333,
      "grad_norm": 51.15315628051758,
      "learning_rate": 5e-06,
      "loss": 1.2115,
      "num_input_tokens_seen": 125704808,
      "step": 995
    },
    {
      "epoch": 0.2552427371256333,
      "loss": 1.2527072429656982,
      "loss_ce": 0.0027072362136095762,
      "loss_iou": 0.5625,
      "loss_num": 0.024658203125,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 125704808,
      "step": 995
    },
    {
      "epoch": 0.25549926248957866,
      "grad_norm": 62.99626541137695,
      "learning_rate": 5e-06,
      "loss": 1.2732,
      "num_input_tokens_seen": 125831036,
      "step": 996
    },
    {
      "epoch": 0.25549926248957866,
      "loss": 1.3592969179153442,
      "loss_ce": 0.0008985073654912412,
      "loss_iou": 0.61328125,
      "loss_num": 0.0263671875,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 125831036,
      "step": 996
    },
    {
      "epoch": 0.25575578785352404,
      "grad_norm": 58.747352600097656,
      "learning_rate": 5e-06,
      "loss": 1.3329,
      "num_input_tokens_seen": 125956336,
      "step": 997
    },
    {
      "epoch": 0.25575578785352404,
      "loss": 1.351613998413086,
      "loss_ce": 0.0005398673238232732,
      "loss_iou": 0.6328125,
      "loss_num": 0.01708984375,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 125956336,
      "step": 997
    },
    {
      "epoch": 0.25601231321746937,
      "grad_norm": 73.60084533691406,
      "learning_rate": 5e-06,
      "loss": 1.2211,
      "num_input_tokens_seen": 126083664,
      "step": 998
    },
    {
      "epoch": 0.25601231321746937,
      "loss": 1.1863772869110107,
      "loss_ce": 0.0022953087463974953,
      "loss_iou": 0.5625,
      "loss_num": 0.01226806640625,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 126083664,
      "step": 998
    },
    {
      "epoch": 0.25626883858141475,
      "grad_norm": 65.99295043945312,
      "learning_rate": 5e-06,
      "loss": 1.3937,
      "num_input_tokens_seen": 126210400,
      "step": 999
    },
    {
      "epoch": 0.25626883858141475,
      "loss": 1.3085553646087646,
      "loss_ce": 0.0019147041020914912,
      "loss_iou": 0.60546875,
      "loss_num": 0.019775390625,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 126210400,
      "step": 999
    },
    {
      "epoch": 0.2565253639453601,
      "grad_norm": 63.51201248168945,
      "learning_rate": 5e-06,
      "loss": 1.1075,
      "num_input_tokens_seen": 126337192,
      "step": 1000
    },
    {
      "epoch": 0.2565253639453601,
      "eval_icons_CIoU": 0.032705364137655124,
      "eval_icons_GIoU": 0.00907462788745761,
      "eval_icons_IoU": 0.20075911283493042,
      "eval_icons_MAE_all": 0.04811485670506954,
      "eval_icons_MAE_h": 0.06917825900018215,
      "eval_icons_MAE_w": 0.05737338587641716,
      "eval_icons_MAE_x_boxes": 0.05596754886209965,
      "eval_icons_MAE_y_boxes": 0.06130226328969002,
      "eval_icons_NUM_probability": 0.9998932778835297,
      "eval_icons_inside_bbox": 0.4444444477558136,
      "eval_icons_loss": 2.1861820220947266,
      "eval_icons_loss_ce": 0.0005034492714912631,
      "eval_icons_loss_iou": 0.982177734375,
      "eval_icons_loss_num": 0.05434417724609375,
      "eval_icons_loss_xval": 2.236328125,
      "eval_icons_runtime": 40.0599,
      "eval_icons_samples_per_second": 1.248,
      "eval_icons_steps_per_second": 0.05,
      "num_input_tokens_seen": 126337192,
      "step": 1000
    },
    {
      "epoch": 0.2565253639453601,
      "eval_screenspot_CIoU": 0.055625010281801224,
      "eval_screenspot_GIoU": 0.03979986781875292,
      "eval_screenspot_IoU": 0.23322050273418427,
      "eval_screenspot_MAE_all": 0.09227462112903595,
      "eval_screenspot_MAE_h": 0.08019755035638809,
      "eval_screenspot_MAE_w": 0.14348072310288748,
      "eval_screenspot_MAE_x_boxes": 0.12140942613283794,
      "eval_screenspot_MAE_y_boxes": 0.060147623221079506,
      "eval_screenspot_NUM_probability": 0.9997183680534363,
      "eval_screenspot_inside_bbox": 0.5808333357175192,
      "eval_screenspot_loss": 2.426804780960083,
      "eval_screenspot_loss_ce": 0.004263625790675481,
      "eval_screenspot_loss_iou": 0.9866536458333334,
      "eval_screenspot_loss_num": 0.099456787109375,
      "eval_screenspot_loss_xval": 2.4697265625,
      "eval_screenspot_runtime": 69.7969,
      "eval_screenspot_samples_per_second": 1.275,
      "eval_screenspot_steps_per_second": 0.043,
      "num_input_tokens_seen": 126337192,
      "step": 1000
    },
    {
      "epoch": 0.2565253639453601,
      "loss": 2.402255058288574,
      "loss_ce": 0.004794216249138117,
      "loss_iou": 0.96484375,
      "loss_num": 0.09375,
      "loss_xval": 2.390625,
      "num_input_tokens_seen": 126337192,
      "step": 1000
    },
    {
      "epoch": 0.25678188930930546,
      "grad_norm": 55.844486236572266,
      "learning_rate": 5e-06,
      "loss": 1.2759,
      "num_input_tokens_seen": 126464160,
      "step": 1001
    },
    {
      "epoch": 0.25678188930930546,
      "loss": 1.3171335458755493,
      "loss_ce": 0.0012154907453805208,
      "loss_iou": 0.6171875,
      "loss_num": 0.0162353515625,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 126464160,
      "step": 1001
    },
    {
      "epoch": 0.25703841467325084,
      "grad_norm": 45.67885208129883,
      "learning_rate": 5e-06,
      "loss": 1.2447,
      "num_input_tokens_seen": 126591800,
      "step": 1002
    },
    {
      "epoch": 0.25703841467325084,
      "loss": 1.1347100734710693,
      "loss_ce": 0.003850785316899419,
      "loss_iou": 0.53125,
      "loss_num": 0.01373291015625,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 126591800,
      "step": 1002
    },
    {
      "epoch": 0.25729494003719616,
      "grad_norm": 57.108516693115234,
      "learning_rate": 5e-06,
      "loss": 1.2229,
      "num_input_tokens_seen": 126717780,
      "step": 1003
    },
    {
      "epoch": 0.25729494003719616,
      "loss": 1.2947362661361694,
      "loss_ce": 0.0022558211348950863,
      "loss_iou": 0.6015625,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 126717780,
      "step": 1003
    },
    {
      "epoch": 0.25755146540114154,
      "grad_norm": 72.79289245605469,
      "learning_rate": 5e-06,
      "loss": 1.3143,
      "num_input_tokens_seen": 126843928,
      "step": 1004
    },
    {
      "epoch": 0.25755146540114154,
      "loss": 1.1645861864089966,
      "loss_ce": 0.0029651043005287647,
      "loss_iou": 0.53125,
      "loss_num": 0.0198974609375,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 126843928,
      "step": 1004
    },
    {
      "epoch": 0.2578079907650869,
      "grad_norm": 48.55360412597656,
      "learning_rate": 5e-06,
      "loss": 1.2307,
      "num_input_tokens_seen": 126969760,
      "step": 1005
    },
    {
      "epoch": 0.2578079907650869,
      "loss": 1.1613202095031738,
      "loss_ce": 0.001652223989367485,
      "loss_iou": 0.546875,
      "loss_num": 0.0135498046875,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 126969760,
      "step": 1005
    },
    {
      "epoch": 0.25806451612903225,
      "grad_norm": 39.73745346069336,
      "learning_rate": 5e-06,
      "loss": 1.2469,
      "num_input_tokens_seen": 127095808,
      "step": 1006
    },
    {
      "epoch": 0.25806451612903225,
      "loss": 1.1495115756988525,
      "loss_ce": 0.004980337806046009,
      "loss_iou": 0.53125,
      "loss_num": 0.01544189453125,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 127095808,
      "step": 1006
    },
    {
      "epoch": 0.25832104149297763,
      "grad_norm": 61.037940979003906,
      "learning_rate": 5e-06,
      "loss": 1.2476,
      "num_input_tokens_seen": 127222216,
      "step": 1007
    },
    {
      "epoch": 0.25832104149297763,
      "loss": 1.2334895133972168,
      "loss_ce": 0.0020442106761038303,
      "loss_iou": 0.5625,
      "loss_num": 0.021240234375,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 127222216,
      "step": 1007
    },
    {
      "epoch": 0.25857756685692296,
      "grad_norm": 100.94872283935547,
      "learning_rate": 5e-06,
      "loss": 1.3536,
      "num_input_tokens_seen": 127347404,
      "step": 1008
    },
    {
      "epoch": 0.25857756685692296,
      "loss": 1.270337700843811,
      "loss_ce": 0.0008063868153840303,
      "loss_iou": 0.6015625,
      "loss_num": 0.01287841796875,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 127347404,
      "step": 1008
    },
    {
      "epoch": 0.25883409222086834,
      "grad_norm": 47.56733322143555,
      "learning_rate": 5e-06,
      "loss": 1.4476,
      "num_input_tokens_seen": 127474420,
      "step": 1009
    },
    {
      "epoch": 0.25883409222086834,
      "loss": 1.4321798086166382,
      "loss_ce": 0.00444543082267046,
      "loss_iou": 0.65234375,
      "loss_num": 0.024169921875,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 127474420,
      "step": 1009
    },
    {
      "epoch": 0.2590906175848137,
      "grad_norm": 43.912471771240234,
      "learning_rate": 5e-06,
      "loss": 1.3266,
      "num_input_tokens_seen": 127599912,
      "step": 1010
    },
    {
      "epoch": 0.2590906175848137,
      "loss": 1.28582763671875,
      "loss_ce": 0.0006713857874274254,
      "loss_iou": 0.58984375,
      "loss_num": 0.02099609375,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 127599912,
      "step": 1010
    },
    {
      "epoch": 0.25934714294875905,
      "grad_norm": 66.23969268798828,
      "learning_rate": 5e-06,
      "loss": 1.263,
      "num_input_tokens_seen": 127725616,
      "step": 1011
    },
    {
      "epoch": 0.25934714294875905,
      "loss": 1.6872084140777588,
      "loss_ce": 0.005567763466387987,
      "loss_iou": 0.75,
      "loss_num": 0.035888671875,
      "loss_xval": 1.6796875,
      "num_input_tokens_seen": 127725616,
      "step": 1011
    },
    {
      "epoch": 0.2596036683127044,
      "grad_norm": 101.87751007080078,
      "learning_rate": 5e-06,
      "loss": 1.341,
      "num_input_tokens_seen": 127852428,
      "step": 1012
    },
    {
      "epoch": 0.2596036683127044,
      "loss": 1.2209150791168213,
      "loss_ce": 0.0011885600397363305,
      "loss_iou": 0.578125,
      "loss_num": 0.01263427734375,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 127852428,
      "step": 1012
    },
    {
      "epoch": 0.25986019367664975,
      "grad_norm": 62.691001892089844,
      "learning_rate": 5e-06,
      "loss": 1.1843,
      "num_input_tokens_seen": 127978196,
      "step": 1013
    },
    {
      "epoch": 0.25986019367664975,
      "loss": 1.383500337600708,
      "loss_ce": 0.0011762167559936643,
      "loss_iou": 0.6484375,
      "loss_num": 0.0177001953125,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 127978196,
      "step": 1013
    },
    {
      "epoch": 0.26011671904059513,
      "grad_norm": 60.69166946411133,
      "learning_rate": 5e-06,
      "loss": 1.283,
      "num_input_tokens_seen": 128105336,
      "step": 1014
    },
    {
      "epoch": 0.26011671904059513,
      "loss": 1.2083415985107422,
      "loss_ce": 0.0022868672385811806,
      "loss_iou": 0.5546875,
      "loss_num": 0.01953125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 128105336,
      "step": 1014
    },
    {
      "epoch": 0.2603732444045405,
      "grad_norm": 50.688777923583984,
      "learning_rate": 5e-06,
      "loss": 1.1484,
      "num_input_tokens_seen": 128232736,
      "step": 1015
    },
    {
      "epoch": 0.2603732444045405,
      "loss": 1.2321969270706177,
      "loss_ce": 0.0017282064072787762,
      "loss_iou": 0.578125,
      "loss_num": 0.0146484375,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 128232736,
      "step": 1015
    },
    {
      "epoch": 0.26062976976848584,
      "grad_norm": 53.34419250488281,
      "learning_rate": 5e-06,
      "loss": 1.4511,
      "num_input_tokens_seen": 128358808,
      "step": 1016
    },
    {
      "epoch": 0.26062976976848584,
      "loss": 1.482530117034912,
      "loss_ce": 0.002549730706959963,
      "loss_iou": 0.6640625,
      "loss_num": 0.030517578125,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 128358808,
      "step": 1016
    },
    {
      "epoch": 0.2608862951324312,
      "grad_norm": 90.92627716064453,
      "learning_rate": 5e-06,
      "loss": 1.2111,
      "num_input_tokens_seen": 128486032,
      "step": 1017
    },
    {
      "epoch": 0.2608862951324312,
      "loss": 1.52119779586792,
      "loss_ce": 0.0016665400471538305,
      "loss_iou": 0.69140625,
      "loss_num": 0.027099609375,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 128486032,
      "step": 1017
    },
    {
      "epoch": 0.2611428204963766,
      "grad_norm": 48.63761901855469,
      "learning_rate": 5e-06,
      "loss": 1.4479,
      "num_input_tokens_seen": 128612872,
      "step": 1018
    },
    {
      "epoch": 0.2611428204963766,
      "loss": 1.4284875392913818,
      "loss_ce": 0.0027062473818659782,
      "loss_iou": 0.66015625,
      "loss_num": 0.0205078125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 128612872,
      "step": 1018
    },
    {
      "epoch": 0.26139934586032193,
      "grad_norm": 42.32113265991211,
      "learning_rate": 5e-06,
      "loss": 1.224,
      "num_input_tokens_seen": 128739220,
      "step": 1019
    },
    {
      "epoch": 0.26139934586032193,
      "loss": 1.2114202976226807,
      "loss_ce": 0.000971091038081795,
      "loss_iou": 0.5546875,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 128739220,
      "step": 1019
    },
    {
      "epoch": 0.2616558712242673,
      "grad_norm": 40.7111930847168,
      "learning_rate": 5e-06,
      "loss": 1.1924,
      "num_input_tokens_seen": 128865440,
      "step": 1020
    },
    {
      "epoch": 0.2616558712242673,
      "loss": 1.2764580249786377,
      "loss_ce": 0.00155562290456146,
      "loss_iou": 0.5859375,
      "loss_num": 0.021484375,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 128865440,
      "step": 1020
    },
    {
      "epoch": 0.26191239658821264,
      "grad_norm": 56.98155975341797,
      "learning_rate": 5e-06,
      "loss": 1.2776,
      "num_input_tokens_seen": 128992080,
      "step": 1021
    },
    {
      "epoch": 0.26191239658821264,
      "loss": 1.4043059349060059,
      "loss_ce": 0.00342700257897377,
      "loss_iou": 0.62890625,
      "loss_num": 0.028076171875,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 128992080,
      "step": 1021
    },
    {
      "epoch": 0.262168921952158,
      "grad_norm": 105.88673400878906,
      "learning_rate": 5e-06,
      "loss": 1.221,
      "num_input_tokens_seen": 129118688,
      "step": 1022
    },
    {
      "epoch": 0.262168921952158,
      "loss": 1.2894915342330933,
      "loss_ce": 0.00042905122973024845,
      "loss_iou": 0.60546875,
      "loss_num": 0.0159912109375,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 129118688,
      "step": 1022
    },
    {
      "epoch": 0.2624254473161034,
      "grad_norm": 49.67167663574219,
      "learning_rate": 5e-06,
      "loss": 1.4915,
      "num_input_tokens_seen": 129244420,
      "step": 1023
    },
    {
      "epoch": 0.2624254473161034,
      "loss": 1.45267653465271,
      "loss_ce": 0.0015046806074678898,
      "loss_iou": 0.6640625,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 129244420,
      "step": 1023
    },
    {
      "epoch": 0.2626819726800487,
      "grad_norm": 41.57627487182617,
      "learning_rate": 5e-06,
      "loss": 1.2404,
      "num_input_tokens_seen": 129371116,
      "step": 1024
    },
    {
      "epoch": 0.2626819726800487,
      "loss": 1.3135251998901367,
      "loss_ce": 0.003954818472266197,
      "loss_iou": 0.6015625,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 129371116,
      "step": 1024
    },
    {
      "epoch": 0.2629384980439941,
      "grad_norm": 31.635560989379883,
      "learning_rate": 5e-06,
      "loss": 1.2988,
      "num_input_tokens_seen": 129496056,
      "step": 1025
    },
    {
      "epoch": 0.2629384980439941,
      "loss": 1.3994765281677246,
      "loss_ce": 0.0010389585513621569,
      "loss_iou": 0.640625,
      "loss_num": 0.02392578125,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 129496056,
      "step": 1025
    },
    {
      "epoch": 0.26319502340793943,
      "grad_norm": 47.00706100463867,
      "learning_rate": 5e-06,
      "loss": 1.2076,
      "num_input_tokens_seen": 129622292,
      "step": 1026
    },
    {
      "epoch": 0.26319502340793943,
      "loss": 1.229444146156311,
      "loss_ce": 0.001416836166754365,
      "loss_iou": 0.5703125,
      "loss_num": 0.0167236328125,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 129622292,
      "step": 1026
    },
    {
      "epoch": 0.2634515487718848,
      "grad_norm": 45.9785041809082,
      "learning_rate": 5e-06,
      "loss": 1.3464,
      "num_input_tokens_seen": 129748956,
      "step": 1027
    },
    {
      "epoch": 0.2634515487718848,
      "loss": 1.226797342300415,
      "loss_ce": 0.0031646140851080418,
      "loss_iou": 0.5703125,
      "loss_num": 0.017333984375,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 129748956,
      "step": 1027
    },
    {
      "epoch": 0.2637080741358302,
      "grad_norm": 31.860580444335938,
      "learning_rate": 5e-06,
      "loss": 1.2139,
      "num_input_tokens_seen": 129874492,
      "step": 1028
    },
    {
      "epoch": 0.2637080741358302,
      "loss": 1.2348079681396484,
      "loss_ce": 0.0018977585714310408,
      "loss_iou": 0.546875,
      "loss_num": 0.02734375,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 129874492,
      "step": 1028
    },
    {
      "epoch": 0.2639645994997755,
      "grad_norm": 33.097957611083984,
      "learning_rate": 5e-06,
      "loss": 1.2068,
      "num_input_tokens_seen": 130002316,
      "step": 1029
    },
    {
      "epoch": 0.2639645994997755,
      "loss": 1.255366325378418,
      "loss_ce": 0.0009717341745272279,
      "loss_iou": 0.57421875,
      "loss_num": 0.021484375,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 130002316,
      "step": 1029
    },
    {
      "epoch": 0.2642211248637209,
      "grad_norm": 42.16763687133789,
      "learning_rate": 5e-06,
      "loss": 1.4607,
      "num_input_tokens_seen": 130129460,
      "step": 1030
    },
    {
      "epoch": 0.2642211248637209,
      "loss": 1.6399447917938232,
      "loss_ce": 0.0012729273876175284,
      "loss_iou": 0.73046875,
      "loss_num": 0.03515625,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 130129460,
      "step": 1030
    },
    {
      "epoch": 0.2644776502276663,
      "grad_norm": 69.86314392089844,
      "learning_rate": 5e-06,
      "loss": 1.2289,
      "num_input_tokens_seen": 130256732,
      "step": 1031
    },
    {
      "epoch": 0.2644776502276663,
      "loss": 1.2357208728790283,
      "loss_ce": 0.0008575776591897011,
      "loss_iou": 0.58203125,
      "loss_num": 0.0147705078125,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 130256732,
      "step": 1031
    },
    {
      "epoch": 0.2647341755916116,
      "grad_norm": 46.19670486450195,
      "learning_rate": 5e-06,
      "loss": 1.3814,
      "num_input_tokens_seen": 130384096,
      "step": 1032
    },
    {
      "epoch": 0.2647341755916116,
      "loss": 1.1509019136428833,
      "loss_ce": 0.003440987318754196,
      "loss_iou": 0.53125,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 130384096,
      "step": 1032
    },
    {
      "epoch": 0.264990700955557,
      "grad_norm": 34.3622932434082,
      "learning_rate": 5e-06,
      "loss": 1.2134,
      "num_input_tokens_seen": 130510592,
      "step": 1033
    },
    {
      "epoch": 0.264990700955557,
      "loss": 1.2414436340332031,
      "loss_ce": 0.003650777041912079,
      "loss_iou": 0.56640625,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 130510592,
      "step": 1033
    },
    {
      "epoch": 0.2652472263195023,
      "grad_norm": 60.838165283203125,
      "learning_rate": 5e-06,
      "loss": 1.2733,
      "num_input_tokens_seen": 130637568,
      "step": 1034
    },
    {
      "epoch": 0.2652472263195023,
      "loss": 1.2846837043762207,
      "loss_ce": 0.0014805427053943276,
      "loss_iou": 0.58203125,
      "loss_num": 0.0233154296875,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 130637568,
      "step": 1034
    },
    {
      "epoch": 0.2655037516834477,
      "grad_norm": 75.01587677001953,
      "learning_rate": 5e-06,
      "loss": 1.3325,
      "num_input_tokens_seen": 130764788,
      "step": 1035
    },
    {
      "epoch": 0.2655037516834477,
      "loss": 1.5811057090759277,
      "loss_ce": 0.0015158930327743292,
      "loss_iou": 0.7265625,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.578125,
      "num_input_tokens_seen": 130764788,
      "step": 1035
    },
    {
      "epoch": 0.2657602770473931,
      "grad_norm": 56.5657958984375,
      "learning_rate": 5e-06,
      "loss": 1.3726,
      "num_input_tokens_seen": 130890324,
      "step": 1036
    },
    {
      "epoch": 0.2657602770473931,
      "loss": 1.3378958702087402,
      "loss_ce": 0.0029348793905228376,
      "loss_iou": 0.62109375,
      "loss_num": 0.01806640625,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 130890324,
      "step": 1036
    },
    {
      "epoch": 0.2660168024113384,
      "grad_norm": 65.49407958984375,
      "learning_rate": 5e-06,
      "loss": 1.2119,
      "num_input_tokens_seen": 131016512,
      "step": 1037
    },
    {
      "epoch": 0.2660168024113384,
      "loss": 1.1522557735443115,
      "loss_ce": 0.00235351687297225,
      "loss_iou": 0.5234375,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 131016512,
      "step": 1037
    },
    {
      "epoch": 0.2662733277752838,
      "grad_norm": 60.1034049987793,
      "learning_rate": 5e-06,
      "loss": 1.3162,
      "num_input_tokens_seen": 131142776,
      "step": 1038
    },
    {
      "epoch": 0.2662733277752838,
      "loss": 1.3400213718414307,
      "loss_ce": 0.0031073412392288446,
      "loss_iou": 0.6171875,
      "loss_num": 0.0196533203125,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 131142776,
      "step": 1038
    },
    {
      "epoch": 0.26652985313922917,
      "grad_norm": 46.14387130737305,
      "learning_rate": 5e-06,
      "loss": 1.2992,
      "num_input_tokens_seen": 131269484,
      "step": 1039
    },
    {
      "epoch": 0.26652985313922917,
      "loss": 1.2884949445724487,
      "loss_ce": 0.0004090270376764238,
      "loss_iou": 0.5703125,
      "loss_num": 0.02880859375,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 131269484,
      "step": 1039
    },
    {
      "epoch": 0.2667863785031745,
      "grad_norm": 49.07207489013672,
      "learning_rate": 5e-06,
      "loss": 1.3384,
      "num_input_tokens_seen": 131394924,
      "step": 1040
    },
    {
      "epoch": 0.2667863785031745,
      "loss": 1.2980718612670898,
      "loss_ce": 0.0051031168550252914,
      "loss_iou": 0.58984375,
      "loss_num": 0.022216796875,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 131394924,
      "step": 1040
    },
    {
      "epoch": 0.2670429038671199,
      "grad_norm": 69.40968322753906,
      "learning_rate": 5e-06,
      "loss": 1.2356,
      "num_input_tokens_seen": 131521488,
      "step": 1041
    },
    {
      "epoch": 0.2670429038671199,
      "loss": 1.3211698532104492,
      "loss_ce": 0.0023221999872475863,
      "loss_iou": 0.59375,
      "loss_num": 0.02587890625,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 131521488,
      "step": 1041
    },
    {
      "epoch": 0.2672994292310652,
      "grad_norm": 62.381099700927734,
      "learning_rate": 5e-06,
      "loss": 1.4408,
      "num_input_tokens_seen": 131647368,
      "step": 1042
    },
    {
      "epoch": 0.2672994292310652,
      "loss": 1.3574647903442383,
      "loss_ce": 0.0010194622445851564,
      "loss_iou": 0.6328125,
      "loss_num": 0.017578125,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 131647368,
      "step": 1042
    },
    {
      "epoch": 0.2675559545950106,
      "grad_norm": 33.51759338378906,
      "learning_rate": 5e-06,
      "loss": 1.2418,
      "num_input_tokens_seen": 131774324,
      "step": 1043
    },
    {
      "epoch": 0.2675559545950106,
      "loss": 1.0886719226837158,
      "loss_ce": 0.002246186137199402,
      "loss_iou": 0.515625,
      "loss_num": 0.010986328125,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 131774324,
      "step": 1043
    },
    {
      "epoch": 0.26781247995895596,
      "grad_norm": 29.24509048461914,
      "learning_rate": 5e-06,
      "loss": 1.3292,
      "num_input_tokens_seen": 131900236,
      "step": 1044
    },
    {
      "epoch": 0.26781247995895596,
      "loss": 1.5134367942810059,
      "loss_ce": 0.0036712924484163523,
      "loss_iou": 0.6640625,
      "loss_num": 0.0361328125,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 131900236,
      "step": 1044
    },
    {
      "epoch": 0.2680690053229013,
      "grad_norm": 30.52443504333496,
      "learning_rate": 5e-06,
      "loss": 1.264,
      "num_input_tokens_seen": 132026948,
      "step": 1045
    },
    {
      "epoch": 0.2680690053229013,
      "loss": 1.2478322982788086,
      "loss_ce": 0.0007619146490469575,
      "loss_iou": 0.5703125,
      "loss_num": 0.020263671875,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 132026948,
      "step": 1045
    },
    {
      "epoch": 0.26832553068684667,
      "grad_norm": 49.36771011352539,
      "learning_rate": 5e-06,
      "loss": 1.0959,
      "num_input_tokens_seen": 132152808,
      "step": 1046
    },
    {
      "epoch": 0.26832553068684667,
      "loss": 1.0932854413986206,
      "loss_ce": 0.00148856732994318,
      "loss_iou": 0.50390625,
      "loss_num": 0.01708984375,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 132152808,
      "step": 1046
    },
    {
      "epoch": 0.268582056050792,
      "grad_norm": 68.7695541381836,
      "learning_rate": 5e-06,
      "loss": 1.1856,
      "num_input_tokens_seen": 132279328,
      "step": 1047
    },
    {
      "epoch": 0.268582056050792,
      "loss": 1.1976566314697266,
      "loss_ce": 0.0028323503211140633,
      "loss_iou": 0.546875,
      "loss_num": 0.02099609375,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 132279328,
      "step": 1047
    },
    {
      "epoch": 0.2688385814147374,
      "grad_norm": 48.63533401489258,
      "learning_rate": 5e-06,
      "loss": 1.2704,
      "num_input_tokens_seen": 132405632,
      "step": 1048
    },
    {
      "epoch": 0.2688385814147374,
      "loss": 1.372565507888794,
      "loss_ce": 0.0019600000232458115,
      "loss_iou": 0.62109375,
      "loss_num": 0.026123046875,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 132405632,
      "step": 1048
    },
    {
      "epoch": 0.26909510677868276,
      "grad_norm": 39.54453659057617,
      "learning_rate": 5e-06,
      "loss": 1.2722,
      "num_input_tokens_seen": 132531328,
      "step": 1049
    },
    {
      "epoch": 0.26909510677868276,
      "loss": 1.2236113548278809,
      "loss_ce": 0.00046687384019605815,
      "loss_iou": 0.5703125,
      "loss_num": 0.01708984375,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 132531328,
      "step": 1049
    },
    {
      "epoch": 0.2693516321426281,
      "grad_norm": 86.25248718261719,
      "learning_rate": 5e-06,
      "loss": 1.1899,
      "num_input_tokens_seen": 132657956,
      "step": 1050
    },
    {
      "epoch": 0.2693516321426281,
      "loss": 1.4041413068771362,
      "loss_ce": 0.0022858367301523685,
      "loss_iou": 0.63671875,
      "loss_num": 0.0263671875,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 132657956,
      "step": 1050
    },
    {
      "epoch": 0.26960815750657346,
      "grad_norm": 51.75539779663086,
      "learning_rate": 5e-06,
      "loss": 1.3092,
      "num_input_tokens_seen": 132784104,
      "step": 1051
    },
    {
      "epoch": 0.26960815750657346,
      "loss": 1.2126885652542114,
      "loss_ce": 0.00175106234382838,
      "loss_iou": 0.5625,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 132784104,
      "step": 1051
    },
    {
      "epoch": 0.26986468287051885,
      "grad_norm": 37.408103942871094,
      "learning_rate": 5e-06,
      "loss": 1.2988,
      "num_input_tokens_seen": 132910352,
      "step": 1052
    },
    {
      "epoch": 0.26986468287051885,
      "loss": 1.1763677597045898,
      "loss_ce": 0.0025397029239684343,
      "loss_iou": 0.54296875,
      "loss_num": 0.01806640625,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 132910352,
      "step": 1052
    },
    {
      "epoch": 0.27012120823446417,
      "grad_norm": 62.1556282043457,
      "learning_rate": 5e-06,
      "loss": 1.2572,
      "num_input_tokens_seen": 133035072,
      "step": 1053
    },
    {
      "epoch": 0.27012120823446417,
      "loss": 1.4323375225067139,
      "loss_ce": 0.0021617719903588295,
      "loss_iou": 0.65234375,
      "loss_num": 0.0247802734375,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 133035072,
      "step": 1053
    },
    {
      "epoch": 0.27037773359840955,
      "grad_norm": 45.63850402832031,
      "learning_rate": 5e-06,
      "loss": 1.3859,
      "num_input_tokens_seen": 133160464,
      "step": 1054
    },
    {
      "epoch": 0.27037773359840955,
      "loss": 1.195845365524292,
      "loss_ce": 0.0015095099806785583,
      "loss_iou": 0.5625,
      "loss_num": 0.013671875,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 133160464,
      "step": 1054
    },
    {
      "epoch": 0.2706342589623549,
      "grad_norm": 41.18147659301758,
      "learning_rate": 5e-06,
      "loss": 1.2209,
      "num_input_tokens_seen": 133288020,
      "step": 1055
    },
    {
      "epoch": 0.2706342589623549,
      "loss": 1.3176836967468262,
      "loss_ce": 0.0032306499779224396,
      "loss_iou": 0.58984375,
      "loss_num": 0.02734375,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 133288020,
      "step": 1055
    },
    {
      "epoch": 0.27089078432630026,
      "grad_norm": 50.79869842529297,
      "learning_rate": 5e-06,
      "loss": 1.1388,
      "num_input_tokens_seen": 133413576,
      "step": 1056
    },
    {
      "epoch": 0.27089078432630026,
      "loss": 0.915912389755249,
      "loss_ce": 0.004291311837732792,
      "loss_iou": 0.43359375,
      "loss_num": 0.00897216796875,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 133413576,
      "step": 1056
    },
    {
      "epoch": 0.27114730969024564,
      "grad_norm": 96.04622650146484,
      "learning_rate": 5e-06,
      "loss": 1.2823,
      "num_input_tokens_seen": 133540000,
      "step": 1057
    },
    {
      "epoch": 0.27114730969024564,
      "loss": 1.3846828937530518,
      "loss_ce": 0.000893853313755244,
      "loss_iou": 0.640625,
      "loss_num": 0.020751953125,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 133540000,
      "step": 1057
    },
    {
      "epoch": 0.27140383505419097,
      "grad_norm": 51.8017692565918,
      "learning_rate": 5e-06,
      "loss": 1.4073,
      "num_input_tokens_seen": 133666436,
      "step": 1058
    },
    {
      "epoch": 0.27140383505419097,
      "loss": 1.3004405498504639,
      "loss_ce": 0.0016124380053952336,
      "loss_iou": 0.6015625,
      "loss_num": 0.01904296875,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 133666436,
      "step": 1058
    },
    {
      "epoch": 0.27166036041813635,
      "grad_norm": 97.17811584472656,
      "learning_rate": 5e-06,
      "loss": 1.3045,
      "num_input_tokens_seen": 133794124,
      "step": 1059
    },
    {
      "epoch": 0.27166036041813635,
      "loss": 1.475234866142273,
      "loss_ce": 0.0055083176121115685,
      "loss_iou": 0.65625,
      "loss_num": 0.031982421875,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 133794124,
      "step": 1059
    },
    {
      "epoch": 0.27191688578208173,
      "grad_norm": 42.714324951171875,
      "learning_rate": 5e-06,
      "loss": 1.3787,
      "num_input_tokens_seen": 133919596,
      "step": 1060
    },
    {
      "epoch": 0.27191688578208173,
      "loss": 1.4620192050933838,
      "loss_ce": 0.006941142957657576,
      "loss_iou": 0.62109375,
      "loss_num": 0.041748046875,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 133919596,
      "step": 1060
    },
    {
      "epoch": 0.27217341114602706,
      "grad_norm": 55.97426223754883,
      "learning_rate": 5e-06,
      "loss": 1.1557,
      "num_input_tokens_seen": 134046724,
      "step": 1061
    },
    {
      "epoch": 0.27217341114602706,
      "loss": 1.1047406196594238,
      "loss_ce": 0.000736708811018616,
      "loss_iou": 0.515625,
      "loss_num": 0.01397705078125,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 134046724,
      "step": 1061
    },
    {
      "epoch": 0.27242993650997244,
      "grad_norm": 83.4716567993164,
      "learning_rate": 5e-06,
      "loss": 1.2447,
      "num_input_tokens_seen": 134172652,
      "step": 1062
    },
    {
      "epoch": 0.27242993650997244,
      "loss": 1.1544345617294312,
      "loss_ce": 0.0011141583090648055,
      "loss_iou": 0.5546875,
      "loss_num": 0.0084228515625,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 134172652,
      "step": 1062
    },
    {
      "epoch": 0.27268646187391776,
      "grad_norm": 59.71430206298828,
      "learning_rate": 5e-06,
      "loss": 1.4993,
      "num_input_tokens_seen": 134298568,
      "step": 1063
    },
    {
      "epoch": 0.27268646187391776,
      "loss": 1.4713773727416992,
      "loss_ce": 0.0016507022082805634,
      "loss_iou": 0.671875,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 134298568,
      "step": 1063
    },
    {
      "epoch": 0.27294298723786314,
      "grad_norm": 37.27223587036133,
      "learning_rate": 5e-06,
      "loss": 1.1524,
      "num_input_tokens_seen": 134425084,
      "step": 1064
    },
    {
      "epoch": 0.27294298723786314,
      "loss": 1.1787223815917969,
      "loss_ce": 0.003917615860700607,
      "loss_iou": 0.53515625,
      "loss_num": 0.021484375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 134425084,
      "step": 1064
    },
    {
      "epoch": 0.2731995126018085,
      "grad_norm": 309.0400085449219,
      "learning_rate": 5e-06,
      "loss": 1.2624,
      "num_input_tokens_seen": 134551044,
      "step": 1065
    },
    {
      "epoch": 0.2731995126018085,
      "loss": 1.3719955682754517,
      "loss_ce": 0.00334329716861248,
      "loss_iou": 0.6015625,
      "loss_num": 0.03271484375,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 134551044,
      "step": 1065
    },
    {
      "epoch": 0.27345603796575385,
      "grad_norm": 45.84564971923828,
      "learning_rate": 5e-06,
      "loss": 1.3777,
      "num_input_tokens_seen": 134677040,
      "step": 1066
    },
    {
      "epoch": 0.27345603796575385,
      "loss": 1.4574038982391357,
      "loss_ce": 0.0033023571595549583,
      "loss_iou": 0.65625,
      "loss_num": 0.0286865234375,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 134677040,
      "step": 1066
    },
    {
      "epoch": 0.27371256332969923,
      "grad_norm": 33.84761047363281,
      "learning_rate": 5e-06,
      "loss": 1.2885,
      "num_input_tokens_seen": 134803988,
      "step": 1067
    },
    {
      "epoch": 0.27371256332969923,
      "loss": 1.4272708892822266,
      "loss_ce": 0.0034428443759679794,
      "loss_iou": 0.64453125,
      "loss_num": 0.0272216796875,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 134803988,
      "step": 1067
    },
    {
      "epoch": 0.27396908869364456,
      "grad_norm": 53.4254035949707,
      "learning_rate": 5e-06,
      "loss": 1.1761,
      "num_input_tokens_seen": 134930216,
      "step": 1068
    },
    {
      "epoch": 0.27396908869364456,
      "loss": 1.1296992301940918,
      "loss_ce": 0.0051875123754143715,
      "loss_iou": 0.51171875,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 134930216,
      "step": 1068
    },
    {
      "epoch": 0.27422561405758994,
      "grad_norm": 57.68470764160156,
      "learning_rate": 5e-06,
      "loss": 1.2964,
      "num_input_tokens_seen": 135056488,
      "step": 1069
    },
    {
      "epoch": 0.27422561405758994,
      "loss": 1.1420822143554688,
      "loss_ce": 0.0009689350845292211,
      "loss_iou": 0.5390625,
      "loss_num": 0.01263427734375,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 135056488,
      "step": 1069
    },
    {
      "epoch": 0.2744821394215353,
      "grad_norm": 58.063533782958984,
      "learning_rate": 5e-06,
      "loss": 1.3148,
      "num_input_tokens_seen": 135182740,
      "step": 1070
    },
    {
      "epoch": 0.2744821394215353,
      "loss": 1.2003554105758667,
      "loss_ce": 0.0006484282203018665,
      "loss_iou": 0.546875,
      "loss_num": 0.021484375,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 135182740,
      "step": 1070
    },
    {
      "epoch": 0.27473866478548065,
      "grad_norm": 40.253231048583984,
      "learning_rate": 5e-06,
      "loss": 1.168,
      "num_input_tokens_seen": 135309212,
      "step": 1071
    },
    {
      "epoch": 0.27473866478548065,
      "loss": 0.9352540969848633,
      "loss_ce": 0.0006838029366917908,
      "loss_iou": 0.447265625,
      "loss_num": 0.00762939453125,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 135309212,
      "step": 1071
    },
    {
      "epoch": 0.274995190149426,
      "grad_norm": 29.102542877197266,
      "learning_rate": 5e-06,
      "loss": 1.2006,
      "num_input_tokens_seen": 135434872,
      "step": 1072
    },
    {
      "epoch": 0.274995190149426,
      "loss": 1.1460816860198975,
      "loss_ce": 0.004968361463397741,
      "loss_iou": 0.5234375,
      "loss_num": 0.01904296875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 135434872,
      "step": 1072
    },
    {
      "epoch": 0.2752517155133714,
      "grad_norm": 33.12941360473633,
      "learning_rate": 5e-06,
      "loss": 1.2288,
      "num_input_tokens_seen": 135560144,
      "step": 1073
    },
    {
      "epoch": 0.2752517155133714,
      "loss": 1.0685393810272217,
      "loss_ce": 0.0021331259049475193,
      "loss_iou": 0.498046875,
      "loss_num": 0.0137939453125,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 135560144,
      "step": 1073
    },
    {
      "epoch": 0.27550824087731673,
      "grad_norm": 58.799983978271484,
      "learning_rate": 5e-06,
      "loss": 1.211,
      "num_input_tokens_seen": 135685508,
      "step": 1074
    },
    {
      "epoch": 0.27550824087731673,
      "loss": 1.2964286804199219,
      "loss_ce": 0.0005302400095388293,
      "loss_iou": 0.57421875,
      "loss_num": 0.0302734375,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 135685508,
      "step": 1074
    },
    {
      "epoch": 0.2757647662412621,
      "grad_norm": 50.245750427246094,
      "learning_rate": 5e-06,
      "loss": 1.3273,
      "num_input_tokens_seen": 135810768,
      "step": 1075
    },
    {
      "epoch": 0.2757647662412621,
      "loss": 1.228405237197876,
      "loss_ce": 0.0003778300597332418,
      "loss_iou": 0.5703125,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 135810768,
      "step": 1075
    },
    {
      "epoch": 0.27602129160520744,
      "grad_norm": 59.07404708862305,
      "learning_rate": 5e-06,
      "loss": 1.0873,
      "num_input_tokens_seen": 135936388,
      "step": 1076
    },
    {
      "epoch": 0.27602129160520744,
      "loss": 1.1728357076644897,
      "loss_ce": 0.002913873177021742,
      "loss_iou": 0.53125,
      "loss_num": 0.020751953125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 135936388,
      "step": 1076
    },
    {
      "epoch": 0.2762778169691528,
      "grad_norm": 65.16525268554688,
      "learning_rate": 5e-06,
      "loss": 1.2797,
      "num_input_tokens_seen": 136063064,
      "step": 1077
    },
    {
      "epoch": 0.2762778169691528,
      "loss": 1.1645512580871582,
      "loss_ce": 0.0014653787948191166,
      "loss_iou": 0.546875,
      "loss_num": 0.01416015625,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 136063064,
      "step": 1077
    },
    {
      "epoch": 0.2765343423330982,
      "grad_norm": 80.04695129394531,
      "learning_rate": 5e-06,
      "loss": 1.3239,
      "num_input_tokens_seen": 136189152,
      "step": 1078
    },
    {
      "epoch": 0.2765343423330982,
      "loss": 1.3317536115646362,
      "loss_ce": 0.0011872241739183664,
      "loss_iou": 0.6171875,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 136189152,
      "step": 1078
    },
    {
      "epoch": 0.27679086769704353,
      "grad_norm": 50.646881103515625,
      "learning_rate": 5e-06,
      "loss": 1.4159,
      "num_input_tokens_seen": 136315196,
      "step": 1079
    },
    {
      "epoch": 0.27679086769704353,
      "loss": 1.313291311264038,
      "loss_ce": 0.0017678868025541306,
      "loss_iou": 0.6015625,
      "loss_num": 0.021240234375,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 136315196,
      "step": 1079
    },
    {
      "epoch": 0.2770473930609889,
      "grad_norm": 41.17940902709961,
      "learning_rate": 5e-06,
      "loss": 1.1995,
      "num_input_tokens_seen": 136441200,
      "step": 1080
    },
    {
      "epoch": 0.2770473930609889,
      "loss": 1.3864386081695557,
      "loss_ce": 0.0016729463823139668,
      "loss_iou": 0.62109375,
      "loss_num": 0.028076171875,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 136441200,
      "step": 1080
    },
    {
      "epoch": 0.2773039184249343,
      "grad_norm": 63.218284606933594,
      "learning_rate": 5e-06,
      "loss": 1.2256,
      "num_input_tokens_seen": 136567820,
      "step": 1081
    },
    {
      "epoch": 0.2773039184249343,
      "loss": 1.1540316343307495,
      "loss_ce": 0.0011996570974588394,
      "loss_iou": 0.5390625,
      "loss_num": 0.01434326171875,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 136567820,
      "step": 1081
    },
    {
      "epoch": 0.2775604437888796,
      "grad_norm": 44.97651290893555,
      "learning_rate": 5e-06,
      "loss": 1.3834,
      "num_input_tokens_seen": 136694116,
      "step": 1082
    },
    {
      "epoch": 0.2775604437888796,
      "loss": 1.5719619989395142,
      "loss_ce": 0.0016495055751875043,
      "loss_iou": 0.7109375,
      "loss_num": 0.02978515625,
      "loss_xval": 1.5703125,
      "num_input_tokens_seen": 136694116,
      "step": 1082
    },
    {
      "epoch": 0.277816969152825,
      "grad_norm": 38.5687141418457,
      "learning_rate": 5e-06,
      "loss": 1.257,
      "num_input_tokens_seen": 136821120,
      "step": 1083
    },
    {
      "epoch": 0.277816969152825,
      "loss": 1.264225721359253,
      "loss_ce": 0.0015304363332688808,
      "loss_iou": 0.57421875,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 136821120,
      "step": 1083
    },
    {
      "epoch": 0.2780734945167703,
      "grad_norm": 64.35529327392578,
      "learning_rate": 5e-06,
      "loss": 1.2705,
      "num_input_tokens_seen": 136947864,
      "step": 1084
    },
    {
      "epoch": 0.2780734945167703,
      "loss": 1.4071338176727295,
      "loss_ce": 0.0013721134746447206,
      "loss_iou": 0.640625,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 136947864,
      "step": 1084
    },
    {
      "epoch": 0.2783300198807157,
      "grad_norm": 97.09880065917969,
      "learning_rate": 5e-06,
      "loss": 1.2925,
      "num_input_tokens_seen": 137074204,
      "step": 1085
    },
    {
      "epoch": 0.2783300198807157,
      "loss": 1.3714444637298584,
      "loss_ce": 0.001815575873479247,
      "loss_iou": 0.640625,
      "loss_num": 0.016845703125,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 137074204,
      "step": 1085
    },
    {
      "epoch": 0.2785865452446611,
      "grad_norm": 55.953330993652344,
      "learning_rate": 5e-06,
      "loss": 1.5124,
      "num_input_tokens_seen": 137201344,
      "step": 1086
    },
    {
      "epoch": 0.2785865452446611,
      "loss": 1.605802297592163,
      "loss_ce": 0.007169452495872974,
      "loss_iou": 0.7265625,
      "loss_num": 0.029296875,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 137201344,
      "step": 1086
    },
    {
      "epoch": 0.2788430706086064,
      "grad_norm": 36.58639907836914,
      "learning_rate": 5e-06,
      "loss": 1.1374,
      "num_input_tokens_seen": 137327984,
      "step": 1087
    },
    {
      "epoch": 0.2788430706086064,
      "loss": 1.151187777519226,
      "loss_ce": 0.000308868387946859,
      "loss_iou": 0.53125,
      "loss_num": 0.018310546875,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 137327984,
      "step": 1087
    },
    {
      "epoch": 0.2790995959725518,
      "grad_norm": 95.76270294189453,
      "learning_rate": 5e-06,
      "loss": 1.222,
      "num_input_tokens_seen": 137454048,
      "step": 1088
    },
    {
      "epoch": 0.2790995959725518,
      "loss": 1.0204031467437744,
      "loss_ce": 0.0013602841645479202,
      "loss_iou": 0.48046875,
      "loss_num": 0.011962890625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 137454048,
      "step": 1088
    },
    {
      "epoch": 0.2793561213364971,
      "grad_norm": 43.06173324584961,
      "learning_rate": 5e-06,
      "loss": 1.4906,
      "num_input_tokens_seen": 137579224,
      "step": 1089
    },
    {
      "epoch": 0.2793561213364971,
      "loss": 1.40779709815979,
      "loss_ce": 0.0005705608637072146,
      "loss_iou": 0.6484375,
      "loss_num": 0.022705078125,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 137579224,
      "step": 1089
    },
    {
      "epoch": 0.2796126467004425,
      "grad_norm": 54.673946380615234,
      "learning_rate": 5e-06,
      "loss": 1.1841,
      "num_input_tokens_seen": 137705504,
      "step": 1090
    },
    {
      "epoch": 0.2796126467004425,
      "loss": 1.2519553899765015,
      "loss_ce": 0.0009788633324205875,
      "loss_iou": 0.5625,
      "loss_num": 0.025390625,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 137705504,
      "step": 1090
    },
    {
      "epoch": 0.2798691720643879,
      "grad_norm": 64.4017333984375,
      "learning_rate": 5e-06,
      "loss": 1.264,
      "num_input_tokens_seen": 137831860,
      "step": 1091
    },
    {
      "epoch": 0.2798691720643879,
      "loss": 1.4295732975006104,
      "loss_ce": 0.003792070783674717,
      "loss_iou": 0.6328125,
      "loss_num": 0.032470703125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 137831860,
      "step": 1091
    },
    {
      "epoch": 0.2801256974283332,
      "grad_norm": 58.19264221191406,
      "learning_rate": 5e-06,
      "loss": 1.2806,
      "num_input_tokens_seen": 137958396,
      "step": 1092
    },
    {
      "epoch": 0.2801256974283332,
      "loss": 1.3535892963409424,
      "loss_ce": 0.004468244034796953,
      "loss_iou": 0.6171875,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 137958396,
      "step": 1092
    },
    {
      "epoch": 0.2803822227922786,
      "grad_norm": 60.08560562133789,
      "learning_rate": 5e-06,
      "loss": 1.3366,
      "num_input_tokens_seen": 138084144,
      "step": 1093
    },
    {
      "epoch": 0.2803822227922786,
      "loss": 1.3057148456573486,
      "loss_ce": 0.001515679177828133,
      "loss_iou": 0.5859375,
      "loss_num": 0.0274658203125,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 138084144,
      "step": 1093
    },
    {
      "epoch": 0.28063874815622397,
      "grad_norm": 55.45512008666992,
      "learning_rate": 5e-06,
      "loss": 1.2998,
      "num_input_tokens_seen": 138210384,
      "step": 1094
    },
    {
      "epoch": 0.28063874815622397,
      "loss": 1.3557074069976807,
      "loss_ce": 0.005121408496052027,
      "loss_iou": 0.6171875,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 138210384,
      "step": 1094
    },
    {
      "epoch": 0.2808952735201693,
      "grad_norm": 74.07839965820312,
      "learning_rate": 5e-06,
      "loss": 1.2429,
      "num_input_tokens_seen": 138336428,
      "step": 1095
    },
    {
      "epoch": 0.2808952735201693,
      "loss": 0.9496305584907532,
      "loss_ce": 0.001388395787216723,
      "loss_iou": 0.447265625,
      "loss_num": 0.0107421875,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 138336428,
      "step": 1095
    },
    {
      "epoch": 0.2811517988841147,
      "grad_norm": 41.5804328918457,
      "learning_rate": 5e-06,
      "loss": 1.2335,
      "num_input_tokens_seen": 138462532,
      "step": 1096
    },
    {
      "epoch": 0.2811517988841147,
      "loss": 1.0138120651245117,
      "loss_ce": 0.0016050919657573104,
      "loss_iou": 0.482421875,
      "loss_num": 0.00970458984375,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 138462532,
      "step": 1096
    },
    {
      "epoch": 0.28140832424806,
      "grad_norm": 49.26521301269531,
      "learning_rate": 5e-06,
      "loss": 1.2488,
      "num_input_tokens_seen": 138589176,
      "step": 1097
    },
    {
      "epoch": 0.28140832424806,
      "loss": 1.2082653045654297,
      "loss_ce": 0.0007457744795829058,
      "loss_iou": 0.5625,
      "loss_num": 0.0162353515625,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 138589176,
      "step": 1097
    },
    {
      "epoch": 0.2816648496120054,
      "grad_norm": 52.77206802368164,
      "learning_rate": 5e-06,
      "loss": 1.2299,
      "num_input_tokens_seen": 138715688,
      "step": 1098
    },
    {
      "epoch": 0.2816648496120054,
      "loss": 1.4201366901397705,
      "loss_ce": 0.002167979720979929,
      "loss_iou": 0.640625,
      "loss_num": 0.0283203125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 138715688,
      "step": 1098
    },
    {
      "epoch": 0.28192137497595077,
      "grad_norm": 77.12232971191406,
      "learning_rate": 5e-06,
      "loss": 1.2996,
      "num_input_tokens_seen": 138842000,
      "step": 1099
    },
    {
      "epoch": 0.28192137497595077,
      "loss": 1.2699027061462402,
      "loss_ce": 0.00037145998794585466,
      "loss_iou": 0.59375,
      "loss_num": 0.0155029296875,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 138842000,
      "step": 1099
    },
    {
      "epoch": 0.2821779003398961,
      "grad_norm": 45.3622932434082,
      "learning_rate": 5e-06,
      "loss": 1.528,
      "num_input_tokens_seen": 138968668,
      "step": 1100
    },
    {
      "epoch": 0.2821779003398961,
      "loss": 1.4429421424865723,
      "loss_ce": 0.003488954622298479,
      "loss_iou": 0.62890625,
      "loss_num": 0.036865234375,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 138968668,
      "step": 1100
    },
    {
      "epoch": 0.2824344257038415,
      "grad_norm": 29.01014518737793,
      "learning_rate": 5e-06,
      "loss": 1.198,
      "num_input_tokens_seen": 139095400,
      "step": 1101
    },
    {
      "epoch": 0.2824344257038415,
      "loss": 1.2425529956817627,
      "loss_ce": 0.0008538025431334972,
      "loss_iou": 0.57421875,
      "loss_num": 0.0185546875,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 139095400,
      "step": 1101
    },
    {
      "epoch": 0.2826909510677868,
      "grad_norm": 85.55681610107422,
      "learning_rate": 5e-06,
      "loss": 1.2397,
      "num_input_tokens_seen": 139221972,
      "step": 1102
    },
    {
      "epoch": 0.2826909510677868,
      "loss": 1.255582332611084,
      "loss_ce": 0.0002112557995133102,
      "loss_iou": 0.5859375,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 139221972,
      "step": 1102
    },
    {
      "epoch": 0.2829474764317322,
      "grad_norm": 46.68386459350586,
      "learning_rate": 5e-06,
      "loss": 1.2331,
      "num_input_tokens_seen": 139347548,
      "step": 1103
    },
    {
      "epoch": 0.2829474764317322,
      "loss": 1.0226609706878662,
      "loss_ce": 0.0011765200179070234,
      "loss_iou": 0.484375,
      "loss_num": 0.0101318359375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 139347548,
      "step": 1103
    },
    {
      "epoch": 0.28320400179567756,
      "grad_norm": 46.64775085449219,
      "learning_rate": 5e-06,
      "loss": 1.278,
      "num_input_tokens_seen": 139474564,
      "step": 1104
    },
    {
      "epoch": 0.28320400179567756,
      "loss": 1.0733956098556519,
      "loss_ce": 0.0016182640101760626,
      "loss_iou": 0.49609375,
      "loss_num": 0.01611328125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 139474564,
      "step": 1104
    },
    {
      "epoch": 0.2834605271596229,
      "grad_norm": 77.18077850341797,
      "learning_rate": 5e-06,
      "loss": 1.1651,
      "num_input_tokens_seen": 139600820,
      "step": 1105
    },
    {
      "epoch": 0.2834605271596229,
      "loss": 1.2335973978042603,
      "loss_ce": 0.0016637819353491068,
      "loss_iou": 0.578125,
      "loss_num": 0.0146484375,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 139600820,
      "step": 1105
    },
    {
      "epoch": 0.28371705252356827,
      "grad_norm": 93.04711151123047,
      "learning_rate": 5e-06,
      "loss": 1.4364,
      "num_input_tokens_seen": 139727796,
      "step": 1106
    },
    {
      "epoch": 0.28371705252356827,
      "loss": 1.4401211738586426,
      "loss_ce": 0.0016446657245978713,
      "loss_iou": 0.6796875,
      "loss_num": 0.01611328125,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 139727796,
      "step": 1106
    },
    {
      "epoch": 0.28397357788751365,
      "grad_norm": 50.19260787963867,
      "learning_rate": 5e-06,
      "loss": 1.435,
      "num_input_tokens_seen": 139853136,
      "step": 1107
    },
    {
      "epoch": 0.28397357788751365,
      "loss": 1.6265079975128174,
      "loss_ce": 0.0010196957737207413,
      "loss_iou": 0.71484375,
      "loss_num": 0.03857421875,
      "loss_xval": 1.625,
      "num_input_tokens_seen": 139853136,
      "step": 1107
    },
    {
      "epoch": 0.284230103251459,
      "grad_norm": 42.54955291748047,
      "learning_rate": 5e-06,
      "loss": 1.1976,
      "num_input_tokens_seen": 139978512,
      "step": 1108
    },
    {
      "epoch": 0.284230103251459,
      "loss": 1.3604955673217773,
      "loss_ce": 0.0016088446136564016,
      "loss_iou": 0.62109375,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 139978512,
      "step": 1108
    },
    {
      "epoch": 0.28448662861540436,
      "grad_norm": 39.10788345336914,
      "learning_rate": 5e-06,
      "loss": 1.3309,
      "num_input_tokens_seen": 140104844,
      "step": 1109
    },
    {
      "epoch": 0.28448662861540436,
      "loss": 1.2154850959777832,
      "loss_ce": 0.0021060993894934654,
      "loss_iou": 0.5546875,
      "loss_num": 0.021240234375,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 140104844,
      "step": 1109
    },
    {
      "epoch": 0.2847431539793497,
      "grad_norm": 67.5004653930664,
      "learning_rate": 5e-06,
      "loss": 1.0534,
      "num_input_tokens_seen": 140231780,
      "step": 1110
    },
    {
      "epoch": 0.2847431539793497,
      "loss": 1.0767313241958618,
      "loss_ce": 0.0010477215982973576,
      "loss_iou": 0.5078125,
      "loss_num": 0.01251220703125,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 140231780,
      "step": 1110
    },
    {
      "epoch": 0.28499967934329506,
      "grad_norm": 51.003082275390625,
      "learning_rate": 5e-06,
      "loss": 1.2674,
      "num_input_tokens_seen": 140358788,
      "step": 1111
    },
    {
      "epoch": 0.28499967934329506,
      "loss": 1.2544225454330444,
      "loss_ce": 0.0005163264577277005,
      "loss_iou": 0.58203125,
      "loss_num": 0.0184326171875,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 140358788,
      "step": 1111
    },
    {
      "epoch": 0.28525620470724045,
      "grad_norm": 37.769744873046875,
      "learning_rate": 5e-06,
      "loss": 1.2052,
      "num_input_tokens_seen": 140484732,
      "step": 1112
    },
    {
      "epoch": 0.28525620470724045,
      "loss": 1.061718225479126,
      "loss_ce": 0.0011713991407305002,
      "loss_iou": 0.494140625,
      "loss_num": 0.014404296875,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 140484732,
      "step": 1112
    },
    {
      "epoch": 0.28551273007118577,
      "grad_norm": 73.70709991455078,
      "learning_rate": 5e-06,
      "loss": 1.2858,
      "num_input_tokens_seen": 140612348,
      "step": 1113
    },
    {
      "epoch": 0.28551273007118577,
      "loss": 1.2977383136749268,
      "loss_ce": 0.0008633724064566195,
      "loss_iou": 0.58984375,
      "loss_num": 0.02392578125,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 140612348,
      "step": 1113
    },
    {
      "epoch": 0.28576925543513115,
      "grad_norm": 51.17510986328125,
      "learning_rate": 5e-06,
      "loss": 1.2756,
      "num_input_tokens_seen": 140740380,
      "step": 1114
    },
    {
      "epoch": 0.28576925543513115,
      "loss": 1.1061838865280151,
      "loss_ce": 0.0002268622483825311,
      "loss_iou": 0.51953125,
      "loss_num": 0.013671875,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 140740380,
      "step": 1114
    },
    {
      "epoch": 0.28602578079907653,
      "grad_norm": 48.37740707397461,
      "learning_rate": 5e-06,
      "loss": 1.1408,
      "num_input_tokens_seen": 140865964,
      "step": 1115
    },
    {
      "epoch": 0.28602578079907653,
      "loss": 1.0648736953735352,
      "loss_ce": 0.0009088230435736477,
      "loss_iou": 0.50390625,
      "loss_num": 0.0106201171875,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 140865964,
      "step": 1115
    },
    {
      "epoch": 0.28628230616302186,
      "grad_norm": 101.02828979492188,
      "learning_rate": 5e-06,
      "loss": 1.1716,
      "num_input_tokens_seen": 140991344,
      "step": 1116
    },
    {
      "epoch": 0.28628230616302186,
      "loss": 1.2777376174926758,
      "loss_ce": 0.0023468981962651014,
      "loss_iou": 0.59765625,
      "loss_num": 0.0166015625,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 140991344,
      "step": 1116
    },
    {
      "epoch": 0.28653883152696724,
      "grad_norm": 47.552711486816406,
      "learning_rate": 5e-06,
      "loss": 1.5314,
      "num_input_tokens_seen": 141116896,
      "step": 1117
    },
    {
      "epoch": 0.28653883152696724,
      "loss": 1.601276159286499,
      "loss_ce": 0.0006901403539814055,
      "loss_iou": 0.7265625,
      "loss_num": 0.0296630859375,
      "loss_xval": 1.6015625,
      "num_input_tokens_seen": 141116896,
      "step": 1117
    },
    {
      "epoch": 0.28679535689091257,
      "grad_norm": 55.222965240478516,
      "learning_rate": 5e-06,
      "loss": 1.2246,
      "num_input_tokens_seen": 141244176,
      "step": 1118
    },
    {
      "epoch": 0.28679535689091257,
      "loss": 1.2745847702026367,
      "loss_ce": 0.002612141892313957,
      "loss_iou": 0.578125,
      "loss_num": 0.0233154296875,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 141244176,
      "step": 1118
    },
    {
      "epoch": 0.28705188225485795,
      "grad_norm": 39.03237533569336,
      "learning_rate": 5e-06,
      "loss": 1.1479,
      "num_input_tokens_seen": 141369744,
      "step": 1119
    },
    {
      "epoch": 0.28705188225485795,
      "loss": 1.0725948810577393,
      "loss_ce": 0.0008174998802132905,
      "loss_iou": 0.50390625,
      "loss_num": 0.0128173828125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 141369744,
      "step": 1119
    },
    {
      "epoch": 0.28730840761880333,
      "grad_norm": 54.887474060058594,
      "learning_rate": 5e-06,
      "loss": 1.2659,
      "num_input_tokens_seen": 141495936,
      "step": 1120
    },
    {
      "epoch": 0.28730840761880333,
      "loss": 1.343334674835205,
      "loss_ce": 0.005932284519076347,
      "loss_iou": 0.6171875,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 141495936,
      "step": 1120
    },
    {
      "epoch": 0.28756493298274866,
      "grad_norm": 89.49302673339844,
      "learning_rate": 5e-06,
      "loss": 1.2563,
      "num_input_tokens_seen": 141623788,
      "step": 1121
    },
    {
      "epoch": 0.28756493298274866,
      "loss": 1.1049234867095947,
      "loss_ce": 0.0009195586899295449,
      "loss_iou": 0.5234375,
      "loss_num": 0.01116943359375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 141623788,
      "step": 1121
    },
    {
      "epoch": 0.28782145834669404,
      "grad_norm": 54.02817916870117,
      "learning_rate": 5e-06,
      "loss": 1.4341,
      "num_input_tokens_seen": 141752072,
      "step": 1122
    },
    {
      "epoch": 0.28782145834669404,
      "loss": 1.4214249849319458,
      "loss_ce": 0.001014802372083068,
      "loss_iou": 0.65234375,
      "loss_num": 0.0224609375,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 141752072,
      "step": 1122
    },
    {
      "epoch": 0.28807798371063936,
      "grad_norm": 45.396484375,
      "learning_rate": 5e-06,
      "loss": 1.2583,
      "num_input_tokens_seen": 141878512,
      "step": 1123
    },
    {
      "epoch": 0.28807798371063936,
      "loss": 1.2874191999435425,
      "loss_ce": 0.00030984097975306213,
      "loss_iou": 0.5859375,
      "loss_num": 0.022216796875,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 141878512,
      "step": 1123
    },
    {
      "epoch": 0.28833450907458474,
      "grad_norm": 47.445884704589844,
      "learning_rate": 5e-06,
      "loss": 1.2575,
      "num_input_tokens_seen": 142004376,
      "step": 1124
    },
    {
      "epoch": 0.28833450907458474,
      "loss": 1.1702468395233154,
      "loss_ce": 0.0022780555300414562,
      "loss_iou": 0.5390625,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 142004376,
      "step": 1124
    },
    {
      "epoch": 0.2885910344385301,
      "grad_norm": 44.48907470703125,
      "learning_rate": 5e-06,
      "loss": 1.1507,
      "num_input_tokens_seen": 142130520,
      "step": 1125
    },
    {
      "epoch": 0.2885910344385301,
      "loss": 1.008172869682312,
      "loss_ce": 0.0018252030713483691,
      "loss_iou": 0.4609375,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 142130520,
      "step": 1125
    },
    {
      "epoch": 0.28884755980247545,
      "grad_norm": 47.569053649902344,
      "learning_rate": 5e-06,
      "loss": 1.19,
      "num_input_tokens_seen": 142257324,
      "step": 1126
    },
    {
      "epoch": 0.28884755980247545,
      "loss": 1.031123399734497,
      "loss_ce": 0.0025589456781744957,
      "loss_iou": 0.484375,
      "loss_num": 0.011474609375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 142257324,
      "step": 1126
    },
    {
      "epoch": 0.28910408516642083,
      "grad_norm": 55.56782913208008,
      "learning_rate": 5e-06,
      "loss": 1.1237,
      "num_input_tokens_seen": 142383724,
      "step": 1127
    },
    {
      "epoch": 0.28910408516642083,
      "loss": 1.1582621335983276,
      "loss_ce": 0.000547341420315206,
      "loss_iou": 0.55078125,
      "loss_num": 0.01177978515625,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 142383724,
      "step": 1127
    },
    {
      "epoch": 0.2893606105303662,
      "grad_norm": 64.89530181884766,
      "learning_rate": 5e-06,
      "loss": 1.1961,
      "num_input_tokens_seen": 142508452,
      "step": 1128
    },
    {
      "epoch": 0.2893606105303662,
      "loss": 1.0366743803024292,
      "loss_ce": 0.0005415817722678185,
      "loss_iou": 0.4921875,
      "loss_num": 0.01043701171875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 142508452,
      "step": 1128
    },
    {
      "epoch": 0.28961713589431154,
      "grad_norm": 57.49004364013672,
      "learning_rate": 5e-06,
      "loss": 1.2986,
      "num_input_tokens_seen": 142635928,
      "step": 1129
    },
    {
      "epoch": 0.28961713589431154,
      "loss": 1.4033167362213135,
      "loss_ce": 0.0048792739398777485,
      "loss_iou": 0.6328125,
      "loss_num": 0.02685546875,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 142635928,
      "step": 1129
    },
    {
      "epoch": 0.2898736612582569,
      "grad_norm": 58.971309661865234,
      "learning_rate": 5e-06,
      "loss": 1.3078,
      "num_input_tokens_seen": 142762040,
      "step": 1130
    },
    {
      "epoch": 0.2898736612582569,
      "loss": 1.4680778980255127,
      "loss_ce": 0.004210685845464468,
      "loss_iou": 0.640625,
      "loss_num": 0.03564453125,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 142762040,
      "step": 1130
    },
    {
      "epoch": 0.29013018662220225,
      "grad_norm": 47.310089111328125,
      "learning_rate": 5e-06,
      "loss": 1.3731,
      "num_input_tokens_seen": 142887628,
      "step": 1131
    },
    {
      "epoch": 0.29013018662220225,
      "loss": 1.6404972076416016,
      "loss_ce": 0.003778393380343914,
      "loss_iou": 0.7265625,
      "loss_num": 0.0361328125,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 142887628,
      "step": 1131
    },
    {
      "epoch": 0.2903867119861476,
      "grad_norm": 57.33110427856445,
      "learning_rate": 5e-06,
      "loss": 1.1617,
      "num_input_tokens_seen": 143013672,
      "step": 1132
    },
    {
      "epoch": 0.2903867119861476,
      "loss": 1.0562571287155151,
      "loss_ce": 0.0005930407205596566,
      "loss_iou": 0.494140625,
      "loss_num": 0.01336669921875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 143013672,
      "step": 1132
    },
    {
      "epoch": 0.290643237350093,
      "grad_norm": 47.94330596923828,
      "learning_rate": 5e-06,
      "loss": 1.2711,
      "num_input_tokens_seen": 143139444,
      "step": 1133
    },
    {
      "epoch": 0.290643237350093,
      "loss": 1.3210477828979492,
      "loss_ce": 0.001711850636638701,
      "loss_iou": 0.59765625,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 143139444,
      "step": 1133
    },
    {
      "epoch": 0.29089976271403833,
      "grad_norm": 99.46900939941406,
      "learning_rate": 5e-06,
      "loss": 1.2399,
      "num_input_tokens_seen": 143266120,
      "step": 1134
    },
    {
      "epoch": 0.29089976271403833,
      "loss": 1.2280025482177734,
      "loss_ce": 0.0004634447686839849,
      "loss_iou": 0.57421875,
      "loss_num": 0.01556396484375,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 143266120,
      "step": 1134
    },
    {
      "epoch": 0.2911562880779837,
      "grad_norm": 49.935401916503906,
      "learning_rate": 5e-06,
      "loss": 1.4529,
      "num_input_tokens_seen": 143392508,
      "step": 1135
    },
    {
      "epoch": 0.2911562880779837,
      "loss": 1.466294288635254,
      "loss_ce": 0.00047407514648512006,
      "loss_iou": 0.671875,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 143392508,
      "step": 1135
    },
    {
      "epoch": 0.2914128134419291,
      "grad_norm": 42.141883850097656,
      "learning_rate": 5e-06,
      "loss": 1.2657,
      "num_input_tokens_seen": 143518636,
      "step": 1136
    },
    {
      "epoch": 0.2914128134419291,
      "loss": 0.9636263251304626,
      "loss_ce": 0.0017122298013418913,
      "loss_iou": 0.45703125,
      "loss_num": 0.00970458984375,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 143518636,
      "step": 1136
    },
    {
      "epoch": 0.2916693388058744,
      "grad_norm": 30.46164321899414,
      "learning_rate": 5e-06,
      "loss": 1.2299,
      "num_input_tokens_seen": 143645108,
      "step": 1137
    },
    {
      "epoch": 0.2916693388058744,
      "loss": 1.2027699947357178,
      "loss_ce": 0.0011098445393145084,
      "loss_iou": 0.54296875,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 143645108,
      "step": 1137
    },
    {
      "epoch": 0.2919258641698198,
      "grad_norm": 45.9459342956543,
      "learning_rate": 5e-06,
      "loss": 1.2756,
      "num_input_tokens_seen": 143771732,
      "step": 1138
    },
    {
      "epoch": 0.2919258641698198,
      "loss": 1.3004601001739502,
      "loss_ce": 0.0006554399151355028,
      "loss_iou": 0.60546875,
      "loss_num": 0.018310546875,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 143771732,
      "step": 1138
    },
    {
      "epoch": 0.29218238953376513,
      "grad_norm": 96.11602020263672,
      "learning_rate": 5e-06,
      "loss": 1.222,
      "num_input_tokens_seen": 143899160,
      "step": 1139
    },
    {
      "epoch": 0.29218238953376513,
      "loss": 1.0566319227218628,
      "loss_ce": 0.0014560867566615343,
      "loss_iou": 0.494140625,
      "loss_num": 0.013671875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 143899160,
      "step": 1139
    },
    {
      "epoch": 0.2924389148977105,
      "grad_norm": 49.9255256652832,
      "learning_rate": 5e-06,
      "loss": 1.447,
      "num_input_tokens_seen": 144025520,
      "step": 1140
    },
    {
      "epoch": 0.2924389148977105,
      "loss": 1.3974721431732178,
      "loss_ce": 0.000987836392596364,
      "loss_iou": 0.6484375,
      "loss_num": 0.01904296875,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 144025520,
      "step": 1140
    },
    {
      "epoch": 0.2926954402616559,
      "grad_norm": 46.07719039916992,
      "learning_rate": 5e-06,
      "loss": 1.2442,
      "num_input_tokens_seen": 144152616,
      "step": 1141
    },
    {
      "epoch": 0.2926954402616559,
      "loss": 1.0212448835372925,
      "loss_ce": 0.0007370659150183201,
      "loss_iou": 0.474609375,
      "loss_num": 0.01397705078125,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 144152616,
      "step": 1141
    },
    {
      "epoch": 0.2929519656256012,
      "grad_norm": 58.803794860839844,
      "learning_rate": 5e-06,
      "loss": 1.2346,
      "num_input_tokens_seen": 144278420,
      "step": 1142
    },
    {
      "epoch": 0.2929519656256012,
      "loss": 1.4388103485107422,
      "loss_ce": 0.0013104206882417202,
      "loss_iou": 0.66015625,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 144278420,
      "step": 1142
    },
    {
      "epoch": 0.2932084909895466,
      "grad_norm": 61.16276168823242,
      "learning_rate": 5e-06,
      "loss": 1.2525,
      "num_input_tokens_seen": 144404408,
      "step": 1143
    },
    {
      "epoch": 0.2932084909895466,
      "loss": 1.1892489194869995,
      "loss_ce": 0.003213821444660425,
      "loss_iou": 0.54296875,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 144404408,
      "step": 1143
    },
    {
      "epoch": 0.2934650163534919,
      "grad_norm": 91.4574203491211,
      "learning_rate": 5e-06,
      "loss": 1.3403,
      "num_input_tokens_seen": 144531176,
      "step": 1144
    },
    {
      "epoch": 0.2934650163534919,
      "loss": 1.2727622985839844,
      "loss_ce": 0.0012779267271980643,
      "loss_iou": 0.5859375,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 144531176,
      "step": 1144
    },
    {
      "epoch": 0.2937215417174373,
      "grad_norm": 45.77968215942383,
      "learning_rate": 5e-06,
      "loss": 1.44,
      "num_input_tokens_seen": 144657448,
      "step": 1145
    },
    {
      "epoch": 0.2937215417174373,
      "loss": 1.5217342376708984,
      "loss_ce": 0.0017147797625511885,
      "loss_iou": 0.671875,
      "loss_num": 0.03466796875,
      "loss_xval": 1.5234375,
      "num_input_tokens_seen": 144657448,
      "step": 1145
    },
    {
      "epoch": 0.2939780670813827,
      "grad_norm": 46.609737396240234,
      "learning_rate": 5e-06,
      "loss": 1.0955,
      "num_input_tokens_seen": 144783504,
      "step": 1146
    },
    {
      "epoch": 0.2939780670813827,
      "loss": 1.194151759147644,
      "loss_ce": 0.0027455128729343414,
      "loss_iou": 0.55078125,
      "loss_num": 0.0185546875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 144783504,
      "step": 1146
    },
    {
      "epoch": 0.294234592445328,
      "grad_norm": 56.23094177246094,
      "learning_rate": 5e-06,
      "loss": 1.2731,
      "num_input_tokens_seen": 144908596,
      "step": 1147
    },
    {
      "epoch": 0.294234592445328,
      "loss": 1.1289995908737183,
      "loss_ce": 0.0010698674013838172,
      "loss_iou": 0.51953125,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 144908596,
      "step": 1147
    },
    {
      "epoch": 0.2944911178092734,
      "grad_norm": 54.55766296386719,
      "learning_rate": 5e-06,
      "loss": 1.2227,
      "num_input_tokens_seen": 145034208,
      "step": 1148
    },
    {
      "epoch": 0.2944911178092734,
      "loss": 1.378260612487793,
      "loss_ce": 0.0032607223838567734,
      "loss_iou": 0.63671875,
      "loss_num": 0.020751953125,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 145034208,
      "step": 1148
    },
    {
      "epoch": 0.2947476431732188,
      "grad_norm": 57.792205810546875,
      "learning_rate": 5e-06,
      "loss": 1.1573,
      "num_input_tokens_seen": 145160152,
      "step": 1149
    },
    {
      "epoch": 0.2947476431732188,
      "loss": 1.06233811378479,
      "loss_ce": 0.00032641630969010293,
      "loss_iou": 0.498046875,
      "loss_num": 0.01324462890625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 145160152,
      "step": 1149
    },
    {
      "epoch": 0.2950041685371641,
      "grad_norm": 59.97188949584961,
      "learning_rate": 5e-06,
      "loss": 1.2556,
      "num_input_tokens_seen": 145286140,
      "step": 1150
    },
    {
      "epoch": 0.2950041685371641,
      "loss": 1.271167278289795,
      "loss_ce": 0.0006594822043552995,
      "loss_iou": 0.5859375,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 145286140,
      "step": 1150
    },
    {
      "epoch": 0.2952606939011095,
      "grad_norm": 67.49483489990234,
      "learning_rate": 5e-06,
      "loss": 1.1341,
      "num_input_tokens_seen": 145412540,
      "step": 1151
    },
    {
      "epoch": 0.2952606939011095,
      "loss": 1.2529656887054443,
      "loss_ce": 0.001989130862057209,
      "loss_iou": 0.58203125,
      "loss_num": 0.017333984375,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 145412540,
      "step": 1151
    },
    {
      "epoch": 0.2955172192650548,
      "grad_norm": 55.4300422668457,
      "learning_rate": 5e-06,
      "loss": 1.1382,
      "num_input_tokens_seen": 145538812,
      "step": 1152
    },
    {
      "epoch": 0.2955172192650548,
      "loss": 1.0652270317077637,
      "loss_ce": 0.0012621500063687563,
      "loss_iou": 0.5078125,
      "loss_num": 0.009765625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 145538812,
      "step": 1152
    },
    {
      "epoch": 0.2957737446290002,
      "grad_norm": 41.76433563232422,
      "learning_rate": 5e-06,
      "loss": 1.1255,
      "num_input_tokens_seen": 145665132,
      "step": 1153
    },
    {
      "epoch": 0.2957737446290002,
      "loss": 0.9830601811408997,
      "loss_ce": 0.00161486747674644,
      "loss_iou": 0.46875,
      "loss_num": 0.0087890625,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 145665132,
      "step": 1153
    },
    {
      "epoch": 0.29603026999294557,
      "grad_norm": 57.860252380371094,
      "learning_rate": 5e-06,
      "loss": 1.2561,
      "num_input_tokens_seen": 145792128,
      "step": 1154
    },
    {
      "epoch": 0.29603026999294557,
      "loss": 1.2943000793457031,
      "loss_ce": 0.0003547464148141444,
      "loss_iou": 0.60546875,
      "loss_num": 0.0166015625,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 145792128,
      "step": 1154
    },
    {
      "epoch": 0.2962867953568909,
      "grad_norm": 87.00450134277344,
      "learning_rate": 5e-06,
      "loss": 1.2804,
      "num_input_tokens_seen": 145919608,
      "step": 1155
    },
    {
      "epoch": 0.2962867953568909,
      "loss": 1.121140956878662,
      "loss_ce": 0.00029146071756258607,
      "loss_iou": 0.52734375,
      "loss_num": 0.01385498046875,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 145919608,
      "step": 1155
    },
    {
      "epoch": 0.2965433207208363,
      "grad_norm": 50.82177734375,
      "learning_rate": 5e-06,
      "loss": 1.2279,
      "num_input_tokens_seen": 146045008,
      "step": 1156
    },
    {
      "epoch": 0.2965433207208363,
      "loss": 1.368868112564087,
      "loss_ce": 0.0007040193304419518,
      "loss_iou": 0.63671875,
      "loss_num": 0.018798828125,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 146045008,
      "step": 1156
    },
    {
      "epoch": 0.29679984608478166,
      "grad_norm": 37.024051666259766,
      "learning_rate": 5e-06,
      "loss": 1.3446,
      "num_input_tokens_seen": 146171092,
      "step": 1157
    },
    {
      "epoch": 0.29679984608478166,
      "loss": 1.300889015197754,
      "loss_ce": 0.0005959449335932732,
      "loss_iou": 0.609375,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 146171092,
      "step": 1157
    },
    {
      "epoch": 0.297056371448727,
      "grad_norm": 45.63780212402344,
      "learning_rate": 5e-06,
      "loss": 1.2097,
      "num_input_tokens_seen": 146298408,
      "step": 1158
    },
    {
      "epoch": 0.297056371448727,
      "loss": 1.1684479713439941,
      "loss_ce": 0.0029206478502601385,
      "loss_iou": 0.53125,
      "loss_num": 0.02099609375,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 146298408,
      "step": 1158
    },
    {
      "epoch": 0.29731289681267237,
      "grad_norm": 83.1688232421875,
      "learning_rate": 5e-06,
      "loss": 1.2941,
      "num_input_tokens_seen": 146425060,
      "step": 1159
    },
    {
      "epoch": 0.29731289681267237,
      "loss": 1.3153468370437622,
      "loss_ce": 0.0018702792003750801,
      "loss_iou": 0.60546875,
      "loss_num": 0.02001953125,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 146425060,
      "step": 1159
    },
    {
      "epoch": 0.2975694221766177,
      "grad_norm": 44.54999923706055,
      "learning_rate": 5e-06,
      "loss": 1.363,
      "num_input_tokens_seen": 146551192,
      "step": 1160
    },
    {
      "epoch": 0.2975694221766177,
      "loss": 1.4388405084609985,
      "loss_ce": 0.0032936418429017067,
      "loss_iou": 0.64453125,
      "loss_num": 0.0289306640625,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 146551192,
      "step": 1160
    },
    {
      "epoch": 0.2978259475405631,
      "grad_norm": 38.99470520019531,
      "learning_rate": 5e-06,
      "loss": 1.1429,
      "num_input_tokens_seen": 146677340,
      "step": 1161
    },
    {
      "epoch": 0.2978259475405631,
      "loss": 0.9995183944702148,
      "loss_ce": 0.0029363343492150307,
      "loss_iou": 0.46484375,
      "loss_num": 0.01348876953125,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 146677340,
      "step": 1161
    },
    {
      "epoch": 0.29808247290450846,
      "grad_norm": 44.64743423461914,
      "learning_rate": 5e-06,
      "loss": 1.2005,
      "num_input_tokens_seen": 146803632,
      "step": 1162
    },
    {
      "epoch": 0.29808247290450846,
      "loss": 0.9928357601165771,
      "loss_ce": 0.001136547653004527,
      "loss_iou": 0.4609375,
      "loss_num": 0.01409912109375,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 146803632,
      "step": 1162
    },
    {
      "epoch": 0.2983389982684538,
      "grad_norm": 70.78120422363281,
      "learning_rate": 5e-06,
      "loss": 1.1713,
      "num_input_tokens_seen": 146929016,
      "step": 1163
    },
    {
      "epoch": 0.2983389982684538,
      "loss": 1.1006577014923096,
      "loss_ce": 0.002024984685704112,
      "loss_iou": 0.5,
      "loss_num": 0.02001953125,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 146929016,
      "step": 1163
    },
    {
      "epoch": 0.29859552363239916,
      "grad_norm": 51.52165603637695,
      "learning_rate": 5e-06,
      "loss": 1.3631,
      "num_input_tokens_seen": 147055032,
      "step": 1164
    },
    {
      "epoch": 0.29859552363239916,
      "loss": 1.4689750671386719,
      "loss_ce": 0.003154870355501771,
      "loss_iou": 0.6640625,
      "loss_num": 0.0269775390625,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 147055032,
      "step": 1164
    },
    {
      "epoch": 0.2988520489963445,
      "grad_norm": 56.306758880615234,
      "learning_rate": 5e-06,
      "loss": 1.1852,
      "num_input_tokens_seen": 147181796,
      "step": 1165
    },
    {
      "epoch": 0.2988520489963445,
      "loss": 1.1660836935043335,
      "loss_ce": 0.0005563480081036687,
      "loss_iou": 0.5546875,
      "loss_num": 0.01153564453125,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 147181796,
      "step": 1165
    },
    {
      "epoch": 0.29910857436028987,
      "grad_norm": 46.257015228271484,
      "learning_rate": 5e-06,
      "loss": 1.4458,
      "num_input_tokens_seen": 147307832,
      "step": 1166
    },
    {
      "epoch": 0.29910857436028987,
      "loss": 1.641001582145691,
      "loss_ce": 0.0013531562872231007,
      "loss_iou": 0.7421875,
      "loss_num": 0.031494140625,
      "loss_xval": 1.640625,
      "num_input_tokens_seen": 147307832,
      "step": 1166
    },
    {
      "epoch": 0.29936509972423525,
      "grad_norm": 29.73887062072754,
      "learning_rate": 5e-06,
      "loss": 1.0751,
      "num_input_tokens_seen": 147432760,
      "step": 1167
    },
    {
      "epoch": 0.29936509972423525,
      "loss": 1.147862195968628,
      "loss_ce": 0.0023543578572571278,
      "loss_iou": 0.53125,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 147432760,
      "step": 1167
    },
    {
      "epoch": 0.2996216250881806,
      "grad_norm": 45.34124755859375,
      "learning_rate": 5e-06,
      "loss": 1.2131,
      "num_input_tokens_seen": 147559444,
      "step": 1168
    },
    {
      "epoch": 0.2996216250881806,
      "loss": 1.0978922843933105,
      "loss_ce": 0.00023604347370564938,
      "loss_iou": 0.515625,
      "loss_num": 0.01251220703125,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 147559444,
      "step": 1168
    },
    {
      "epoch": 0.29987815045212596,
      "grad_norm": 92.46239471435547,
      "learning_rate": 5e-06,
      "loss": 1.3267,
      "num_input_tokens_seen": 147686848,
      "step": 1169
    },
    {
      "epoch": 0.29987815045212596,
      "loss": 1.3516497611999512,
      "loss_ce": 0.0015521723544225097,
      "loss_iou": 0.62109375,
      "loss_num": 0.02197265625,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 147686848,
      "step": 1169
    },
    {
      "epoch": 0.30013467581607134,
      "grad_norm": 43.90057373046875,
      "learning_rate": 5e-06,
      "loss": 1.4049,
      "num_input_tokens_seen": 147812184,
      "step": 1170
    },
    {
      "epoch": 0.30013467581607134,
      "loss": 1.411547064781189,
      "loss_ce": 0.0004142364487051964,
      "loss_iou": 0.6328125,
      "loss_num": 0.02880859375,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 147812184,
      "step": 1170
    },
    {
      "epoch": 0.30039120118001666,
      "grad_norm": 53.345947265625,
      "learning_rate": 5e-06,
      "loss": 1.237,
      "num_input_tokens_seen": 147939684,
      "step": 1171
    },
    {
      "epoch": 0.30039120118001666,
      "loss": 1.3145030736923218,
      "loss_ce": 0.0029796408489346504,
      "loss_iou": 0.60546875,
      "loss_num": 0.020751953125,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 147939684,
      "step": 1171
    },
    {
      "epoch": 0.30064772654396205,
      "grad_norm": 90.21387481689453,
      "learning_rate": 5e-06,
      "loss": 1.2353,
      "num_input_tokens_seen": 148065432,
      "step": 1172
    },
    {
      "epoch": 0.30064772654396205,
      "loss": 1.4320333003997803,
      "loss_ce": 0.004787145648151636,
      "loss_iou": 0.65625,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.4296875,
      "num_input_tokens_seen": 148065432,
      "step": 1172
    },
    {
      "epoch": 0.30090425190790737,
      "grad_norm": 41.570884704589844,
      "learning_rate": 5e-06,
      "loss": 1.3651,
      "num_input_tokens_seen": 148191220,
      "step": 1173
    },
    {
      "epoch": 0.30090425190790737,
      "loss": 1.3338682651519775,
      "loss_ce": 0.0013487989781424403,
      "loss_iou": 0.62109375,
      "loss_num": 0.017578125,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 148191220,
      "step": 1173
    },
    {
      "epoch": 0.30116077727185275,
      "grad_norm": 35.931846618652344,
      "learning_rate": 5e-06,
      "loss": 1.2534,
      "num_input_tokens_seen": 148316388,
      "step": 1174
    },
    {
      "epoch": 0.30116077727185275,
      "loss": 1.1850210428237915,
      "loss_ce": 0.0077750482596457005,
      "loss_iou": 0.54296875,
      "loss_num": 0.017822265625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 148316388,
      "step": 1174
    },
    {
      "epoch": 0.30141730263579813,
      "grad_norm": 46.10340881347656,
      "learning_rate": 5e-06,
      "loss": 1.2273,
      "num_input_tokens_seen": 148442800,
      "step": 1175
    },
    {
      "epoch": 0.30141730263579813,
      "loss": 1.0167725086212158,
      "loss_ce": 0.0006591601995751262,
      "loss_iou": 0.47265625,
      "loss_num": 0.01373291015625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 148442800,
      "step": 1175
    },
    {
      "epoch": 0.30167382799974346,
      "grad_norm": 48.4448356628418,
      "learning_rate": 5e-06,
      "loss": 1.2832,
      "num_input_tokens_seen": 148570168,
      "step": 1176
    },
    {
      "epoch": 0.30167382799974346,
      "loss": 1.2180843353271484,
      "loss_ce": 0.0007991014863364398,
      "loss_iou": 0.57421875,
      "loss_num": 0.01434326171875,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 148570168,
      "step": 1176
    },
    {
      "epoch": 0.30193035336368884,
      "grad_norm": 40.62450408935547,
      "learning_rate": 5e-06,
      "loss": 1.2471,
      "num_input_tokens_seen": 148695392,
      "step": 1177
    },
    {
      "epoch": 0.30193035336368884,
      "loss": 1.3547073602676392,
      "loss_ce": 0.001680118264630437,
      "loss_iou": 0.59765625,
      "loss_num": 0.031494140625,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 148695392,
      "step": 1177
    },
    {
      "epoch": 0.30218687872763417,
      "grad_norm": 60.83898162841797,
      "learning_rate": 5e-06,
      "loss": 1.0865,
      "num_input_tokens_seen": 148821980,
      "step": 1178
    },
    {
      "epoch": 0.30218687872763417,
      "loss": 1.066332221031189,
      "loss_ce": 0.00041423720540478826,
      "loss_iou": 0.49609375,
      "loss_num": 0.0152587890625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 148821980,
      "step": 1178
    },
    {
      "epoch": 0.30244340409157955,
      "grad_norm": 89.45770263671875,
      "learning_rate": 5e-06,
      "loss": 1.3372,
      "num_input_tokens_seen": 148948128,
      "step": 1179
    },
    {
      "epoch": 0.30244340409157955,
      "loss": 1.246108889579773,
      "loss_ce": 0.005386186297982931,
      "loss_iou": 0.55078125,
      "loss_num": 0.0269775390625,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 148948128,
      "step": 1179
    },
    {
      "epoch": 0.30269992945552493,
      "grad_norm": 52.05886459350586,
      "learning_rate": 5e-06,
      "loss": 1.3733,
      "num_input_tokens_seen": 149074444,
      "step": 1180
    },
    {
      "epoch": 0.30269992945552493,
      "loss": 1.2411415576934814,
      "loss_ce": 0.0009071852546185255,
      "loss_iou": 0.5859375,
      "loss_num": 0.01318359375,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 149074444,
      "step": 1180
    },
    {
      "epoch": 0.30295645481947026,
      "grad_norm": 30.303001403808594,
      "learning_rate": 5e-06,
      "loss": 1.108,
      "num_input_tokens_seen": 149199584,
      "step": 1181
    },
    {
      "epoch": 0.30295645481947026,
      "loss": 1.2709537744522095,
      "loss_ce": 0.0004459265910554677,
      "loss_iou": 0.56640625,
      "loss_num": 0.0267333984375,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 149199584,
      "step": 1181
    },
    {
      "epoch": 0.30321298018341564,
      "grad_norm": 46.278995513916016,
      "learning_rate": 5e-06,
      "loss": 1.0841,
      "num_input_tokens_seen": 149326436,
      "step": 1182
    },
    {
      "epoch": 0.30321298018341564,
      "loss": 1.2528784275054932,
      "loss_ce": 0.0004370058886706829,
      "loss_iou": 0.5703125,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 149326436,
      "step": 1182
    },
    {
      "epoch": 0.303469505547361,
      "grad_norm": 49.83050537109375,
      "learning_rate": 5e-06,
      "loss": 1.23,
      "num_input_tokens_seen": 149451836,
      "step": 1183
    },
    {
      "epoch": 0.303469505547361,
      "loss": 1.4447295665740967,
      "loss_ce": 0.005276510491967201,
      "loss_iou": 0.65234375,
      "loss_num": 0.026611328125,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 149451836,
      "step": 1183
    },
    {
      "epoch": 0.30372603091130634,
      "grad_norm": 54.654136657714844,
      "learning_rate": 5e-06,
      "loss": 1.2915,
      "num_input_tokens_seen": 149578948,
      "step": 1184
    },
    {
      "epoch": 0.30372603091130634,
      "loss": 1.4606566429138184,
      "loss_ce": 0.004601949825882912,
      "loss_iou": 0.65625,
      "loss_num": 0.02783203125,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 149578948,
      "step": 1184
    },
    {
      "epoch": 0.3039825562752517,
      "grad_norm": 51.099666595458984,
      "learning_rate": 5e-06,
      "loss": 1.2468,
      "num_input_tokens_seen": 149704788,
      "step": 1185
    },
    {
      "epoch": 0.3039825562752517,
      "loss": 1.1831636428833008,
      "loss_ce": 0.0034760974813252687,
      "loss_iou": 0.55859375,
      "loss_num": 0.01251220703125,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 149704788,
      "step": 1185
    },
    {
      "epoch": 0.30423908163919705,
      "grad_norm": 53.0371208190918,
      "learning_rate": 5e-06,
      "loss": 1.2256,
      "num_input_tokens_seen": 149831912,
      "step": 1186
    },
    {
      "epoch": 0.30423908163919705,
      "loss": 1.1522853374481201,
      "loss_ce": 0.0023830407299101353,
      "loss_iou": 0.51953125,
      "loss_num": 0.02294921875,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 149831912,
      "step": 1186
    },
    {
      "epoch": 0.30449560700314243,
      "grad_norm": 55.173126220703125,
      "learning_rate": 5e-06,
      "loss": 1.2029,
      "num_input_tokens_seen": 149958944,
      "step": 1187
    },
    {
      "epoch": 0.30449560700314243,
      "loss": 1.229234218597412,
      "loss_ce": 0.0007186041912063956,
      "loss_iou": 0.57421875,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 149958944,
      "step": 1187
    },
    {
      "epoch": 0.3047521323670878,
      "grad_norm": 68.9417953491211,
      "learning_rate": 5e-06,
      "loss": 1.2019,
      "num_input_tokens_seen": 150085704,
      "step": 1188
    },
    {
      "epoch": 0.3047521323670878,
      "loss": 1.296430230140686,
      "loss_ce": 0.00394979864358902,
      "loss_iou": 0.6015625,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 150085704,
      "step": 1188
    },
    {
      "epoch": 0.30500865773103314,
      "grad_norm": 55.345252990722656,
      "learning_rate": 5e-06,
      "loss": 1.3393,
      "num_input_tokens_seen": 150212280,
      "step": 1189
    },
    {
      "epoch": 0.30500865773103314,
      "loss": 1.2074825763702393,
      "loss_ce": 0.0009396728128194809,
      "loss_iou": 0.57421875,
      "loss_num": 0.01165771484375,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 150212280,
      "step": 1189
    },
    {
      "epoch": 0.3052651830949785,
      "grad_norm": 39.968711853027344,
      "learning_rate": 5e-06,
      "loss": 1.1119,
      "num_input_tokens_seen": 150338548,
      "step": 1190
    },
    {
      "epoch": 0.3052651830949785,
      "loss": 1.3174371719360352,
      "loss_ce": 0.002495687920600176,
      "loss_iou": 0.58203125,
      "loss_num": 0.02978515625,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 150338548,
      "step": 1190
    },
    {
      "epoch": 0.3055217084589239,
      "grad_norm": 44.61415100097656,
      "learning_rate": 5e-06,
      "loss": 1.2381,
      "num_input_tokens_seen": 150463908,
      "step": 1191
    },
    {
      "epoch": 0.3055217084589239,
      "loss": 1.4491472244262695,
      "loss_ce": 0.0028581940568983555,
      "loss_iou": 0.6484375,
      "loss_num": 0.0294189453125,
      "loss_xval": 1.4453125,
      "num_input_tokens_seen": 150463908,
      "step": 1191
    },
    {
      "epoch": 0.3057782338228692,
      "grad_norm": 78.20832824707031,
      "learning_rate": 5e-06,
      "loss": 1.2486,
      "num_input_tokens_seen": 150590400,
      "step": 1192
    },
    {
      "epoch": 0.3057782338228692,
      "loss": 1.3033801317214966,
      "loss_ce": 0.001134048099629581,
      "loss_iou": 0.59765625,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 150590400,
      "step": 1192
    },
    {
      "epoch": 0.3060347591868146,
      "grad_norm": 50.78615188598633,
      "learning_rate": 5e-06,
      "loss": 1.3751,
      "num_input_tokens_seen": 150716496,
      "step": 1193
    },
    {
      "epoch": 0.3060347591868146,
      "loss": 1.4013301134109497,
      "loss_ce": 0.0033808862790465355,
      "loss_iou": 0.6328125,
      "loss_num": 0.02587890625,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 150716496,
      "step": 1193
    },
    {
      "epoch": 0.30629128455075993,
      "grad_norm": 39.1738395690918,
      "learning_rate": 5e-06,
      "loss": 1.1664,
      "num_input_tokens_seen": 150842332,
      "step": 1194
    },
    {
      "epoch": 0.30629128455075993,
      "loss": 1.2083321809768677,
      "loss_ce": 0.0027658059261739254,
      "loss_iou": 0.53515625,
      "loss_num": 0.0269775390625,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 150842332,
      "step": 1194
    },
    {
      "epoch": 0.3065478099147053,
      "grad_norm": 47.1965217590332,
      "learning_rate": 5e-06,
      "loss": 1.0615,
      "num_input_tokens_seen": 150968036,
      "step": 1195
    },
    {
      "epoch": 0.3065478099147053,
      "loss": 1.083253026008606,
      "loss_ce": 0.004151465371251106,
      "loss_iou": 0.478515625,
      "loss_num": 0.0244140625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 150968036,
      "step": 1195
    },
    {
      "epoch": 0.3068043352786507,
      "grad_norm": 51.76456069946289,
      "learning_rate": 5e-06,
      "loss": 1.1056,
      "num_input_tokens_seen": 151094340,
      "step": 1196
    },
    {
      "epoch": 0.3068043352786507,
      "loss": 1.2444560527801514,
      "loss_ce": 0.0017801887588575482,
      "loss_iou": 0.5859375,
      "loss_num": 0.01495361328125,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 151094340,
      "step": 1196
    },
    {
      "epoch": 0.307060860642596,
      "grad_norm": 66.48481750488281,
      "learning_rate": 5e-06,
      "loss": 1.2329,
      "num_input_tokens_seen": 151220712,
      "step": 1197
    },
    {
      "epoch": 0.307060860642596,
      "loss": 1.2583158016204834,
      "loss_ce": 0.001968119293451309,
      "loss_iou": 0.58203125,
      "loss_num": 0.0184326171875,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 151220712,
      "step": 1197
    },
    {
      "epoch": 0.3073173860065414,
      "grad_norm": 49.40713882446289,
      "learning_rate": 5e-06,
      "loss": 1.2568,
      "num_input_tokens_seen": 151347000,
      "step": 1198
    },
    {
      "epoch": 0.3073173860065414,
      "loss": 1.142624855041504,
      "loss_ce": 0.00102332909591496,
      "loss_iou": 0.54296875,
      "loss_num": 0.01202392578125,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 151347000,
      "step": 1198
    },
    {
      "epoch": 0.30757391137048673,
      "grad_norm": 35.816810607910156,
      "learning_rate": 5e-06,
      "loss": 1.2191,
      "num_input_tokens_seen": 151474024,
      "step": 1199
    },
    {
      "epoch": 0.30757391137048673,
      "loss": 1.19255530834198,
      "loss_ce": 0.0021256303880363703,
      "loss_iou": 0.53125,
      "loss_num": 0.0263671875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 151474024,
      "step": 1199
    },
    {
      "epoch": 0.3078304367344321,
      "grad_norm": 51.681129455566406,
      "learning_rate": 5e-06,
      "loss": 1.2157,
      "num_input_tokens_seen": 151599220,
      "step": 1200
    },
    {
      "epoch": 0.3078304367344321,
      "loss": 1.1276705265045166,
      "loss_ce": 0.0016939828637987375,
      "loss_iou": 0.5078125,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 151599220,
      "step": 1200
    },
    {
      "epoch": 0.3080869620983775,
      "grad_norm": 92.8583984375,
      "learning_rate": 5e-06,
      "loss": 1.2713,
      "num_input_tokens_seen": 151726424,
      "step": 1201
    },
    {
      "epoch": 0.3080869620983775,
      "loss": 1.1594326496124268,
      "loss_ce": 0.00171779899392277,
      "loss_iou": 0.54296875,
      "loss_num": 0.01409912109375,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 151726424,
      "step": 1201
    },
    {
      "epoch": 0.3083434874623228,
      "grad_norm": 46.209228515625,
      "learning_rate": 5e-06,
      "loss": 1.3013,
      "num_input_tokens_seen": 151852080,
      "step": 1202
    },
    {
      "epoch": 0.3083434874623228,
      "loss": 1.4813125133514404,
      "loss_ce": 0.0027968569193035364,
      "loss_iou": 0.66015625,
      "loss_num": 0.031494140625,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 151852080,
      "step": 1202
    },
    {
      "epoch": 0.3086000128262682,
      "grad_norm": 50.171730041503906,
      "learning_rate": 5e-06,
      "loss": 1.0705,
      "num_input_tokens_seen": 151978676,
      "step": 1203
    },
    {
      "epoch": 0.3086000128262682,
      "loss": 1.0444520711898804,
      "loss_ce": 0.0005067629390396178,
      "loss_iou": 0.49609375,
      "loss_num": 0.0101318359375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 151978676,
      "step": 1203
    },
    {
      "epoch": 0.3088565381902136,
      "grad_norm": 73.17893981933594,
      "learning_rate": 5e-06,
      "loss": 1.2153,
      "num_input_tokens_seen": 152106568,
      "step": 1204
    },
    {
      "epoch": 0.3088565381902136,
      "loss": 1.2319436073303223,
      "loss_ce": 0.001963050337508321,
      "loss_iou": 0.5546875,
      "loss_num": 0.024169921875,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 152106568,
      "step": 1204
    },
    {
      "epoch": 0.3091130635541589,
      "grad_norm": 62.97467803955078,
      "learning_rate": 5e-06,
      "loss": 1.2845,
      "num_input_tokens_seen": 152233644,
      "step": 1205
    },
    {
      "epoch": 0.3091130635541589,
      "loss": 1.0797507762908936,
      "loss_ce": 0.0011375478934496641,
      "loss_iou": 0.50390625,
      "loss_num": 0.0135498046875,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 152233644,
      "step": 1205
    },
    {
      "epoch": 0.3093695889181043,
      "grad_norm": 39.59813690185547,
      "learning_rate": 5e-06,
      "loss": 1.1957,
      "num_input_tokens_seen": 152359500,
      "step": 1206
    },
    {
      "epoch": 0.3093695889181043,
      "loss": 1.037702202796936,
      "loss_ce": 0.0010811197571456432,
      "loss_iou": 0.48046875,
      "loss_num": 0.01495361328125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 152359500,
      "step": 1206
    },
    {
      "epoch": 0.3096261142820496,
      "grad_norm": 42.385833740234375,
      "learning_rate": 5e-06,
      "loss": 1.1144,
      "num_input_tokens_seen": 152485672,
      "step": 1207
    },
    {
      "epoch": 0.3096261142820496,
      "loss": 1.1238529682159424,
      "loss_ce": 0.0012944028712809086,
      "loss_iou": 0.5234375,
      "loss_num": 0.0159912109375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 152485672,
      "step": 1207
    },
    {
      "epoch": 0.309882639645995,
      "grad_norm": 33.187007904052734,
      "learning_rate": 5e-06,
      "loss": 1.2727,
      "num_input_tokens_seen": 152611156,
      "step": 1208
    },
    {
      "epoch": 0.309882639645995,
      "loss": 1.3562543392181396,
      "loss_ce": 0.005180067382752895,
      "loss_iou": 0.62109375,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 152611156,
      "step": 1208
    },
    {
      "epoch": 0.3101391650099404,
      "grad_norm": 38.59255599975586,
      "learning_rate": 5e-06,
      "loss": 1.1779,
      "num_input_tokens_seen": 152736564,
      "step": 1209
    },
    {
      "epoch": 0.3101391650099404,
      "loss": 1.1265063285827637,
      "loss_ce": 0.0015063012251630425,
      "loss_iou": 0.5078125,
      "loss_num": 0.021240234375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 152736564,
      "step": 1209
    },
    {
      "epoch": 0.3103956903738857,
      "grad_norm": 61.07640075683594,
      "learning_rate": 5e-06,
      "loss": 1.2156,
      "num_input_tokens_seen": 152862560,
      "step": 1210
    },
    {
      "epoch": 0.3103956903738857,
      "loss": 1.118615984916687,
      "loss_ce": 0.000940218917094171,
      "loss_iou": 0.5078125,
      "loss_num": 0.0196533203125,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 152862560,
      "step": 1210
    },
    {
      "epoch": 0.3106522157378311,
      "grad_norm": 49.71195983886719,
      "learning_rate": 5e-06,
      "loss": 1.2998,
      "num_input_tokens_seen": 152989168,
      "step": 1211
    },
    {
      "epoch": 0.3106522157378311,
      "loss": 1.4775209426879883,
      "loss_ce": 0.007306137587875128,
      "loss_iou": 0.66015625,
      "loss_num": 0.030517578125,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 152989168,
      "step": 1211
    },
    {
      "epoch": 0.31090874110177646,
      "grad_norm": 34.205448150634766,
      "learning_rate": 5e-06,
      "loss": 1.2167,
      "num_input_tokens_seen": 153116452,
      "step": 1212
    },
    {
      "epoch": 0.31090874110177646,
      "loss": 1.3158230781555176,
      "loss_ce": 0.003323036478832364,
      "loss_iou": 0.58984375,
      "loss_num": 0.0269775390625,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 153116452,
      "step": 1212
    },
    {
      "epoch": 0.3111652664657218,
      "grad_norm": 49.828285217285156,
      "learning_rate": 5e-06,
      "loss": 1.2026,
      "num_input_tokens_seen": 153244012,
      "step": 1213
    },
    {
      "epoch": 0.3111652664657218,
      "loss": 1.1534075736999512,
      "loss_ce": 0.0005755729507654905,
      "loss_iou": 0.5390625,
      "loss_num": 0.01446533203125,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 153244012,
      "step": 1213
    },
    {
      "epoch": 0.31142179182966717,
      "grad_norm": 74.77185821533203,
      "learning_rate": 5e-06,
      "loss": 1.2916,
      "num_input_tokens_seen": 153369640,
      "step": 1214
    },
    {
      "epoch": 0.31142179182966717,
      "loss": 1.434908390045166,
      "loss_ce": 0.001314537599682808,
      "loss_iou": 0.6640625,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 153369640,
      "step": 1214
    },
    {
      "epoch": 0.3116783171936125,
      "grad_norm": 61.26490020751953,
      "learning_rate": 5e-06,
      "loss": 1.1936,
      "num_input_tokens_seen": 153495356,
      "step": 1215
    },
    {
      "epoch": 0.3116783171936125,
      "loss": 1.3405786752700806,
      "loss_ce": 0.001711410004645586,
      "loss_iou": 0.609375,
      "loss_num": 0.0247802734375,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 153495356,
      "step": 1215
    },
    {
      "epoch": 0.3119348425575579,
      "grad_norm": 71.84638214111328,
      "learning_rate": 5e-06,
      "loss": 1.2335,
      "num_input_tokens_seen": 153621224,
      "step": 1216
    },
    {
      "epoch": 0.3119348425575579,
      "loss": 1.0313420295715332,
      "loss_ce": 0.0015569021925330162,
      "loss_iou": 0.478515625,
      "loss_num": 0.0142822265625,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 153621224,
      "step": 1216
    },
    {
      "epoch": 0.31219136792150326,
      "grad_norm": 57.38467025756836,
      "learning_rate": 5e-06,
      "loss": 1.3211,
      "num_input_tokens_seen": 153747684,
      "step": 1217
    },
    {
      "epoch": 0.31219136792150326,
      "loss": 1.3495609760284424,
      "loss_ce": 0.004346134141087532,
      "loss_iou": 0.62109375,
      "loss_num": 0.0205078125,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 153747684,
      "step": 1217
    },
    {
      "epoch": 0.3124478932854486,
      "grad_norm": 32.343544006347656,
      "learning_rate": 5e-06,
      "loss": 1.2674,
      "num_input_tokens_seen": 153874400,
      "step": 1218
    },
    {
      "epoch": 0.3124478932854486,
      "loss": 1.3661408424377441,
      "loss_ce": 0.0009064363548532128,
      "loss_iou": 0.6171875,
      "loss_num": 0.026611328125,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 153874400,
      "step": 1218
    },
    {
      "epoch": 0.31270441864939397,
      "grad_norm": 60.44613265991211,
      "learning_rate": 5e-06,
      "loss": 1.2019,
      "num_input_tokens_seen": 154001664,
      "step": 1219
    },
    {
      "epoch": 0.31270441864939397,
      "loss": 1.2785712480545044,
      "loss_ce": 0.003668930847197771,
      "loss_iou": 0.5703125,
      "loss_num": 0.0263671875,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 154001664,
      "step": 1219
    },
    {
      "epoch": 0.3129609440133393,
      "grad_norm": 70.46881866455078,
      "learning_rate": 5e-06,
      "loss": 1.2548,
      "num_input_tokens_seen": 154128136,
      "step": 1220
    },
    {
      "epoch": 0.3129609440133393,
      "loss": 1.348661184310913,
      "loss_ce": 0.0010049305856227875,
      "loss_iou": 0.625,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 154128136,
      "step": 1220
    },
    {
      "epoch": 0.3132174693772847,
      "grad_norm": 49.617431640625,
      "learning_rate": 5e-06,
      "loss": 1.1019,
      "num_input_tokens_seen": 154254120,
      "step": 1221
    },
    {
      "epoch": 0.3132174693772847,
      "loss": 1.1534950733184814,
      "loss_ce": 0.0011513205245137215,
      "loss_iou": 0.52734375,
      "loss_num": 0.01904296875,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 154254120,
      "step": 1221
    },
    {
      "epoch": 0.31347399474123006,
      "grad_norm": 53.56963348388672,
      "learning_rate": 5e-06,
      "loss": 1.2725,
      "num_input_tokens_seen": 154381052,
      "step": 1222
    },
    {
      "epoch": 0.31347399474123006,
      "loss": 1.111957311630249,
      "loss_ce": 0.0011174108367413282,
      "loss_iou": 0.5078125,
      "loss_num": 0.019287109375,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 154381052,
      "step": 1222
    },
    {
      "epoch": 0.3137305201051754,
      "grad_norm": 63.4941520690918,
      "learning_rate": 5e-06,
      "loss": 1.2187,
      "num_input_tokens_seen": 154508132,
      "step": 1223
    },
    {
      "epoch": 0.3137305201051754,
      "loss": 1.055586814880371,
      "loss_ce": 0.0008993630763143301,
      "loss_iou": 0.5,
      "loss_num": 0.0101318359375,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 154508132,
      "step": 1223
    },
    {
      "epoch": 0.31398704546912076,
      "grad_norm": 92.18440246582031,
      "learning_rate": 5e-06,
      "loss": 1.2043,
      "num_input_tokens_seen": 154634868,
      "step": 1224
    },
    {
      "epoch": 0.31398704546912076,
      "loss": 1.1712418794631958,
      "loss_ce": 0.00034349842462688684,
      "loss_iou": 0.546875,
      "loss_num": 0.01611328125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 154634868,
      "step": 1224
    },
    {
      "epoch": 0.31424357083306614,
      "grad_norm": 52.418399810791016,
      "learning_rate": 5e-06,
      "loss": 1.2635,
      "num_input_tokens_seen": 154761224,
      "step": 1225
    },
    {
      "epoch": 0.31424357083306614,
      "loss": 1.2632883787155151,
      "loss_ce": 0.0015696072950959206,
      "loss_iou": 0.58984375,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 154761224,
      "step": 1225
    },
    {
      "epoch": 0.31450009619701147,
      "grad_norm": 35.88551712036133,
      "learning_rate": 5e-06,
      "loss": 1.21,
      "num_input_tokens_seen": 154888452,
      "step": 1226
    },
    {
      "epoch": 0.31450009619701147,
      "loss": 1.17165207862854,
      "loss_ce": 0.001241970108821988,
      "loss_iou": 0.52734375,
      "loss_num": 0.0234375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 154888452,
      "step": 1226
    },
    {
      "epoch": 0.31475662156095685,
      "grad_norm": 22.700986862182617,
      "learning_rate": 5e-06,
      "loss": 1.1412,
      "num_input_tokens_seen": 155015804,
      "step": 1227
    },
    {
      "epoch": 0.31475662156095685,
      "loss": 1.0853543281555176,
      "loss_ce": 0.0033230185508728027,
      "loss_iou": 0.49609375,
      "loss_num": 0.017822265625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 155015804,
      "step": 1227
    },
    {
      "epoch": 0.3150131469249022,
      "grad_norm": 36.262229919433594,
      "learning_rate": 5e-06,
      "loss": 1.0805,
      "num_input_tokens_seen": 155142876,
      "step": 1228
    },
    {
      "epoch": 0.3150131469249022,
      "loss": 1.1358907222747803,
      "loss_ce": 0.0011250171810388565,
      "loss_iou": 0.53125,
      "loss_num": 0.01495361328125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 155142876,
      "step": 1228
    },
    {
      "epoch": 0.31526967228884756,
      "grad_norm": 61.85090255737305,
      "learning_rate": 5e-06,
      "loss": 1.2037,
      "num_input_tokens_seen": 155270552,
      "step": 1229
    },
    {
      "epoch": 0.31526967228884756,
      "loss": 1.3579082489013672,
      "loss_ce": 0.0009746490977704525,
      "loss_iou": 0.609375,
      "loss_num": 0.02783203125,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 155270552,
      "step": 1229
    },
    {
      "epoch": 0.31552619765279294,
      "grad_norm": 49.379093170166016,
      "learning_rate": 5e-06,
      "loss": 1.2888,
      "num_input_tokens_seen": 155396964,
      "step": 1230
    },
    {
      "epoch": 0.31552619765279294,
      "loss": 1.084566354751587,
      "loss_ce": 0.000582003325689584,
      "loss_iou": 0.498046875,
      "loss_num": 0.0177001953125,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 155396964,
      "step": 1230
    },
    {
      "epoch": 0.31578272301673826,
      "grad_norm": 23.049150466918945,
      "learning_rate": 5e-06,
      "loss": 1.2119,
      "num_input_tokens_seen": 155522456,
      "step": 1231
    },
    {
      "epoch": 0.31578272301673826,
      "loss": 1.3676241636276245,
      "loss_ce": 0.0009249672293663025,
      "loss_iou": 0.62890625,
      "loss_num": 0.021728515625,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 155522456,
      "step": 1231
    },
    {
      "epoch": 0.31603924838068365,
      "grad_norm": 37.24660873413086,
      "learning_rate": 5e-06,
      "loss": 1.2357,
      "num_input_tokens_seen": 155649000,
      "step": 1232
    },
    {
      "epoch": 0.31603924838068365,
      "loss": 1.2274184226989746,
      "loss_ce": 0.0023206742480397224,
      "loss_iou": 0.56640625,
      "loss_num": 0.018798828125,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 155649000,
      "step": 1232
    },
    {
      "epoch": 0.316295773744629,
      "grad_norm": 74.2628173828125,
      "learning_rate": 5e-06,
      "loss": 1.2428,
      "num_input_tokens_seen": 155777076,
      "step": 1233
    },
    {
      "epoch": 0.316295773744629,
      "loss": 1.421152114868164,
      "loss_ce": 0.0007419618195854127,
      "loss_iou": 0.64453125,
      "loss_num": 0.026611328125,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 155777076,
      "step": 1233
    },
    {
      "epoch": 0.31655229910857435,
      "grad_norm": 87.88998413085938,
      "learning_rate": 5e-06,
      "loss": 1.3826,
      "num_input_tokens_seen": 155903808,
      "step": 1234
    },
    {
      "epoch": 0.31655229910857435,
      "loss": 1.3346400260925293,
      "loss_ce": 0.0006556602893397212,
      "loss_iou": 0.609375,
      "loss_num": 0.022705078125,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 155903808,
      "step": 1234
    },
    {
      "epoch": 0.31680882447251973,
      "grad_norm": 33.18396759033203,
      "learning_rate": 5e-06,
      "loss": 1.1047,
      "num_input_tokens_seen": 156029688,
      "step": 1235
    },
    {
      "epoch": 0.31680882447251973,
      "loss": 1.1996961832046509,
      "loss_ce": 0.003895382396876812,
      "loss_iou": 0.546875,
      "loss_num": 0.0206298828125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 156029688,
      "step": 1235
    },
    {
      "epoch": 0.31706534983646506,
      "grad_norm": 38.53822708129883,
      "learning_rate": 5e-06,
      "loss": 1.142,
      "num_input_tokens_seen": 156156728,
      "step": 1236
    },
    {
      "epoch": 0.31706534983646506,
      "loss": 1.159820795059204,
      "loss_ce": 0.0011293981224298477,
      "loss_iou": 0.53125,
      "loss_num": 0.01904296875,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 156156728,
      "step": 1236
    },
    {
      "epoch": 0.31732187520041044,
      "grad_norm": 99.89830780029297,
      "learning_rate": 5e-06,
      "loss": 1.1957,
      "num_input_tokens_seen": 156283948,
      "step": 1237
    },
    {
      "epoch": 0.31732187520041044,
      "loss": 1.2474554777145386,
      "loss_ce": 0.00038512013270519674,
      "loss_iou": 0.56640625,
      "loss_num": 0.0234375,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 156283948,
      "step": 1237
    },
    {
      "epoch": 0.3175784005643558,
      "grad_norm": 58.59158706665039,
      "learning_rate": 5e-06,
      "loss": 1.2775,
      "num_input_tokens_seen": 156410556,
      "step": 1238
    },
    {
      "epoch": 0.3175784005643558,
      "loss": 1.4197802543640137,
      "loss_ce": 0.0013232952915132046,
      "loss_iou": 0.65234375,
      "loss_num": 0.0224609375,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 156410556,
      "step": 1238
    },
    {
      "epoch": 0.31783492592830115,
      "grad_norm": 50.662818908691406,
      "learning_rate": 5e-06,
      "loss": 1.2505,
      "num_input_tokens_seen": 156537060,
      "step": 1239
    },
    {
      "epoch": 0.31783492592830115,
      "loss": 1.3356022834777832,
      "loss_ce": 0.003082744777202606,
      "loss_iou": 0.59765625,
      "loss_num": 0.02783203125,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 156537060,
      "step": 1239
    },
    {
      "epoch": 0.31809145129224653,
      "grad_norm": 37.37484359741211,
      "learning_rate": 5e-06,
      "loss": 1.0692,
      "num_input_tokens_seen": 156663660,
      "step": 1240
    },
    {
      "epoch": 0.31809145129224653,
      "loss": 1.0569722652435303,
      "loss_ce": 0.005458524450659752,
      "loss_iou": 0.474609375,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 156663660,
      "step": 1240
    },
    {
      "epoch": 0.31834797665619186,
      "grad_norm": 102.17037200927734,
      "learning_rate": 5e-06,
      "loss": 1.2209,
      "num_input_tokens_seen": 156790252,
      "step": 1241
    },
    {
      "epoch": 0.31834797665619186,
      "loss": 1.1857203245162964,
      "loss_ce": 0.001638320623897016,
      "loss_iou": 0.55078125,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 156790252,
      "step": 1241
    },
    {
      "epoch": 0.31860450202013724,
      "grad_norm": 58.911895751953125,
      "learning_rate": 5e-06,
      "loss": 1.36,
      "num_input_tokens_seen": 156917896,
      "step": 1242
    },
    {
      "epoch": 0.31860450202013724,
      "loss": 1.3864706754684448,
      "loss_ce": 0.00024021565332077444,
      "loss_iou": 0.6328125,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 156917896,
      "step": 1242
    },
    {
      "epoch": 0.3188610273840826,
      "grad_norm": 46.78139877319336,
      "learning_rate": 5e-06,
      "loss": 1.3264,
      "num_input_tokens_seen": 157045068,
      "step": 1243
    },
    {
      "epoch": 0.3188610273840826,
      "loss": 1.793162226676941,
      "loss_ce": 0.002146589569747448,
      "loss_iou": 0.78515625,
      "loss_num": 0.043212890625,
      "loss_xval": 1.7890625,
      "num_input_tokens_seen": 157045068,
      "step": 1243
    },
    {
      "epoch": 0.31911755274802794,
      "grad_norm": 29.730369567871094,
      "learning_rate": 5e-06,
      "loss": 1.1455,
      "num_input_tokens_seen": 157171968,
      "step": 1244
    },
    {
      "epoch": 0.31911755274802794,
      "loss": 1.131456732749939,
      "loss_ce": 0.0020621963776648045,
      "loss_iou": 0.52734375,
      "loss_num": 0.01446533203125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 157171968,
      "step": 1244
    },
    {
      "epoch": 0.3193740781119733,
      "grad_norm": 77.9807357788086,
      "learning_rate": 5e-06,
      "loss": 1.0194,
      "num_input_tokens_seen": 157299032,
      "step": 1245
    },
    {
      "epoch": 0.3193740781119733,
      "loss": 0.9682940244674683,
      "loss_ce": 0.0014971306081861258,
      "loss_iou": 0.451171875,
      "loss_num": 0.0128173828125,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 157299032,
      "step": 1245
    },
    {
      "epoch": 0.3196306034759187,
      "grad_norm": 48.1530647277832,
      "learning_rate": 5e-06,
      "loss": 1.2666,
      "num_input_tokens_seen": 157425116,
      "step": 1246
    },
    {
      "epoch": 0.3196306034759187,
      "loss": 1.2508158683776855,
      "loss_ce": 0.0022806732449680567,
      "loss_iou": 0.58203125,
      "loss_num": 0.0166015625,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 157425116,
      "step": 1246
    },
    {
      "epoch": 0.31988712883986403,
      "grad_norm": 46.44908142089844,
      "learning_rate": 5e-06,
      "loss": 1.0781,
      "num_input_tokens_seen": 157550620,
      "step": 1247
    },
    {
      "epoch": 0.31988712883986403,
      "loss": 1.1350905895233154,
      "loss_ce": 0.002278009196743369,
      "loss_iou": 0.5234375,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 157550620,
      "step": 1247
    },
    {
      "epoch": 0.3201436542038094,
      "grad_norm": 45.566993713378906,
      "learning_rate": 5e-06,
      "loss": 1.3358,
      "num_input_tokens_seen": 157677300,
      "step": 1248
    },
    {
      "epoch": 0.3201436542038094,
      "loss": 1.2589658498764038,
      "loss_ce": 0.002618188504129648,
      "loss_iou": 0.58984375,
      "loss_num": 0.01495361328125,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 157677300,
      "step": 1248
    },
    {
      "epoch": 0.32040017956775474,
      "grad_norm": 56.907222747802734,
      "learning_rate": 5e-06,
      "loss": 1.0396,
      "num_input_tokens_seen": 157803740,
      "step": 1249
    },
    {
      "epoch": 0.32040017956775474,
      "loss": 0.7915816307067871,
      "loss_ce": 0.0015425414312630892,
      "loss_iou": 0.376953125,
      "loss_num": 0.0072021484375,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 157803740,
      "step": 1249
    },
    {
      "epoch": 0.3206567049317001,
      "grad_norm": 97.7392807006836,
      "learning_rate": 5e-06,
      "loss": 1.2423,
      "num_input_tokens_seen": 157930284,
      "step": 1250
    },
    {
      "epoch": 0.3206567049317001,
      "eval_icons_CIoU": 0.07249780464917421,
      "eval_icons_GIoU": 0.051892523964852444,
      "eval_icons_IoU": 0.2341599464416504,
      "eval_icons_MAE_all": 0.041067127138376236,
      "eval_icons_MAE_h": 0.06431837379932404,
      "eval_icons_MAE_w": 0.05282559059560299,
      "eval_icons_MAE_x_boxes": 0.04309998266398907,
      "eval_icons_MAE_y_boxes": 0.05791044794023037,
      "eval_icons_NUM_probability": 0.9998266100883484,
      "eval_icons_inside_bbox": 0.4357638955116272,
      "eval_icons_loss": 2.0571579933166504,
      "eval_icons_loss_ce": 0.00025336610997328535,
      "eval_icons_loss_iou": 0.9228515625,
      "eval_icons_loss_num": 0.045867919921875,
      "eval_icons_loss_xval": 2.0751953125,
      "eval_icons_runtime": 48.1488,
      "eval_icons_samples_per_second": 1.038,
      "eval_icons_steps_per_second": 0.042,
      "num_input_tokens_seen": 157930284,
      "step": 1250
    },
    {
      "epoch": 0.3206567049317001,
      "eval_screenspot_CIoU": 0.09262648721536,
      "eval_screenspot_GIoU": 0.07646190685530503,
      "eval_screenspot_IoU": 0.27494342625141144,
      "eval_screenspot_MAE_all": 0.08039362480243047,
      "eval_screenspot_MAE_h": 0.061564527451992035,
      "eval_screenspot_MAE_w": 0.13922135531902313,
      "eval_screenspot_MAE_x_boxes": 0.10712922116120656,
      "eval_screenspot_MAE_y_boxes": 0.057735685259103775,
      "eval_screenspot_NUM_probability": 0.9997729857762655,
      "eval_screenspot_inside_bbox": 0.5674999952316284,
      "eval_screenspot_loss": 2.295961856842041,
      "eval_screenspot_loss_ce": 0.0023575947464754186,
      "eval_screenspot_loss_iou": 0.9524739583333334,
      "eval_screenspot_loss_num": 0.087677001953125,
      "eval_screenspot_loss_xval": 2.3440755208333335,
      "eval_screenspot_runtime": 92.9896,
      "eval_screenspot_samples_per_second": 0.957,
      "eval_screenspot_steps_per_second": 0.032,
      "num_input_tokens_seen": 157930284,
      "step": 1250
    },
    {
      "epoch": 0.3206567049317001,
      "loss": 2.281397819519043,
      "loss_ce": 0.0021008620969951153,
      "loss_iou": 0.93359375,
      "loss_num": 0.08154296875,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 157930284,
      "step": 1250
    },
    {
      "epoch": 0.3209132302956455,
      "grad_norm": 49.13286209106445,
      "learning_rate": 5e-06,
      "loss": 1.3605,
      "num_input_tokens_seen": 158056948,
      "step": 1251
    },
    {
      "epoch": 0.3209132302956455,
      "loss": 1.4044119119644165,
      "loss_ce": 0.0020682315807789564,
      "loss_iou": 0.65625,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 158056948,
      "step": 1251
    },
    {
      "epoch": 0.3211697556595908,
      "grad_norm": 22.003841400146484,
      "learning_rate": 5e-06,
      "loss": 1.1204,
      "num_input_tokens_seen": 158183664,
      "step": 1252
    },
    {
      "epoch": 0.3211697556595908,
      "loss": 1.1046695709228516,
      "loss_ce": 0.001642246963456273,
      "loss_iou": 0.50390625,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 158183664,
      "step": 1252
    },
    {
      "epoch": 0.3214262810235362,
      "grad_norm": 38.642093658447266,
      "learning_rate": 5e-06,
      "loss": 1.1466,
      "num_input_tokens_seen": 158310920,
      "step": 1253
    },
    {
      "epoch": 0.3214262810235362,
      "loss": 1.2146748304367065,
      "loss_ce": 0.0012959240702912211,
      "loss_iou": 0.5703125,
      "loss_num": 0.014404296875,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 158310920,
      "step": 1253
    },
    {
      "epoch": 0.32168280638748153,
      "grad_norm": 79.42029571533203,
      "learning_rate": 5e-06,
      "loss": 1.1508,
      "num_input_tokens_seen": 158438064,
      "step": 1254
    },
    {
      "epoch": 0.32168280638748153,
      "loss": 1.1083695888519287,
      "loss_ce": 0.0019241985864937305,
      "loss_iou": 0.5234375,
      "loss_num": 0.01275634765625,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 158438064,
      "step": 1254
    },
    {
      "epoch": 0.3219393317514269,
      "grad_norm": 59.38174819946289,
      "learning_rate": 5e-06,
      "loss": 1.1327,
      "num_input_tokens_seen": 158564312,
      "step": 1255
    },
    {
      "epoch": 0.3219393317514269,
      "loss": 0.9882862567901611,
      "loss_ce": 0.001469826209358871,
      "loss_iou": 0.46875,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 158564312,
      "step": 1255
    },
    {
      "epoch": 0.3221958571153723,
      "grad_norm": 53.7601432800293,
      "learning_rate": 5e-06,
      "loss": 1.182,
      "num_input_tokens_seen": 158690956,
      "step": 1256
    },
    {
      "epoch": 0.3221958571153723,
      "loss": 1.2844516038894653,
      "loss_ce": 0.004178113769739866,
      "loss_iou": 0.58203125,
      "loss_num": 0.0233154296875,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 158690956,
      "step": 1256
    },
    {
      "epoch": 0.3224523824793176,
      "grad_norm": 46.47795104980469,
      "learning_rate": 5e-06,
      "loss": 1.2916,
      "num_input_tokens_seen": 158817132,
      "step": 1257
    },
    {
      "epoch": 0.3224523824793176,
      "loss": 1.4170336723327637,
      "loss_ce": 0.0015063219470903277,
      "loss_iou": 0.64453125,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 158817132,
      "step": 1257
    },
    {
      "epoch": 0.322708907843263,
      "grad_norm": 51.43967819213867,
      "learning_rate": 5e-06,
      "loss": 1.1378,
      "num_input_tokens_seen": 158943264,
      "step": 1258
    },
    {
      "epoch": 0.322708907843263,
      "loss": 1.0961565971374512,
      "loss_ce": 0.00045342050725594163,
      "loss_iou": 0.50390625,
      "loss_num": 0.01806640625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 158943264,
      "step": 1258
    },
    {
      "epoch": 0.3229654332072084,
      "grad_norm": 56.76911163330078,
      "learning_rate": 5e-06,
      "loss": 1.2516,
      "num_input_tokens_seen": 159070256,
      "step": 1259
    },
    {
      "epoch": 0.3229654332072084,
      "loss": 1.4198393821716309,
      "loss_ce": 0.0057767960242927074,
      "loss_iou": 0.64453125,
      "loss_num": 0.024658203125,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 159070256,
      "step": 1259
    },
    {
      "epoch": 0.3232219585711537,
      "grad_norm": 52.00578308105469,
      "learning_rate": 5e-06,
      "loss": 1.1684,
      "num_input_tokens_seen": 159195724,
      "step": 1260
    },
    {
      "epoch": 0.3232219585711537,
      "loss": 1.0434730052947998,
      "loss_ce": 0.0005042726988904178,
      "loss_iou": 0.498046875,
      "loss_num": 0.00927734375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 159195724,
      "step": 1260
    },
    {
      "epoch": 0.3234784839350991,
      "grad_norm": 75.0935287475586,
      "learning_rate": 5e-06,
      "loss": 1.2233,
      "num_input_tokens_seen": 159321300,
      "step": 1261
    },
    {
      "epoch": 0.3234784839350991,
      "loss": 1.0849721431732178,
      "loss_ce": 0.0014760458143427968,
      "loss_iou": 0.51953125,
      "loss_num": 0.0091552734375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 159321300,
      "step": 1261
    },
    {
      "epoch": 0.3237350092990444,
      "grad_norm": 58.67608642578125,
      "learning_rate": 5e-06,
      "loss": 1.175,
      "num_input_tokens_seen": 159446904,
      "step": 1262
    },
    {
      "epoch": 0.3237350092990444,
      "loss": 1.0455586910247803,
      "loss_ce": 0.0006368847680278122,
      "loss_iou": 0.490234375,
      "loss_num": 0.0128173828125,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 159446904,
      "step": 1262
    },
    {
      "epoch": 0.3239915346629898,
      "grad_norm": 51.717247009277344,
      "learning_rate": 5e-06,
      "loss": 1.1815,
      "num_input_tokens_seen": 159572288,
      "step": 1263
    },
    {
      "epoch": 0.3239915346629898,
      "loss": 1.384324312210083,
      "loss_ce": 0.004929807037115097,
      "loss_iou": 0.61328125,
      "loss_num": 0.0308837890625,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 159572288,
      "step": 1263
    },
    {
      "epoch": 0.3242480600269352,
      "grad_norm": 67.50569915771484,
      "learning_rate": 5e-06,
      "loss": 1.286,
      "num_input_tokens_seen": 159700324,
      "step": 1264
    },
    {
      "epoch": 0.3242480600269352,
      "loss": 1.140454888343811,
      "loss_ce": 0.0008064016001299024,
      "loss_iou": 0.53125,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 159700324,
      "step": 1264
    },
    {
      "epoch": 0.3245045853908805,
      "grad_norm": 84.49181365966797,
      "learning_rate": 5e-06,
      "loss": 1.1452,
      "num_input_tokens_seen": 159826228,
      "step": 1265
    },
    {
      "epoch": 0.3245045853908805,
      "loss": 1.0273422002792358,
      "loss_ce": 0.0004867032985202968,
      "loss_iou": 0.478515625,
      "loss_num": 0.0135498046875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 159826228,
      "step": 1265
    },
    {
      "epoch": 0.3247611107548259,
      "grad_norm": 46.9498405456543,
      "learning_rate": 5e-06,
      "loss": 1.2702,
      "num_input_tokens_seen": 159951808,
      "step": 1266
    },
    {
      "epoch": 0.3247611107548259,
      "loss": 1.376418113708496,
      "loss_ce": 0.0009298399090766907,
      "loss_iou": 0.62890625,
      "loss_num": 0.023193359375,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 159951808,
      "step": 1266
    },
    {
      "epoch": 0.32501763611877127,
      "grad_norm": 40.754417419433594,
      "learning_rate": 5e-06,
      "loss": 1.2289,
      "num_input_tokens_seen": 160078512,
      "step": 1267
    },
    {
      "epoch": 0.32501763611877127,
      "loss": 1.1473593711853027,
      "loss_ce": 0.002828042721375823,
      "loss_iou": 0.51953125,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 160078512,
      "step": 1267
    },
    {
      "epoch": 0.3252741614827166,
      "grad_norm": 55.02046203613281,
      "learning_rate": 5e-06,
      "loss": 1.2602,
      "num_input_tokens_seen": 160204528,
      "step": 1268
    },
    {
      "epoch": 0.3252741614827166,
      "loss": 1.283548355102539,
      "loss_ce": 0.0013217454543337226,
      "loss_iou": 0.57421875,
      "loss_num": 0.02734375,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 160204528,
      "step": 1268
    },
    {
      "epoch": 0.325530686846662,
      "grad_norm": 55.47435760498047,
      "learning_rate": 5e-06,
      "loss": 1.171,
      "num_input_tokens_seen": 160330000,
      "step": 1269
    },
    {
      "epoch": 0.325530686846662,
      "loss": 1.098606824874878,
      "loss_ce": 0.0009504985064268112,
      "loss_iou": 0.51171875,
      "loss_num": 0.0147705078125,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 160330000,
      "step": 1269
    },
    {
      "epoch": 0.3257872122106073,
      "grad_norm": 75.13670349121094,
      "learning_rate": 5e-06,
      "loss": 1.0311,
      "num_input_tokens_seen": 160457704,
      "step": 1270
    },
    {
      "epoch": 0.3257872122106073,
      "loss": 0.9925092458724976,
      "loss_ce": 0.0008100575651042163,
      "loss_iou": 0.466796875,
      "loss_num": 0.011474609375,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 160457704,
      "step": 1270
    },
    {
      "epoch": 0.3260437375745527,
      "grad_norm": 49.65742874145508,
      "learning_rate": 5e-06,
      "loss": 1.2935,
      "num_input_tokens_seen": 160583604,
      "step": 1271
    },
    {
      "epoch": 0.3260437375745527,
      "loss": 1.3626670837402344,
      "loss_ce": 0.0032921605743467808,
      "loss_iou": 0.6171875,
      "loss_num": 0.0255126953125,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 160583604,
      "step": 1271
    },
    {
      "epoch": 0.32630026293849806,
      "grad_norm": 44.61846923828125,
      "learning_rate": 5e-06,
      "loss": 1.066,
      "num_input_tokens_seen": 160711032,
      "step": 1272
    },
    {
      "epoch": 0.32630026293849806,
      "loss": 1.0957932472229004,
      "loss_ce": 0.0025316495448350906,
      "loss_iou": 0.5,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 160711032,
      "step": 1272
    },
    {
      "epoch": 0.3265567883024434,
      "grad_norm": 56.59669876098633,
      "learning_rate": 5e-06,
      "loss": 1.1031,
      "num_input_tokens_seen": 160838388,
      "step": 1273
    },
    {
      "epoch": 0.3265567883024434,
      "loss": 1.1854407787322998,
      "loss_ce": 0.0008704534848220646,
      "loss_iou": 0.55859375,
      "loss_num": 0.013671875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 160838388,
      "step": 1273
    },
    {
      "epoch": 0.32681331366638877,
      "grad_norm": 47.14057922363281,
      "learning_rate": 5e-06,
      "loss": 1.1454,
      "num_input_tokens_seen": 160964152,
      "step": 1274
    },
    {
      "epoch": 0.32681331366638877,
      "loss": 1.0448768138885498,
      "loss_ce": 0.007767427712678909,
      "loss_iou": 0.46484375,
      "loss_num": 0.021484375,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 160964152,
      "step": 1274
    },
    {
      "epoch": 0.3270698390303341,
      "grad_norm": 25.139583587646484,
      "learning_rate": 5e-06,
      "loss": 1.1345,
      "num_input_tokens_seen": 161089668,
      "step": 1275
    },
    {
      "epoch": 0.3270698390303341,
      "loss": 1.2592412233352661,
      "loss_ce": 0.0038701368030160666,
      "loss_iou": 0.55859375,
      "loss_num": 0.0274658203125,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 161089668,
      "step": 1275
    },
    {
      "epoch": 0.3273263643942795,
      "grad_norm": 41.49599075317383,
      "learning_rate": 5e-06,
      "loss": 1.089,
      "num_input_tokens_seen": 161215136,
      "step": 1276
    },
    {
      "epoch": 0.3273263643942795,
      "loss": 1.1638729572296143,
      "loss_ce": 0.000542897789273411,
      "loss_iou": 0.54296875,
      "loss_num": 0.01556396484375,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 161215136,
      "step": 1276
    },
    {
      "epoch": 0.32758288975822486,
      "grad_norm": 40.1270637512207,
      "learning_rate": 5e-06,
      "loss": 1.1918,
      "num_input_tokens_seen": 161341232,
      "step": 1277
    },
    {
      "epoch": 0.32758288975822486,
      "loss": 1.261702537536621,
      "loss_ce": 0.0034017222933471203,
      "loss_iou": 0.5703125,
      "loss_num": 0.024169921875,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 161341232,
      "step": 1277
    },
    {
      "epoch": 0.3278394151221702,
      "grad_norm": 62.625404357910156,
      "learning_rate": 5e-06,
      "loss": 1.1796,
      "num_input_tokens_seen": 161468304,
      "step": 1278
    },
    {
      "epoch": 0.3278394151221702,
      "loss": 1.2309691905975342,
      "loss_ce": 0.004895085468888283,
      "loss_iou": 0.55078125,
      "loss_num": 0.02490234375,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 161468304,
      "step": 1278
    },
    {
      "epoch": 0.32809594048611557,
      "grad_norm": 47.544281005859375,
      "learning_rate": 5e-06,
      "loss": 1.2608,
      "num_input_tokens_seen": 161595512,
      "step": 1279
    },
    {
      "epoch": 0.32809594048611557,
      "loss": 1.0017330646514893,
      "loss_ce": 0.0002682343474589288,
      "loss_iou": 0.4765625,
      "loss_num": 0.00970458984375,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 161595512,
      "step": 1279
    },
    {
      "epoch": 0.32835246585006095,
      "grad_norm": 37.14018630981445,
      "learning_rate": 5e-06,
      "loss": 1.0989,
      "num_input_tokens_seen": 161722260,
      "step": 1280
    },
    {
      "epoch": 0.32835246585006095,
      "loss": 1.0397568941116333,
      "loss_ce": 0.0006944277556613088,
      "loss_iou": 0.482421875,
      "loss_num": 0.01483154296875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 161722260,
      "step": 1280
    },
    {
      "epoch": 0.3286089912140063,
      "grad_norm": 82.61949157714844,
      "learning_rate": 5e-06,
      "loss": 1.2128,
      "num_input_tokens_seen": 161849356,
      "step": 1281
    },
    {
      "epoch": 0.3286089912140063,
      "loss": 1.1757259368896484,
      "loss_ce": 0.0038508926518261433,
      "loss_iou": 0.5390625,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 161849356,
      "step": 1281
    },
    {
      "epoch": 0.32886551657795166,
      "grad_norm": 46.82399368286133,
      "learning_rate": 5e-06,
      "loss": 1.3612,
      "num_input_tokens_seen": 161976004,
      "step": 1282
    },
    {
      "epoch": 0.32886551657795166,
      "loss": 1.2931817770004272,
      "loss_ce": 0.0007012529531493783,
      "loss_iou": 0.6015625,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 161976004,
      "step": 1282
    },
    {
      "epoch": 0.329122041941897,
      "grad_norm": 41.240333557128906,
      "learning_rate": 5e-06,
      "loss": 1.1757,
      "num_input_tokens_seen": 162101172,
      "step": 1283
    },
    {
      "epoch": 0.329122041941897,
      "loss": 1.0424840450286865,
      "loss_ce": 0.0009800756815820932,
      "loss_iou": 0.48046875,
      "loss_num": 0.015869140625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 162101172,
      "step": 1283
    },
    {
      "epoch": 0.32937856730584236,
      "grad_norm": 39.98911666870117,
      "learning_rate": 5e-06,
      "loss": 1.1001,
      "num_input_tokens_seen": 162227364,
      "step": 1284
    },
    {
      "epoch": 0.32937856730584236,
      "loss": 0.9344456791877747,
      "loss_ce": 0.003293338231742382,
      "loss_iou": 0.44921875,
      "loss_num": 0.006622314453125,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 162227364,
      "step": 1284
    },
    {
      "epoch": 0.32963509266978774,
      "grad_norm": 64.64836883544922,
      "learning_rate": 5e-06,
      "loss": 1.1642,
      "num_input_tokens_seen": 162354108,
      "step": 1285
    },
    {
      "epoch": 0.32963509266978774,
      "loss": 0.9994192719459534,
      "loss_ce": 0.00039583229226991534,
      "loss_iou": 0.470703125,
      "loss_num": 0.011962890625,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 162354108,
      "step": 1285
    },
    {
      "epoch": 0.32989161803373307,
      "grad_norm": 52.525047302246094,
      "learning_rate": 5e-06,
      "loss": 1.3096,
      "num_input_tokens_seen": 162480556,
      "step": 1286
    },
    {
      "epoch": 0.32989161803373307,
      "loss": 1.263479232788086,
      "loss_ce": 0.0022488341201096773,
      "loss_iou": 0.578125,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 162480556,
      "step": 1286
    },
    {
      "epoch": 0.33014814339767845,
      "grad_norm": 31.575300216674805,
      "learning_rate": 5e-06,
      "loss": 1.0925,
      "num_input_tokens_seen": 162606876,
      "step": 1287
    },
    {
      "epoch": 0.33014814339767845,
      "loss": 1.0394039154052734,
      "loss_ce": 0.0018062794115394354,
      "loss_iou": 0.46875,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 162606876,
      "step": 1287
    },
    {
      "epoch": 0.33040466876162383,
      "grad_norm": 51.45674133300781,
      "learning_rate": 5e-06,
      "loss": 1.1673,
      "num_input_tokens_seen": 162733600,
      "step": 1288
    },
    {
      "epoch": 0.33040466876162383,
      "loss": 1.156322717666626,
      "loss_ce": 0.0010491975117474794,
      "loss_iou": 0.52734375,
      "loss_num": 0.020751953125,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 162733600,
      "step": 1288
    },
    {
      "epoch": 0.33066119412556916,
      "grad_norm": 94.004150390625,
      "learning_rate": 5e-06,
      "loss": 1.1264,
      "num_input_tokens_seen": 162861144,
      "step": 1289
    },
    {
      "epoch": 0.33066119412556916,
      "loss": 1.1836069822311401,
      "loss_ce": 0.0012340189423412085,
      "loss_iou": 0.53125,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 162861144,
      "step": 1289
    },
    {
      "epoch": 0.33091771948951454,
      "grad_norm": 61.09849166870117,
      "learning_rate": 5e-06,
      "loss": 1.3749,
      "num_input_tokens_seen": 162987824,
      "step": 1290
    },
    {
      "epoch": 0.33091771948951454,
      "loss": 1.4572348594665527,
      "loss_ce": 0.001180208520963788,
      "loss_iou": 0.6640625,
      "loss_num": 0.0263671875,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 162987824,
      "step": 1290
    },
    {
      "epoch": 0.33117424485345986,
      "grad_norm": 36.687713623046875,
      "learning_rate": 5e-06,
      "loss": 1.09,
      "num_input_tokens_seen": 163112908,
      "step": 1291
    },
    {
      "epoch": 0.33117424485345986,
      "loss": 1.0988482236862183,
      "loss_ce": 0.00070370570756495,
      "loss_iou": 0.50390625,
      "loss_num": 0.0185546875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 163112908,
      "step": 1291
    },
    {
      "epoch": 0.33143077021740525,
      "grad_norm": 70.69438934326172,
      "learning_rate": 5e-06,
      "loss": 1.1085,
      "num_input_tokens_seen": 163238448,
      "step": 1292
    },
    {
      "epoch": 0.33143077021740525,
      "loss": 0.9702016115188599,
      "loss_ce": 0.0019399607554078102,
      "loss_iou": 0.44921875,
      "loss_num": 0.013671875,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 163238448,
      "step": 1292
    },
    {
      "epoch": 0.3316872955813506,
      "grad_norm": 57.450984954833984,
      "learning_rate": 5e-06,
      "loss": 1.1714,
      "num_input_tokens_seen": 163364788,
      "step": 1293
    },
    {
      "epoch": 0.3316872955813506,
      "loss": 1.23496675491333,
      "loss_ce": 0.00449793878942728,
      "loss_iou": 0.5625,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 163364788,
      "step": 1293
    },
    {
      "epoch": 0.33194382094529595,
      "grad_norm": 43.01051330566406,
      "learning_rate": 5e-06,
      "loss": 1.1369,
      "num_input_tokens_seen": 163490588,
      "step": 1294
    },
    {
      "epoch": 0.33194382094529595,
      "loss": 1.2329139709472656,
      "loss_ce": 0.003910066559910774,
      "loss_iou": 0.55859375,
      "loss_num": 0.0228271484375,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 163490588,
      "step": 1294
    },
    {
      "epoch": 0.33220034630924133,
      "grad_norm": 61.832157135009766,
      "learning_rate": 5e-06,
      "loss": 1.2807,
      "num_input_tokens_seen": 163615720,
      "step": 1295
    },
    {
      "epoch": 0.33220034630924133,
      "loss": 1.2912871837615967,
      "loss_ce": 0.001248168759047985,
      "loss_iou": 0.5859375,
      "loss_num": 0.023193359375,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 163615720,
      "step": 1295
    },
    {
      "epoch": 0.33245687167318666,
      "grad_norm": 48.8303108215332,
      "learning_rate": 5e-06,
      "loss": 1.1549,
      "num_input_tokens_seen": 163743344,
      "step": 1296
    },
    {
      "epoch": 0.33245687167318666,
      "loss": 1.1412134170532227,
      "loss_ce": 0.0015649141278117895,
      "loss_iou": 0.53125,
      "loss_num": 0.0162353515625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 163743344,
      "step": 1296
    },
    {
      "epoch": 0.33271339703713204,
      "grad_norm": 72.43038177490234,
      "learning_rate": 5e-06,
      "loss": 1.0591,
      "num_input_tokens_seen": 163869880,
      "step": 1297
    },
    {
      "epoch": 0.33271339703713204,
      "loss": 1.0622000694274902,
      "loss_ce": 0.0011650202795863152,
      "loss_iou": 0.50390625,
      "loss_num": 0.010498046875,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 163869880,
      "step": 1297
    },
    {
      "epoch": 0.3329699224010774,
      "grad_norm": 55.02589416503906,
      "learning_rate": 5e-06,
      "loss": 1.3604,
      "num_input_tokens_seen": 163995688,
      "step": 1298
    },
    {
      "epoch": 0.3329699224010774,
      "loss": 1.3565266132354736,
      "loss_ce": 0.0054524801671504974,
      "loss_iou": 0.6171875,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 163995688,
      "step": 1298
    },
    {
      "epoch": 0.33322644776502275,
      "grad_norm": 32.55293273925781,
      "learning_rate": 5e-06,
      "loss": 1.1037,
      "num_input_tokens_seen": 164121796,
      "step": 1299
    },
    {
      "epoch": 0.33322644776502275,
      "loss": 1.0788705348968506,
      "loss_ce": 0.0007456161547452211,
      "loss_iou": 0.50390625,
      "loss_num": 0.01446533203125,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 164121796,
      "step": 1299
    },
    {
      "epoch": 0.33348297312896813,
      "grad_norm": 46.604618072509766,
      "learning_rate": 5e-06,
      "loss": 1.2442,
      "num_input_tokens_seen": 164247464,
      "step": 1300
    },
    {
      "epoch": 0.33348297312896813,
      "loss": 1.1920204162597656,
      "loss_ce": 0.00305565120652318,
      "loss_iou": 0.53125,
      "loss_num": 0.025390625,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 164247464,
      "step": 1300
    },
    {
      "epoch": 0.3337394984929135,
      "grad_norm": 59.683128356933594,
      "learning_rate": 5e-06,
      "loss": 1.154,
      "num_input_tokens_seen": 164374484,
      "step": 1301
    },
    {
      "epoch": 0.3337394984929135,
      "loss": 1.1062514781951904,
      "loss_ce": 0.0022474948782473803,
      "loss_iou": 0.51171875,
      "loss_num": 0.01556396484375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 164374484,
      "step": 1301
    },
    {
      "epoch": 0.33399602385685884,
      "grad_norm": 84.57758331298828,
      "learning_rate": 5e-06,
      "loss": 1.2092,
      "num_input_tokens_seen": 164500856,
      "step": 1302
    },
    {
      "epoch": 0.33399602385685884,
      "loss": 1.2464287281036377,
      "loss_ce": 0.0008232389809563756,
      "loss_iou": 0.58984375,
      "loss_num": 0.0126953125,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 164500856,
      "step": 1302
    },
    {
      "epoch": 0.3342525492208042,
      "grad_norm": 49.97148132324219,
      "learning_rate": 5e-06,
      "loss": 1.3578,
      "num_input_tokens_seen": 164626968,
      "step": 1303
    },
    {
      "epoch": 0.3342525492208042,
      "loss": 1.3367893695831299,
      "loss_ce": 0.0008519052062183619,
      "loss_iou": 0.609375,
      "loss_num": 0.022705078125,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 164626968,
      "step": 1303
    },
    {
      "epoch": 0.33450907458474954,
      "grad_norm": 34.75997543334961,
      "learning_rate": 5e-06,
      "loss": 1.1853,
      "num_input_tokens_seen": 164752744,
      "step": 1304
    },
    {
      "epoch": 0.33450907458474954,
      "loss": 1.1197948455810547,
      "loss_ce": 0.001142518362030387,
      "loss_iou": 0.515625,
      "loss_num": 0.01806640625,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 164752744,
      "step": 1304
    },
    {
      "epoch": 0.3347655999486949,
      "grad_norm": 50.69468688964844,
      "learning_rate": 5e-06,
      "loss": 1.0847,
      "num_input_tokens_seen": 164878968,
      "step": 1305
    },
    {
      "epoch": 0.3347655999486949,
      "loss": 1.1378719806671143,
      "loss_ce": 0.0006649799179285765,
      "loss_iou": 0.53125,
      "loss_num": 0.01531982421875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 164878968,
      "step": 1305
    },
    {
      "epoch": 0.3350221253126403,
      "grad_norm": 92.58582305908203,
      "learning_rate": 5e-06,
      "loss": 1.2589,
      "num_input_tokens_seen": 165004864,
      "step": 1306
    },
    {
      "epoch": 0.3350221253126403,
      "loss": 0.9723803997039795,
      "loss_ce": 0.000700663193129003,
      "loss_iou": 0.466796875,
      "loss_num": 0.00799560546875,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 165004864,
      "step": 1306
    },
    {
      "epoch": 0.33527865067658563,
      "grad_norm": 51.65283203125,
      "learning_rate": 5e-06,
      "loss": 1.2906,
      "num_input_tokens_seen": 165131496,
      "step": 1307
    },
    {
      "epoch": 0.33527865067658563,
      "loss": 1.15885591506958,
      "loss_ce": 0.001141174347139895,
      "loss_iou": 0.5390625,
      "loss_num": 0.016357421875,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 165131496,
      "step": 1307
    },
    {
      "epoch": 0.335535176040531,
      "grad_norm": 65.71267700195312,
      "learning_rate": 5e-06,
      "loss": 1.0923,
      "num_input_tokens_seen": 165258852,
      "step": 1308
    },
    {
      "epoch": 0.335535176040531,
      "loss": 1.016379952430725,
      "loss_ce": 0.005149520002305508,
      "loss_iou": 0.4609375,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 165258852,
      "step": 1308
    },
    {
      "epoch": 0.3357917014044764,
      "grad_norm": 71.03826141357422,
      "learning_rate": 5e-06,
      "loss": 1.2708,
      "num_input_tokens_seen": 165384548,
      "step": 1309
    },
    {
      "epoch": 0.3357917014044764,
      "loss": 1.233874797821045,
      "loss_ce": 0.0014529803302139044,
      "loss_iou": 0.578125,
      "loss_num": 0.01507568359375,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 165384548,
      "step": 1309
    },
    {
      "epoch": 0.3360482267684217,
      "grad_norm": 49.2921028137207,
      "learning_rate": 5e-06,
      "loss": 1.3836,
      "num_input_tokens_seen": 165510276,
      "step": 1310
    },
    {
      "epoch": 0.3360482267684217,
      "loss": 1.41239333152771,
      "loss_ce": 0.0007722391746938229,
      "loss_iou": 0.640625,
      "loss_num": 0.0257568359375,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 165510276,
      "step": 1310
    },
    {
      "epoch": 0.3363047521323671,
      "grad_norm": 35.518699645996094,
      "learning_rate": 5e-06,
      "loss": 1.0468,
      "num_input_tokens_seen": 165636464,
      "step": 1311
    },
    {
      "epoch": 0.3363047521323671,
      "loss": 1.0874557495117188,
      "loss_ce": 0.0020066231954842806,
      "loss_iou": 0.4921875,
      "loss_num": 0.020263671875,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 165636464,
      "step": 1311
    },
    {
      "epoch": 0.3365612774963124,
      "grad_norm": 51.436161041259766,
      "learning_rate": 5e-06,
      "loss": 1.1029,
      "num_input_tokens_seen": 165763244,
      "step": 1312
    },
    {
      "epoch": 0.3365612774963124,
      "loss": 1.0276087522506714,
      "loss_ce": 0.0007533463649451733,
      "loss_iou": 0.482421875,
      "loss_num": 0.01287841796875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 165763244,
      "step": 1312
    },
    {
      "epoch": 0.3368178028602578,
      "grad_norm": 54.61701202392578,
      "learning_rate": 5e-06,
      "loss": 1.2783,
      "num_input_tokens_seen": 165888648,
      "step": 1313
    },
    {
      "epoch": 0.3368178028602578,
      "loss": 1.3299647569656372,
      "loss_ce": 0.0013514950405806303,
      "loss_iou": 0.609375,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 165888648,
      "step": 1313
    },
    {
      "epoch": 0.3370743282242032,
      "grad_norm": 59.59455490112305,
      "learning_rate": 5e-06,
      "loss": 1.2099,
      "num_input_tokens_seen": 166015336,
      "step": 1314
    },
    {
      "epoch": 0.3370743282242032,
      "loss": 1.163291096687317,
      "loss_ce": 0.0006934672128409147,
      "loss_iou": 0.5234375,
      "loss_num": 0.0234375,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 166015336,
      "step": 1314
    },
    {
      "epoch": 0.3373308535881485,
      "grad_norm": 62.63290786743164,
      "learning_rate": 5e-06,
      "loss": 1.1165,
      "num_input_tokens_seen": 166141704,
      "step": 1315
    },
    {
      "epoch": 0.3373308535881485,
      "loss": 1.0286238193511963,
      "loss_ce": 0.0007917361799627542,
      "loss_iou": 0.484375,
      "loss_num": 0.01141357421875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 166141704,
      "step": 1315
    },
    {
      "epoch": 0.3375873789520939,
      "grad_norm": 58.727325439453125,
      "learning_rate": 5e-06,
      "loss": 1.2586,
      "num_input_tokens_seen": 166268904,
      "step": 1316
    },
    {
      "epoch": 0.3375873789520939,
      "loss": 1.2499585151672363,
      "loss_ce": 0.0009350709151476622,
      "loss_iou": 0.578125,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 166268904,
      "step": 1316
    },
    {
      "epoch": 0.3378439043160392,
      "grad_norm": 63.83665084838867,
      "learning_rate": 5e-06,
      "loss": 1.1569,
      "num_input_tokens_seen": 166394472,
      "step": 1317
    },
    {
      "epoch": 0.3378439043160392,
      "loss": 1.1275815963745117,
      "loss_ce": 0.0016050159465521574,
      "loss_iou": 0.515625,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 166394472,
      "step": 1317
    },
    {
      "epoch": 0.3381004296799846,
      "grad_norm": 42.83293533325195,
      "learning_rate": 5e-06,
      "loss": 1.1778,
      "num_input_tokens_seen": 166520728,
      "step": 1318
    },
    {
      "epoch": 0.3381004296799846,
      "loss": 1.210350513458252,
      "loss_ce": 0.006737162824720144,
      "loss_iou": 0.5625,
      "loss_num": 0.01611328125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 166520728,
      "step": 1318
    },
    {
      "epoch": 0.33835695504393,
      "grad_norm": 41.9317741394043,
      "learning_rate": 5e-06,
      "loss": 1.2298,
      "num_input_tokens_seen": 166646788,
      "step": 1319
    },
    {
      "epoch": 0.33835695504393,
      "loss": 1.227984070777893,
      "loss_ce": 0.004839526489377022,
      "loss_iou": 0.546875,
      "loss_num": 0.02587890625,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 166646788,
      "step": 1319
    },
    {
      "epoch": 0.3386134804078753,
      "grad_norm": 44.55878829956055,
      "learning_rate": 5e-06,
      "loss": 1.0729,
      "num_input_tokens_seen": 166772436,
      "step": 1320
    },
    {
      "epoch": 0.3386134804078753,
      "loss": 1.0969736576080322,
      "loss_ce": 0.0017587259644642472,
      "loss_iou": 0.5,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 166772436,
      "step": 1320
    },
    {
      "epoch": 0.3388700057718207,
      "grad_norm": 63.980838775634766,
      "learning_rate": 5e-06,
      "loss": 1.1151,
      "num_input_tokens_seen": 166898972,
      "step": 1321
    },
    {
      "epoch": 0.3388700057718207,
      "loss": 1.1305232048034668,
      "loss_ce": 0.0011286857770755887,
      "loss_iou": 0.5234375,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 166898972,
      "step": 1321
    },
    {
      "epoch": 0.3391265311357661,
      "grad_norm": 52.205997467041016,
      "learning_rate": 5e-06,
      "loss": 1.2111,
      "num_input_tokens_seen": 167024664,
      "step": 1322
    },
    {
      "epoch": 0.3391265311357661,
      "loss": 1.470261573791504,
      "loss_ce": 0.0024880755227059126,
      "loss_iou": 0.65625,
      "loss_num": 0.031494140625,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 167024664,
      "step": 1322
    },
    {
      "epoch": 0.3393830564997114,
      "grad_norm": 47.83674240112305,
      "learning_rate": 5e-06,
      "loss": 1.0788,
      "num_input_tokens_seen": 167151860,
      "step": 1323
    },
    {
      "epoch": 0.3393830564997114,
      "loss": 0.9936881065368652,
      "loss_ce": 0.0034537434112280607,
      "loss_iou": 0.466796875,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 167151860,
      "step": 1323
    },
    {
      "epoch": 0.3396395818636568,
      "grad_norm": 37.30731964111328,
      "learning_rate": 5e-06,
      "loss": 1.0329,
      "num_input_tokens_seen": 167279068,
      "step": 1324
    },
    {
      "epoch": 0.3396395818636568,
      "loss": 1.0647060871124268,
      "loss_ce": 0.005624149460345507,
      "loss_iou": 0.486328125,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 167279068,
      "step": 1324
    },
    {
      "epoch": 0.3398961072276021,
      "grad_norm": 49.90718460083008,
      "learning_rate": 5e-06,
      "loss": 1.059,
      "num_input_tokens_seen": 167405884,
      "step": 1325
    },
    {
      "epoch": 0.3398961072276021,
      "loss": 1.002687692642212,
      "loss_ce": 0.0007345692720264196,
      "loss_iou": 0.4609375,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 167405884,
      "step": 1325
    },
    {
      "epoch": 0.3401526325915475,
      "grad_norm": 49.875885009765625,
      "learning_rate": 5e-06,
      "loss": 1.173,
      "num_input_tokens_seen": 167531808,
      "step": 1326
    },
    {
      "epoch": 0.3401526325915475,
      "loss": 1.176804780960083,
      "loss_ce": 0.0024883763398975134,
      "loss_iou": 0.54296875,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 167531808,
      "step": 1326
    },
    {
      "epoch": 0.34040915795549287,
      "grad_norm": 69.873291015625,
      "learning_rate": 5e-06,
      "loss": 1.3702,
      "num_input_tokens_seen": 167658400,
      "step": 1327
    },
    {
      "epoch": 0.34040915795549287,
      "loss": 1.226730465888977,
      "loss_ce": 0.0021210263948887587,
      "loss_iou": 0.57421875,
      "loss_num": 0.01446533203125,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 167658400,
      "step": 1327
    },
    {
      "epoch": 0.3406656833194382,
      "grad_norm": 50.65689468383789,
      "learning_rate": 5e-06,
      "loss": 1.2498,
      "num_input_tokens_seen": 167784240,
      "step": 1328
    },
    {
      "epoch": 0.3406656833194382,
      "loss": 1.133530855178833,
      "loss_ce": 0.0012067120987921953,
      "loss_iou": 0.53125,
      "loss_num": 0.0142822265625,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 167784240,
      "step": 1328
    },
    {
      "epoch": 0.3409222086833836,
      "grad_norm": 44.50754165649414,
      "learning_rate": 5e-06,
      "loss": 1.1497,
      "num_input_tokens_seen": 167910944,
      "step": 1329
    },
    {
      "epoch": 0.3409222086833836,
      "loss": 1.3607301712036133,
      "loss_ce": 0.004284847527742386,
      "loss_iou": 0.59765625,
      "loss_num": 0.032470703125,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 167910944,
      "step": 1329
    },
    {
      "epoch": 0.3411787340473289,
      "grad_norm": 45.09111785888672,
      "learning_rate": 5e-06,
      "loss": 1.1775,
      "num_input_tokens_seen": 168036852,
      "step": 1330
    },
    {
      "epoch": 0.3411787340473289,
      "loss": 0.9884587526321411,
      "loss_ce": 0.0006657983758486807,
      "loss_iou": 0.466796875,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 168036852,
      "step": 1330
    },
    {
      "epoch": 0.3414352594112743,
      "grad_norm": 58.9768180847168,
      "learning_rate": 5e-06,
      "loss": 1.1181,
      "num_input_tokens_seen": 168163240,
      "step": 1331
    },
    {
      "epoch": 0.3414352594112743,
      "loss": 1.1302016973495483,
      "loss_ce": 0.0012954032281413674,
      "loss_iou": 0.53125,
      "loss_num": 0.013427734375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 168163240,
      "step": 1331
    },
    {
      "epoch": 0.34169178477521966,
      "grad_norm": 54.49114227294922,
      "learning_rate": 5e-06,
      "loss": 1.3087,
      "num_input_tokens_seen": 168289304,
      "step": 1332
    },
    {
      "epoch": 0.34169178477521966,
      "loss": 1.2778449058532715,
      "loss_ce": 0.0014777167234569788,
      "loss_iou": 0.58984375,
      "loss_num": 0.019775390625,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 168289304,
      "step": 1332
    },
    {
      "epoch": 0.341948310139165,
      "grad_norm": 63.94794464111328,
      "learning_rate": 5e-06,
      "loss": 1.089,
      "num_input_tokens_seen": 168415044,
      "step": 1333
    },
    {
      "epoch": 0.341948310139165,
      "loss": 1.0782265663146973,
      "loss_ce": 0.00254302890971303,
      "loss_iou": 0.50390625,
      "loss_num": 0.0128173828125,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 168415044,
      "step": 1333
    },
    {
      "epoch": 0.34220483550311037,
      "grad_norm": 43.618343353271484,
      "learning_rate": 5e-06,
      "loss": 1.2661,
      "num_input_tokens_seen": 168540384,
      "step": 1334
    },
    {
      "epoch": 0.34220483550311037,
      "loss": 1.4584414958953857,
      "loss_ce": 0.0014102550921961665,
      "loss_iou": 0.6484375,
      "loss_num": 0.03271484375,
      "loss_xval": 1.453125,
      "num_input_tokens_seen": 168540384,
      "step": 1334
    },
    {
      "epoch": 0.34246136086705575,
      "grad_norm": 34.72237014770508,
      "learning_rate": 5e-06,
      "loss": 1.1261,
      "num_input_tokens_seen": 168667540,
      "step": 1335
    },
    {
      "epoch": 0.34246136086705575,
      "loss": 1.0935579538345337,
      "loss_ce": 0.0007845707004889846,
      "loss_iou": 0.50390625,
      "loss_num": 0.0167236328125,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 168667540,
      "step": 1335
    },
    {
      "epoch": 0.3427178862310011,
      "grad_norm": 31.859899520874023,
      "learning_rate": 5e-06,
      "loss": 1.1939,
      "num_input_tokens_seen": 168793620,
      "step": 1336
    },
    {
      "epoch": 0.3427178862310011,
      "loss": 1.2027677297592163,
      "loss_ce": 0.0006193062290549278,
      "loss_iou": 0.515625,
      "loss_num": 0.033447265625,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 168793620,
      "step": 1336
    },
    {
      "epoch": 0.34297441159494646,
      "grad_norm": 49.95622253417969,
      "learning_rate": 5e-06,
      "loss": 1.0998,
      "num_input_tokens_seen": 168918612,
      "step": 1337
    },
    {
      "epoch": 0.34297441159494646,
      "loss": 1.0581738948822021,
      "loss_ce": 0.000556750048417598,
      "loss_iou": 0.484375,
      "loss_num": 0.018310546875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 168918612,
      "step": 1337
    },
    {
      "epoch": 0.3432309369588918,
      "grad_norm": 57.08076858520508,
      "learning_rate": 5e-06,
      "loss": 1.1881,
      "num_input_tokens_seen": 169043920,
      "step": 1338
    },
    {
      "epoch": 0.3432309369588918,
      "loss": 1.1711890697479248,
      "loss_ce": 0.0002906341396737844,
      "loss_iou": 0.53515625,
      "loss_num": 0.01953125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 169043920,
      "step": 1338
    },
    {
      "epoch": 0.34348746232283717,
      "grad_norm": 51.76689529418945,
      "learning_rate": 5e-06,
      "loss": 1.2305,
      "num_input_tokens_seen": 169170172,
      "step": 1339
    },
    {
      "epoch": 0.34348746232283717,
      "loss": 1.1652652025222778,
      "loss_ce": 0.001691012759692967,
      "loss_iou": 0.51953125,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 169170172,
      "step": 1339
    },
    {
      "epoch": 0.34374398768678255,
      "grad_norm": 168.36090087890625,
      "learning_rate": 5e-06,
      "loss": 1.2061,
      "num_input_tokens_seen": 169296032,
      "step": 1340
    },
    {
      "epoch": 0.34374398768678255,
      "loss": 1.1418664455413818,
      "loss_ce": 0.0007531064911745489,
      "loss_iou": 0.53125,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 169296032,
      "step": 1340
    },
    {
      "epoch": 0.3440005130507279,
      "grad_norm": 51.47685241699219,
      "learning_rate": 5e-06,
      "loss": 1.3233,
      "num_input_tokens_seen": 169422704,
      "step": 1341
    },
    {
      "epoch": 0.3440005130507279,
      "loss": 1.3653734922409058,
      "loss_ce": 0.0006274158367887139,
      "loss_iou": 0.6171875,
      "loss_num": 0.0262451171875,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 169422704,
      "step": 1341
    },
    {
      "epoch": 0.34425703841467326,
      "grad_norm": 32.98845291137695,
      "learning_rate": 5e-06,
      "loss": 1.0941,
      "num_input_tokens_seen": 169548652,
      "step": 1342
    },
    {
      "epoch": 0.34425703841467326,
      "loss": 1.0560872554779053,
      "loss_ce": 0.0021322641987353563,
      "loss_iou": 0.474609375,
      "loss_num": 0.020751953125,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 169548652,
      "step": 1342
    },
    {
      "epoch": 0.34451356377861864,
      "grad_norm": 48.99879837036133,
      "learning_rate": 5e-06,
      "loss": 1.1142,
      "num_input_tokens_seen": 169675520,
      "step": 1343
    },
    {
      "epoch": 0.34451356377861864,
      "loss": 1.01632821559906,
      "loss_ce": 0.0026564113795757294,
      "loss_iou": 0.47265625,
      "loss_num": 0.0140380859375,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 169675520,
      "step": 1343
    },
    {
      "epoch": 0.34477008914256396,
      "grad_norm": 41.69797897338867,
      "learning_rate": 5e-06,
      "loss": 1.1738,
      "num_input_tokens_seen": 169801548,
      "step": 1344
    },
    {
      "epoch": 0.34477008914256396,
      "loss": 1.2061631679534912,
      "loss_ce": 0.003038189373910427,
      "loss_iou": 0.5546875,
      "loss_num": 0.0185546875,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 169801548,
      "step": 1344
    },
    {
      "epoch": 0.34502661450650934,
      "grad_norm": 45.8388786315918,
      "learning_rate": 5e-06,
      "loss": 1.1243,
      "num_input_tokens_seen": 169927600,
      "step": 1345
    },
    {
      "epoch": 0.34502661450650934,
      "loss": 1.1806461811065674,
      "loss_ce": 0.002911780495196581,
      "loss_iou": 0.52734375,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 169927600,
      "step": 1345
    },
    {
      "epoch": 0.34528313987045467,
      "grad_norm": 53.046443939208984,
      "learning_rate": 5e-06,
      "loss": 1.1763,
      "num_input_tokens_seen": 170053520,
      "step": 1346
    },
    {
      "epoch": 0.34528313987045467,
      "loss": 1.1936041116714478,
      "loss_ce": 0.003662701463326812,
      "loss_iou": 0.546875,
      "loss_num": 0.0184326171875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 170053520,
      "step": 1346
    },
    {
      "epoch": 0.34553966523440005,
      "grad_norm": 103.20085906982422,
      "learning_rate": 5e-06,
      "loss": 1.1791,
      "num_input_tokens_seen": 170179596,
      "step": 1347
    },
    {
      "epoch": 0.34553966523440005,
      "loss": 1.1439260244369507,
      "loss_ce": 0.002812773222103715,
      "loss_iou": 0.5234375,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 170179596,
      "step": 1347
    },
    {
      "epoch": 0.34579619059834543,
      "grad_norm": 51.921688079833984,
      "learning_rate": 5e-06,
      "loss": 1.3816,
      "num_input_tokens_seen": 170305820,
      "step": 1348
    },
    {
      "epoch": 0.34579619059834543,
      "loss": 1.381309986114502,
      "loss_ce": 0.0024037775583565235,
      "loss_iou": 0.62890625,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 170305820,
      "step": 1348
    },
    {
      "epoch": 0.34605271596229076,
      "grad_norm": 50.30708312988281,
      "learning_rate": 5e-06,
      "loss": 1.139,
      "num_input_tokens_seen": 170432604,
      "step": 1349
    },
    {
      "epoch": 0.34605271596229076,
      "loss": 0.9168659448623657,
      "loss_ce": 0.0018268261337652802,
      "loss_iou": 0.42578125,
      "loss_num": 0.01239013671875,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 170432604,
      "step": 1349
    },
    {
      "epoch": 0.34630924132623614,
      "grad_norm": 69.55729675292969,
      "learning_rate": 5e-06,
      "loss": 1.106,
      "num_input_tokens_seen": 170559592,
      "step": 1350
    },
    {
      "epoch": 0.34630924132623614,
      "loss": 0.8677027225494385,
      "loss_ce": 0.0005152039811946452,
      "loss_iou": 0.416015625,
      "loss_num": 0.00677490234375,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 170559592,
      "step": 1350
    },
    {
      "epoch": 0.34656576669018146,
      "grad_norm": 59.65449523925781,
      "learning_rate": 5e-06,
      "loss": 1.2311,
      "num_input_tokens_seen": 170687448,
      "step": 1351
    },
    {
      "epoch": 0.34656576669018146,
      "loss": 1.334472417831421,
      "loss_ce": 0.001464664819650352,
      "loss_iou": 0.625,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 170687448,
      "step": 1351
    },
    {
      "epoch": 0.34682229205412685,
      "grad_norm": 39.04547119140625,
      "learning_rate": 5e-06,
      "loss": 1.2128,
      "num_input_tokens_seen": 170812508,
      "step": 1352
    },
    {
      "epoch": 0.34682229205412685,
      "loss": 1.2865699529647827,
      "loss_ce": 0.001413637539371848,
      "loss_iou": 0.55859375,
      "loss_num": 0.033447265625,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 170812508,
      "step": 1352
    },
    {
      "epoch": 0.3470788174180722,
      "grad_norm": 48.79114532470703,
      "learning_rate": 5e-06,
      "loss": 1.1511,
      "num_input_tokens_seen": 170938424,
      "step": 1353
    },
    {
      "epoch": 0.3470788174180722,
      "loss": 1.0621917247772217,
      "loss_ce": 0.0016447447706013918,
      "loss_iou": 0.498046875,
      "loss_num": 0.01324462890625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 170938424,
      "step": 1353
    },
    {
      "epoch": 0.34733534278201755,
      "grad_norm": 72.50634002685547,
      "learning_rate": 5e-06,
      "loss": 1.1681,
      "num_input_tokens_seen": 171064376,
      "step": 1354
    },
    {
      "epoch": 0.34733534278201755,
      "loss": 1.0580462217330933,
      "loss_ce": 0.00238218205049634,
      "loss_iou": 0.5,
      "loss_num": 0.0103759765625,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 171064376,
      "step": 1354
    },
    {
      "epoch": 0.34759186814596293,
      "grad_norm": 60.18556594848633,
      "learning_rate": 5e-06,
      "loss": 1.1269,
      "num_input_tokens_seen": 171192020,
      "step": 1355
    },
    {
      "epoch": 0.34759186814596293,
      "loss": 0.9656658172607422,
      "loss_ce": 0.000822105910629034,
      "loss_iou": 0.443359375,
      "loss_num": 0.015625,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 171192020,
      "step": 1355
    },
    {
      "epoch": 0.3478483935099083,
      "grad_norm": 71.22262573242188,
      "learning_rate": 5e-06,
      "loss": 1.1078,
      "num_input_tokens_seen": 171318580,
      "step": 1356
    },
    {
      "epoch": 0.3478483935099083,
      "loss": 1.1020182371139526,
      "loss_ce": 0.002897149883210659,
      "loss_iou": 0.51171875,
      "loss_num": 0.01531982421875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 171318580,
      "step": 1356
    },
    {
      "epoch": 0.34810491887385364,
      "grad_norm": 47.881080627441406,
      "learning_rate": 5e-06,
      "loss": 1.2823,
      "num_input_tokens_seen": 171444244,
      "step": 1357
    },
    {
      "epoch": 0.34810491887385364,
      "loss": 1.242171287536621,
      "loss_ce": 0.003401759546250105,
      "loss_iou": 0.56640625,
      "loss_num": 0.02099609375,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 171444244,
      "step": 1357
    },
    {
      "epoch": 0.348361444237799,
      "grad_norm": 44.870113372802734,
      "learning_rate": 5e-06,
      "loss": 1.0988,
      "num_input_tokens_seen": 171571080,
      "step": 1358
    },
    {
      "epoch": 0.348361444237799,
      "loss": 1.1715128421783447,
      "loss_ce": 0.007938620634377003,
      "loss_iou": 0.53125,
      "loss_num": 0.020263671875,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 171571080,
      "step": 1358
    },
    {
      "epoch": 0.34861796960174435,
      "grad_norm": 54.634620666503906,
      "learning_rate": 5e-06,
      "loss": 1.1312,
      "num_input_tokens_seen": 171698600,
      "step": 1359
    },
    {
      "epoch": 0.34861796960174435,
      "loss": 1.0396037101745605,
      "loss_ce": 0.0005412074970081449,
      "loss_iou": 0.48828125,
      "loss_num": 0.01239013671875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 171698600,
      "step": 1359
    },
    {
      "epoch": 0.34887449496568973,
      "grad_norm": 43.267513275146484,
      "learning_rate": 5e-06,
      "loss": 1.0817,
      "num_input_tokens_seen": 171824272,
      "step": 1360
    },
    {
      "epoch": 0.34887449496568973,
      "loss": 0.9208498597145081,
      "loss_ce": 0.0009279837249778211,
      "loss_iou": 0.43359375,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 171824272,
      "step": 1360
    },
    {
      "epoch": 0.3491310203296351,
      "grad_norm": 30.21150779724121,
      "learning_rate": 5e-06,
      "loss": 1.192,
      "num_input_tokens_seen": 171951056,
      "step": 1361
    },
    {
      "epoch": 0.3491310203296351,
      "loss": 1.253859519958496,
      "loss_ce": 0.0014181847218424082,
      "loss_iou": 0.5703125,
      "loss_num": 0.022705078125,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 171951056,
      "step": 1361
    },
    {
      "epoch": 0.34938754569358044,
      "grad_norm": 42.033233642578125,
      "learning_rate": 5e-06,
      "loss": 1.0594,
      "num_input_tokens_seen": 172078172,
      "step": 1362
    },
    {
      "epoch": 0.34938754569358044,
      "loss": 0.8543832302093506,
      "loss_ce": 0.00037935556611046195,
      "loss_iou": 0.40625,
      "loss_num": 0.00799560546875,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 172078172,
      "step": 1362
    },
    {
      "epoch": 0.3496440710575258,
      "grad_norm": 55.845298767089844,
      "learning_rate": 5e-06,
      "loss": 1.1287,
      "num_input_tokens_seen": 172204364,
      "step": 1363
    },
    {
      "epoch": 0.3496440710575258,
      "loss": 1.1958149671554565,
      "loss_ce": 0.0005024656420573592,
      "loss_iou": 0.55859375,
      "loss_num": 0.0155029296875,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 172204364,
      "step": 1363
    },
    {
      "epoch": 0.3499005964214712,
      "grad_norm": 96.85700225830078,
      "learning_rate": 5e-06,
      "loss": 1.152,
      "num_input_tokens_seen": 172331100,
      "step": 1364
    },
    {
      "epoch": 0.3499005964214712,
      "loss": 0.944640040397644,
      "loss_ce": 0.00030413639615289867,
      "loss_iou": 0.455078125,
      "loss_num": 0.00665283203125,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 172331100,
      "step": 1364
    },
    {
      "epoch": 0.3501571217854165,
      "grad_norm": 44.4818115234375,
      "learning_rate": 5e-06,
      "loss": 1.2995,
      "num_input_tokens_seen": 172457212,
      "step": 1365
    },
    {
      "epoch": 0.3501571217854165,
      "loss": 1.1931391954421997,
      "loss_ce": 0.0017329109832644463,
      "loss_iou": 0.5625,
      "loss_num": 0.01385498046875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 172457212,
      "step": 1365
    },
    {
      "epoch": 0.3504136471493619,
      "grad_norm": 45.176918029785156,
      "learning_rate": 5e-06,
      "loss": 1.1547,
      "num_input_tokens_seen": 172583236,
      "step": 1366
    },
    {
      "epoch": 0.3504136471493619,
      "loss": 1.1660646200180054,
      "loss_ce": 0.0024903868325054646,
      "loss_iou": 0.515625,
      "loss_num": 0.02685546875,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 172583236,
      "step": 1366
    },
    {
      "epoch": 0.35067017251330723,
      "grad_norm": 36.068519592285156,
      "learning_rate": 5e-06,
      "loss": 1.147,
      "num_input_tokens_seen": 172709544,
      "step": 1367
    },
    {
      "epoch": 0.35067017251330723,
      "loss": 1.2256264686584473,
      "loss_ce": 0.001993701793253422,
      "loss_iou": 0.56640625,
      "loss_num": 0.0185546875,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 172709544,
      "step": 1367
    },
    {
      "epoch": 0.3509266978772526,
      "grad_norm": 75.27877044677734,
      "learning_rate": 5e-06,
      "loss": 1.0456,
      "num_input_tokens_seen": 172837176,
      "step": 1368
    },
    {
      "epoch": 0.3509266978772526,
      "loss": 1.131980538368225,
      "loss_ce": 0.0006328823510557413,
      "loss_iou": 0.51953125,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 172837176,
      "step": 1368
    },
    {
      "epoch": 0.351183223241198,
      "grad_norm": 46.12670135498047,
      "learning_rate": 5e-06,
      "loss": 1.3464,
      "num_input_tokens_seen": 172963636,
      "step": 1369
    },
    {
      "epoch": 0.351183223241198,
      "loss": 1.3854703903198242,
      "loss_ce": 0.0007048420375213027,
      "loss_iou": 0.63671875,
      "loss_num": 0.0220947265625,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 172963636,
      "step": 1369
    },
    {
      "epoch": 0.3514397486051433,
      "grad_norm": 33.23619079589844,
      "learning_rate": 5e-06,
      "loss": 1.1803,
      "num_input_tokens_seen": 173089652,
      "step": 1370
    },
    {
      "epoch": 0.3514397486051433,
      "loss": 1.1686625480651855,
      "loss_ce": 0.00020550224871840328,
      "loss_iou": 0.54296875,
      "loss_num": 0.01611328125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 173089652,
      "step": 1370
    },
    {
      "epoch": 0.3516962739690887,
      "grad_norm": 37.84006118774414,
      "learning_rate": 5e-06,
      "loss": 1.1203,
      "num_input_tokens_seen": 173217296,
      "step": 1371
    },
    {
      "epoch": 0.3516962739690887,
      "loss": 1.1790614128112793,
      "loss_ce": 0.004744932986795902,
      "loss_iou": 0.5390625,
      "loss_num": 0.02001953125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 173217296,
      "step": 1371
    },
    {
      "epoch": 0.351952799333034,
      "grad_norm": 46.94552230834961,
      "learning_rate": 5e-06,
      "loss": 1.2198,
      "num_input_tokens_seen": 173343112,
      "step": 1372
    },
    {
      "epoch": 0.351952799333034,
      "loss": 1.356769323348999,
      "loss_ce": 0.006183353252708912,
      "loss_iou": 0.578125,
      "loss_num": 0.0380859375,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 173343112,
      "step": 1372
    },
    {
      "epoch": 0.3522093246969794,
      "grad_norm": 84.84690856933594,
      "learning_rate": 5e-06,
      "loss": 1.1954,
      "num_input_tokens_seen": 173468948,
      "step": 1373
    },
    {
      "epoch": 0.3522093246969794,
      "loss": 1.1856458187103271,
      "loss_ce": 0.0020520584657788277,
      "loss_iou": 0.53125,
      "loss_num": 0.024658203125,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 173468948,
      "step": 1373
    },
    {
      "epoch": 0.3524658500609248,
      "grad_norm": 46.36500549316406,
      "learning_rate": 5e-06,
      "loss": 1.2977,
      "num_input_tokens_seen": 173595860,
      "step": 1374
    },
    {
      "epoch": 0.3524658500609248,
      "loss": 1.244938611984253,
      "loss_ce": 0.0012861847644671798,
      "loss_iou": 0.5703125,
      "loss_num": 0.0205078125,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 173595860,
      "step": 1374
    },
    {
      "epoch": 0.3527223754248701,
      "grad_norm": 36.35874557495117,
      "learning_rate": 5e-06,
      "loss": 1.1501,
      "num_input_tokens_seen": 173722584,
      "step": 1375
    },
    {
      "epoch": 0.3527223754248701,
      "loss": 1.112770915031433,
      "loss_ce": 0.004372420255094767,
      "loss_iou": 0.515625,
      "loss_num": 0.01544189453125,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 173722584,
      "step": 1375
    },
    {
      "epoch": 0.3529789007888155,
      "grad_norm": 61.23054885864258,
      "learning_rate": 5e-06,
      "loss": 0.9976,
      "num_input_tokens_seen": 173849740,
      "step": 1376
    },
    {
      "epoch": 0.3529789007888155,
      "loss": 0.9914021492004395,
      "loss_ce": 0.00019115865870844573,
      "loss_iou": 0.453125,
      "loss_num": 0.016845703125,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 173849740,
      "step": 1376
    },
    {
      "epoch": 0.3532354261527609,
      "grad_norm": 56.992774963378906,
      "learning_rate": 5e-06,
      "loss": 1.3138,
      "num_input_tokens_seen": 173977428,
      "step": 1377
    },
    {
      "epoch": 0.3532354261527609,
      "loss": 1.2920899391174316,
      "loss_ce": 0.004003926645964384,
      "loss_iou": 0.578125,
      "loss_num": 0.026123046875,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 173977428,
      "step": 1377
    },
    {
      "epoch": 0.3534919515167062,
      "grad_norm": 43.95704650878906,
      "learning_rate": 5e-06,
      "loss": 1.1033,
      "num_input_tokens_seen": 174104608,
      "step": 1378
    },
    {
      "epoch": 0.3534919515167062,
      "loss": 1.1377105712890625,
      "loss_ce": 0.0009918669238686562,
      "loss_iou": 0.5234375,
      "loss_num": 0.017578125,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 174104608,
      "step": 1378
    },
    {
      "epoch": 0.3537484768806516,
      "grad_norm": 52.715999603271484,
      "learning_rate": 5e-06,
      "loss": 1.1251,
      "num_input_tokens_seen": 174230556,
      "step": 1379
    },
    {
      "epoch": 0.3537484768806516,
      "loss": 1.0484061241149902,
      "loss_ce": 0.0005546641768887639,
      "loss_iou": 0.494140625,
      "loss_num": 0.01177978515625,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 174230556,
      "step": 1379
    },
    {
      "epoch": 0.3540050022445969,
      "grad_norm": 84.34625244140625,
      "learning_rate": 5e-06,
      "loss": 1.1601,
      "num_input_tokens_seen": 174357904,
      "step": 1380
    },
    {
      "epoch": 0.3540050022445969,
      "loss": 0.9797146320343018,
      "loss_ce": 0.0033962265588343143,
      "loss_iou": 0.447265625,
      "loss_num": 0.0164794921875,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 174357904,
      "step": 1380
    },
    {
      "epoch": 0.3542615276085423,
      "grad_norm": 50.631744384765625,
      "learning_rate": 5e-06,
      "loss": 1.3826,
      "num_input_tokens_seen": 174484976,
      "step": 1381
    },
    {
      "epoch": 0.3542615276085423,
      "loss": 1.5988245010375977,
      "loss_ce": 0.002633117139339447,
      "loss_iou": 0.6953125,
      "loss_num": 0.040771484375,
      "loss_xval": 1.59375,
      "num_input_tokens_seen": 174484976,
      "step": 1381
    },
    {
      "epoch": 0.3545180529724877,
      "grad_norm": 54.359886169433594,
      "learning_rate": 5e-06,
      "loss": 1.0438,
      "num_input_tokens_seen": 174611000,
      "step": 1382
    },
    {
      "epoch": 0.3545180529724877,
      "loss": 0.9444396495819092,
      "loss_ce": 0.0005920346011407673,
      "loss_iou": 0.44921875,
      "loss_num": 0.0087890625,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 174611000,
      "step": 1382
    },
    {
      "epoch": 0.354774578336433,
      "grad_norm": 74.90353393554688,
      "learning_rate": 5e-06,
      "loss": 1.1648,
      "num_input_tokens_seen": 174737032,
      "step": 1383
    },
    {
      "epoch": 0.354774578336433,
      "loss": 1.1236404180526733,
      "loss_ce": 0.0010818042792379856,
      "loss_iou": 0.52734375,
      "loss_num": 0.01416015625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 174737032,
      "step": 1383
    },
    {
      "epoch": 0.3550311037003784,
      "grad_norm": 55.336910247802734,
      "learning_rate": 5e-06,
      "loss": 1.219,
      "num_input_tokens_seen": 174865076,
      "step": 1384
    },
    {
      "epoch": 0.3550311037003784,
      "loss": 1.269698143005371,
      "loss_ce": 0.002120112767443061,
      "loss_iou": 0.58203125,
      "loss_num": 0.020751953125,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 174865076,
      "step": 1384
    },
    {
      "epoch": 0.35528762906432376,
      "grad_norm": 27.341716766357422,
      "learning_rate": 5e-06,
      "loss": 1.0849,
      "num_input_tokens_seen": 174990928,
      "step": 1385
    },
    {
      "epoch": 0.35528762906432376,
      "loss": 0.9743456840515137,
      "loss_ce": 0.0031542396172881126,
      "loss_iou": 0.443359375,
      "loss_num": 0.0172119140625,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 174990928,
      "step": 1385
    },
    {
      "epoch": 0.3555441544282691,
      "grad_norm": 48.25249099731445,
      "learning_rate": 5e-06,
      "loss": 1.0641,
      "num_input_tokens_seen": 175118028,
      "step": 1386
    },
    {
      "epoch": 0.3555441544282691,
      "loss": 1.0575331449508667,
      "loss_ce": 0.0018691245932132006,
      "loss_iou": 0.484375,
      "loss_num": 0.0177001953125,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 175118028,
      "step": 1386
    },
    {
      "epoch": 0.35580067979221447,
      "grad_norm": 79.824951171875,
      "learning_rate": 5e-06,
      "loss": 1.1924,
      "num_input_tokens_seen": 175244648,
      "step": 1387
    },
    {
      "epoch": 0.35580067979221447,
      "loss": 1.30496346950531,
      "loss_ce": 0.0027173494454473257,
      "loss_iou": 0.59375,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 175244648,
      "step": 1387
    },
    {
      "epoch": 0.3560572051561598,
      "grad_norm": 44.5381965637207,
      "learning_rate": 5e-06,
      "loss": 1.2708,
      "num_input_tokens_seen": 175371784,
      "step": 1388
    },
    {
      "epoch": 0.3560572051561598,
      "loss": 1.2244952917099,
      "loss_ce": 0.0013507817639037967,
      "loss_iou": 0.55859375,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 175371784,
      "step": 1388
    },
    {
      "epoch": 0.3563137305201052,
      "grad_norm": 27.7333984375,
      "learning_rate": 5e-06,
      "loss": 1.1295,
      "num_input_tokens_seen": 175496948,
      "step": 1389
    },
    {
      "epoch": 0.3563137305201052,
      "loss": 1.335802435874939,
      "loss_ce": 0.0027946592308580875,
      "loss_iou": 0.59765625,
      "loss_num": 0.0277099609375,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 175496948,
      "step": 1389
    },
    {
      "epoch": 0.35657025588405056,
      "grad_norm": 60.578983306884766,
      "learning_rate": 5e-06,
      "loss": 1.1142,
      "num_input_tokens_seen": 175623460,
      "step": 1390
    },
    {
      "epoch": 0.35657025588405056,
      "loss": 1.2890775203704834,
      "loss_ce": 0.0024563451297581196,
      "loss_iou": 0.59765625,
      "loss_num": 0.0185546875,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 175623460,
      "step": 1390
    },
    {
      "epoch": 0.3568267812479959,
      "grad_norm": 57.77640914916992,
      "learning_rate": 5e-06,
      "loss": 1.2095,
      "num_input_tokens_seen": 175751028,
      "step": 1391
    },
    {
      "epoch": 0.3568267812479959,
      "loss": 1.2185487747192383,
      "loss_ce": 0.0002870266616810113,
      "loss_iou": 0.578125,
      "loss_num": 0.011962890625,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 175751028,
      "step": 1391
    },
    {
      "epoch": 0.35708330661194126,
      "grad_norm": 38.928531646728516,
      "learning_rate": 5e-06,
      "loss": 1.1525,
      "num_input_tokens_seen": 175878328,
      "step": 1392
    },
    {
      "epoch": 0.35708330661194126,
      "loss": 1.3805654048919678,
      "loss_ce": 0.00849514827132225,
      "loss_iou": 0.61328125,
      "loss_num": 0.02978515625,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 175878328,
      "step": 1392
    },
    {
      "epoch": 0.3573398319758866,
      "grad_norm": 52.213321685791016,
      "learning_rate": 5e-06,
      "loss": 1.112,
      "num_input_tokens_seen": 176004192,
      "step": 1393
    },
    {
      "epoch": 0.3573398319758866,
      "loss": 1.0061274766921997,
      "loss_ce": 0.0017329610418528318,
      "loss_iou": 0.4765625,
      "loss_num": 0.0101318359375,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 176004192,
      "step": 1393
    },
    {
      "epoch": 0.35759635733983197,
      "grad_norm": 84.93548583984375,
      "learning_rate": 5e-06,
      "loss": 1.1438,
      "num_input_tokens_seen": 176132076,
      "step": 1394
    },
    {
      "epoch": 0.35759635733983197,
      "loss": 1.0486780405044556,
      "loss_ce": 0.0008263917407020926,
      "loss_iou": 0.4921875,
      "loss_num": 0.01300048828125,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 176132076,
      "step": 1394
    },
    {
      "epoch": 0.35785288270377735,
      "grad_norm": 47.76504898071289,
      "learning_rate": 5e-06,
      "loss": 1.2714,
      "num_input_tokens_seen": 176258876,
      "step": 1395
    },
    {
      "epoch": 0.35785288270377735,
      "loss": 1.28211510181427,
      "loss_ce": 0.0008651985554024577,
      "loss_iou": 0.5859375,
      "loss_num": 0.021240234375,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 176258876,
      "step": 1395
    },
    {
      "epoch": 0.3581094080677227,
      "grad_norm": 42.5472412109375,
      "learning_rate": 5e-06,
      "loss": 1.0582,
      "num_input_tokens_seen": 176385112,
      "step": 1396
    },
    {
      "epoch": 0.3581094080677227,
      "loss": 1.2524986267089844,
      "loss_ce": 0.008357943035662174,
      "loss_iou": 0.5859375,
      "loss_num": 0.014404296875,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 176385112,
      "step": 1396
    },
    {
      "epoch": 0.35836593343166806,
      "grad_norm": 65.12969970703125,
      "learning_rate": 5e-06,
      "loss": 1.1449,
      "num_input_tokens_seen": 176511944,
      "step": 1397
    },
    {
      "epoch": 0.35836593343166806,
      "loss": 1.2545161247253418,
      "loss_ce": 0.002563050016760826,
      "loss_iou": 0.5703125,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 176511944,
      "step": 1397
    },
    {
      "epoch": 0.35862245879561344,
      "grad_norm": 52.363250732421875,
      "learning_rate": 5e-06,
      "loss": 1.2255,
      "num_input_tokens_seen": 176637872,
      "step": 1398
    },
    {
      "epoch": 0.35862245879561344,
      "loss": 1.2409348487854004,
      "loss_ce": 0.0007004392682574689,
      "loss_iou": 0.58203125,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 176637872,
      "step": 1398
    },
    {
      "epoch": 0.35887898415955877,
      "grad_norm": 31.810760498046875,
      "learning_rate": 5e-06,
      "loss": 1.1042,
      "num_input_tokens_seen": 176765072,
      "step": 1399
    },
    {
      "epoch": 0.35887898415955877,
      "loss": 1.396734595298767,
      "loss_ce": 0.0007385142962448299,
      "loss_iou": 0.62109375,
      "loss_num": 0.0303955078125,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 176765072,
      "step": 1399
    },
    {
      "epoch": 0.35913550952350415,
      "grad_norm": 49.842411041259766,
      "learning_rate": 5e-06,
      "loss": 1.2,
      "num_input_tokens_seen": 176891992,
      "step": 1400
    },
    {
      "epoch": 0.35913550952350415,
      "loss": 1.3048043251037598,
      "loss_ce": 0.0020699079614132643,
      "loss_iou": 0.59765625,
      "loss_num": 0.021728515625,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 176891992,
      "step": 1400
    },
    {
      "epoch": 0.3593920348874495,
      "grad_norm": 65.3194808959961,
      "learning_rate": 5e-06,
      "loss": 1.2217,
      "num_input_tokens_seen": 177017268,
      "step": 1401
    },
    {
      "epoch": 0.3593920348874495,
      "loss": 1.2708327770233154,
      "loss_ce": 0.0022780802100896835,
      "loss_iou": 0.58203125,
      "loss_num": 0.0206298828125,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 177017268,
      "step": 1401
    },
    {
      "epoch": 0.35964856025139486,
      "grad_norm": 46.705814361572266,
      "learning_rate": 5e-06,
      "loss": 1.1345,
      "num_input_tokens_seen": 177143312,
      "step": 1402
    },
    {
      "epoch": 0.35964856025139486,
      "loss": 1.2016682624816895,
      "loss_ce": 0.005867491010576487,
      "loss_iou": 0.546875,
      "loss_num": 0.0205078125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 177143312,
      "step": 1402
    },
    {
      "epoch": 0.35990508561534024,
      "grad_norm": 41.54037094116211,
      "learning_rate": 5e-06,
      "loss": 1.1446,
      "num_input_tokens_seen": 177269796,
      "step": 1403
    },
    {
      "epoch": 0.35990508561534024,
      "loss": 1.2335948944091797,
      "loss_ce": 0.0011730333790183067,
      "loss_iou": 0.56640625,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 177269796,
      "step": 1403
    },
    {
      "epoch": 0.36016161097928556,
      "grad_norm": 53.14521789550781,
      "learning_rate": 5e-06,
      "loss": 1.1874,
      "num_input_tokens_seen": 177395980,
      "step": 1404
    },
    {
      "epoch": 0.36016161097928556,
      "loss": 1.1850682497024536,
      "loss_ce": 0.0024511157535016537,
      "loss_iou": 0.5546875,
      "loss_num": 0.01513671875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 177395980,
      "step": 1404
    },
    {
      "epoch": 0.36041813634323094,
      "grad_norm": 70.36585998535156,
      "learning_rate": 5e-06,
      "loss": 1.1684,
      "num_input_tokens_seen": 177522296,
      "step": 1405
    },
    {
      "epoch": 0.36041813634323094,
      "loss": 1.150983214378357,
      "loss_ce": 0.001080854912288487,
      "loss_iou": 0.54296875,
      "loss_num": 0.013671875,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 177522296,
      "step": 1405
    },
    {
      "epoch": 0.36067466170717627,
      "grad_norm": 51.59445571899414,
      "learning_rate": 5e-06,
      "loss": 1.1342,
      "num_input_tokens_seen": 177648232,
      "step": 1406
    },
    {
      "epoch": 0.36067466170717627,
      "loss": 1.0994153022766113,
      "loss_ce": 0.00029418812482617795,
      "loss_iou": 0.5234375,
      "loss_num": 0.0096435546875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 177648232,
      "step": 1406
    },
    {
      "epoch": 0.36093118707112165,
      "grad_norm": 45.08783721923828,
      "learning_rate": 5e-06,
      "loss": 1.1008,
      "num_input_tokens_seen": 177775300,
      "step": 1407
    },
    {
      "epoch": 0.36093118707112165,
      "loss": 1.0431565046310425,
      "loss_ce": 0.0021409427281469107,
      "loss_iou": 0.4765625,
      "loss_num": 0.017578125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 177775300,
      "step": 1407
    },
    {
      "epoch": 0.36118771243506703,
      "grad_norm": 53.53173065185547,
      "learning_rate": 5e-06,
      "loss": 1.1146,
      "num_input_tokens_seen": 177901932,
      "step": 1408
    },
    {
      "epoch": 0.36118771243506703,
      "loss": 1.0472989082336426,
      "loss_ce": 0.00042388561996631324,
      "loss_iou": 0.478515625,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 177901932,
      "step": 1408
    },
    {
      "epoch": 0.36144423779901236,
      "grad_norm": 61.29420852661133,
      "learning_rate": 5e-06,
      "loss": 1.2221,
      "num_input_tokens_seen": 178028816,
      "step": 1409
    },
    {
      "epoch": 0.36144423779901236,
      "loss": 1.178318738937378,
      "loss_ce": 0.002049183938652277,
      "loss_iou": 0.5390625,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 178028816,
      "step": 1409
    },
    {
      "epoch": 0.36170076316295774,
      "grad_norm": 77.30718231201172,
      "learning_rate": 5e-06,
      "loss": 1.0734,
      "num_input_tokens_seen": 178153960,
      "step": 1410
    },
    {
      "epoch": 0.36170076316295774,
      "loss": 1.0187435150146484,
      "loss_ce": 0.0011654456611722708,
      "loss_iou": 0.48828125,
      "loss_num": 0.0079345703125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 178153960,
      "step": 1410
    },
    {
      "epoch": 0.3619572885269031,
      "grad_norm": 53.55356979370117,
      "learning_rate": 5e-06,
      "loss": 1.2644,
      "num_input_tokens_seen": 178280760,
      "step": 1411
    },
    {
      "epoch": 0.3619572885269031,
      "loss": 1.337110996246338,
      "loss_ce": 0.0026382647920399904,
      "loss_iou": 0.61328125,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 178280760,
      "step": 1411
    },
    {
      "epoch": 0.36221381389084845,
      "grad_norm": 25.140792846679688,
      "learning_rate": 5e-06,
      "loss": 1.1195,
      "num_input_tokens_seen": 178408192,
      "step": 1412
    },
    {
      "epoch": 0.36221381389084845,
      "loss": 1.3948564529418945,
      "loss_ce": 0.0017901384271681309,
      "loss_iou": 0.609375,
      "loss_num": 0.035400390625,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 178408192,
      "step": 1412
    },
    {
      "epoch": 0.3624703392547938,
      "grad_norm": 36.74555587768555,
      "learning_rate": 5e-06,
      "loss": 1.0843,
      "num_input_tokens_seen": 178534148,
      "step": 1413
    },
    {
      "epoch": 0.3624703392547938,
      "loss": 0.9681083559989929,
      "loss_ce": 0.0003349077596794814,
      "loss_iou": 0.4609375,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 178534148,
      "step": 1413
    },
    {
      "epoch": 0.36272686461873915,
      "grad_norm": 39.646759033203125,
      "learning_rate": 5e-06,
      "loss": 1.1566,
      "num_input_tokens_seen": 178660364,
      "step": 1414
    },
    {
      "epoch": 0.36272686461873915,
      "loss": 1.0544712543487549,
      "loss_ce": 0.0012486418709158897,
      "loss_iou": 0.49609375,
      "loss_num": 0.012451171875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 178660364,
      "step": 1414
    },
    {
      "epoch": 0.36298338998268453,
      "grad_norm": 51.174739837646484,
      "learning_rate": 5e-06,
      "loss": 1.0304,
      "num_input_tokens_seen": 178786120,
      "step": 1415
    },
    {
      "epoch": 0.36298338998268453,
      "loss": 0.9179519414901733,
      "loss_ce": 0.0004714433162007481,
      "loss_iou": 0.443359375,
      "loss_num": 0.00634765625,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 178786120,
      "step": 1415
    },
    {
      "epoch": 0.3632399153466299,
      "grad_norm": 85.84087371826172,
      "learning_rate": 5e-06,
      "loss": 1.1992,
      "num_input_tokens_seen": 178911904,
      "step": 1416
    },
    {
      "epoch": 0.3632399153466299,
      "loss": 1.1173064708709717,
      "loss_ce": 0.0010955582838505507,
      "loss_iou": 0.515625,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 178911904,
      "step": 1416
    },
    {
      "epoch": 0.36349644071057524,
      "grad_norm": 48.12837600708008,
      "learning_rate": 5e-06,
      "loss": 1.2909,
      "num_input_tokens_seen": 179038012,
      "step": 1417
    },
    {
      "epoch": 0.36349644071057524,
      "loss": 1.0293456315994263,
      "loss_ce": 0.0005370373837649822,
      "loss_iou": 0.484375,
      "loss_num": 0.01239013671875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 179038012,
      "step": 1417
    },
    {
      "epoch": 0.3637529660745206,
      "grad_norm": 36.64936828613281,
      "learning_rate": 5e-06,
      "loss": 1.1515,
      "num_input_tokens_seen": 179165140,
      "step": 1418
    },
    {
      "epoch": 0.3637529660745206,
      "loss": 1.2027003765106201,
      "loss_ce": 0.00592296477407217,
      "loss_iou": 0.55078125,
      "loss_num": 0.01953125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 179165140,
      "step": 1418
    },
    {
      "epoch": 0.364009491438466,
      "grad_norm": 61.948516845703125,
      "learning_rate": 5e-06,
      "loss": 1.0665,
      "num_input_tokens_seen": 179290444,
      "step": 1419
    },
    {
      "epoch": 0.364009491438466,
      "loss": 1.0884134769439697,
      "loss_ce": 0.002964199986308813,
      "loss_iou": 0.486328125,
      "loss_num": 0.022705078125,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 179290444,
      "step": 1419
    },
    {
      "epoch": 0.36426601680241133,
      "grad_norm": 57.032588958740234,
      "learning_rate": 5e-06,
      "loss": 1.2553,
      "num_input_tokens_seen": 179416604,
      "step": 1420
    },
    {
      "epoch": 0.36426601680241133,
      "loss": 1.245171308517456,
      "loss_ce": 0.0005423245020210743,
      "loss_iou": 0.57421875,
      "loss_num": 0.019287109375,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 179416604,
      "step": 1420
    },
    {
      "epoch": 0.3645225421663567,
      "grad_norm": 51.570472717285156,
      "learning_rate": 5e-06,
      "loss": 1.129,
      "num_input_tokens_seen": 179541908,
      "step": 1421
    },
    {
      "epoch": 0.3645225421663567,
      "loss": 1.0779342651367188,
      "loss_ce": 0.002250690246000886,
      "loss_iou": 0.498046875,
      "loss_num": 0.0159912109375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 179541908,
      "step": 1421
    },
    {
      "epoch": 0.36477906753030204,
      "grad_norm": 48.223907470703125,
      "learning_rate": 5e-06,
      "loss": 1.0895,
      "num_input_tokens_seen": 179667500,
      "step": 1422
    },
    {
      "epoch": 0.36477906753030204,
      "loss": 1.132366418838501,
      "loss_ce": 0.0019953905139118433,
      "loss_iou": 0.5234375,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 179667500,
      "step": 1422
    },
    {
      "epoch": 0.3650355928942474,
      "grad_norm": 58.864295959472656,
      "learning_rate": 5e-06,
      "loss": 1.1271,
      "num_input_tokens_seen": 179795332,
      "step": 1423
    },
    {
      "epoch": 0.3650355928942474,
      "loss": 1.1628878116607666,
      "loss_ce": 0.0022432878613471985,
      "loss_iou": 0.53515625,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 179795332,
      "step": 1423
    },
    {
      "epoch": 0.3652921182581928,
      "grad_norm": 50.66184616088867,
      "learning_rate": 5e-06,
      "loss": 1.2674,
      "num_input_tokens_seen": 179921924,
      "step": 1424
    },
    {
      "epoch": 0.3652921182581928,
      "loss": 1.226226568222046,
      "loss_ce": 0.0011289040558040142,
      "loss_iou": 0.5546875,
      "loss_num": 0.0228271484375,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 179921924,
      "step": 1424
    },
    {
      "epoch": 0.3655486436221381,
      "grad_norm": 48.41244888305664,
      "learning_rate": 5e-06,
      "loss": 1.0742,
      "num_input_tokens_seen": 180049676,
      "step": 1425
    },
    {
      "epoch": 0.3655486436221381,
      "loss": 0.9825254678726196,
      "loss_ce": 0.0005918809911236167,
      "loss_iou": 0.4609375,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 180049676,
      "step": 1425
    },
    {
      "epoch": 0.3658051689860835,
      "grad_norm": 55.12033462524414,
      "learning_rate": 5e-06,
      "loss": 1.1393,
      "num_input_tokens_seen": 180175584,
      "step": 1426
    },
    {
      "epoch": 0.3658051689860835,
      "loss": 1.2039861679077148,
      "loss_ce": 0.0008612559176981449,
      "loss_iou": 0.55078125,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 180175584,
      "step": 1426
    },
    {
      "epoch": 0.36606169435002883,
      "grad_norm": 49.57294845581055,
      "learning_rate": 5e-06,
      "loss": 1.1576,
      "num_input_tokens_seen": 180300616,
      "step": 1427
    },
    {
      "epoch": 0.36606169435002883,
      "loss": 1.1654398441314697,
      "loss_ce": 0.004307101015001535,
      "loss_iou": 0.53125,
      "loss_num": 0.020263671875,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 180300616,
      "step": 1427
    },
    {
      "epoch": 0.3663182197139742,
      "grad_norm": 359.83160400390625,
      "learning_rate": 5e-06,
      "loss": 1.0577,
      "num_input_tokens_seen": 180425928,
      "step": 1428
    },
    {
      "epoch": 0.3663182197139742,
      "loss": 1.2139939069747925,
      "loss_ce": 0.0015915792901068926,
      "loss_iou": 0.546875,
      "loss_num": 0.0230712890625,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 180425928,
      "step": 1428
    },
    {
      "epoch": 0.3665747450779196,
      "grad_norm": 52.846832275390625,
      "learning_rate": 5e-06,
      "loss": 1.2341,
      "num_input_tokens_seen": 180551508,
      "step": 1429
    },
    {
      "epoch": 0.3665747450779196,
      "loss": 1.01686692237854,
      "loss_ce": 0.001241927850060165,
      "loss_iou": 0.474609375,
      "loss_num": 0.01312255859375,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 180551508,
      "step": 1429
    },
    {
      "epoch": 0.3668312704418649,
      "grad_norm": 54.247379302978516,
      "learning_rate": 5e-06,
      "loss": 1.1757,
      "num_input_tokens_seen": 180678760,
      "step": 1430
    },
    {
      "epoch": 0.3668312704418649,
      "loss": 1.1665047407150269,
      "loss_ce": 0.001953993458300829,
      "loss_iou": 0.5234375,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 180678760,
      "step": 1430
    },
    {
      "epoch": 0.3670877958058103,
      "grad_norm": 64.9625473022461,
      "learning_rate": 5e-06,
      "loss": 1.1795,
      "num_input_tokens_seen": 180804548,
      "step": 1431
    },
    {
      "epoch": 0.3670877958058103,
      "loss": 1.1200346946716309,
      "loss_ce": 0.00040587206603959203,
      "loss_iou": 0.52734375,
      "loss_num": 0.01385498046875,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 180804548,
      "step": 1431
    },
    {
      "epoch": 0.3673443211697557,
      "grad_norm": 60.98923110961914,
      "learning_rate": 5e-06,
      "loss": 1.2153,
      "num_input_tokens_seen": 180929400,
      "step": 1432
    },
    {
      "epoch": 0.3673443211697557,
      "loss": 1.3304595947265625,
      "loss_ce": 0.0052642421796917915,
      "loss_iou": 0.59375,
      "loss_num": 0.0281982421875,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 180929400,
      "step": 1432
    },
    {
      "epoch": 0.367600846533701,
      "grad_norm": 92.65335083007812,
      "learning_rate": 5e-06,
      "loss": 1.0999,
      "num_input_tokens_seen": 181054752,
      "step": 1433
    },
    {
      "epoch": 0.367600846533701,
      "loss": 1.1723136901855469,
      "loss_ce": 0.0009269764414057136,
      "loss_iou": 0.53515625,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 181054752,
      "step": 1433
    },
    {
      "epoch": 0.3678573718976464,
      "grad_norm": 44.80340576171875,
      "learning_rate": 5e-06,
      "loss": 1.111,
      "num_input_tokens_seen": 181181180,
      "step": 1434
    },
    {
      "epoch": 0.3678573718976464,
      "loss": 0.998780369758606,
      "loss_ce": 0.0007334743859246373,
      "loss_iou": 0.44921875,
      "loss_num": 0.02001953125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 181181180,
      "step": 1434
    },
    {
      "epoch": 0.3681138972615917,
      "grad_norm": 45.4466552734375,
      "learning_rate": 5e-06,
      "loss": 1.1788,
      "num_input_tokens_seen": 181306016,
      "step": 1435
    },
    {
      "epoch": 0.3681138972615917,
      "loss": 1.195596694946289,
      "loss_ce": 0.0022373043466359377,
      "loss_iou": 0.5546875,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 181306016,
      "step": 1435
    },
    {
      "epoch": 0.3683704226255371,
      "grad_norm": 58.181339263916016,
      "learning_rate": 5e-06,
      "loss": 1.086,
      "num_input_tokens_seen": 181433156,
      "step": 1436
    },
    {
      "epoch": 0.3683704226255371,
      "loss": 1.0234589576721191,
      "loss_ce": 0.0009980329778045416,
      "loss_iou": 0.47265625,
      "loss_num": 0.01519775390625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 181433156,
      "step": 1436
    },
    {
      "epoch": 0.3686269479894825,
      "grad_norm": 60.11557388305664,
      "learning_rate": 5e-06,
      "loss": 1.4318,
      "num_input_tokens_seen": 181559304,
      "step": 1437
    },
    {
      "epoch": 0.3686269479894825,
      "loss": 1.6108883619308472,
      "loss_ce": 0.004443113226443529,
      "loss_iou": 0.70703125,
      "loss_num": 0.038330078125,
      "loss_xval": 1.609375,
      "num_input_tokens_seen": 181559304,
      "step": 1437
    },
    {
      "epoch": 0.3688834733534278,
      "grad_norm": 63.923423767089844,
      "learning_rate": 5e-06,
      "loss": 1.1966,
      "num_input_tokens_seen": 181686156,
      "step": 1438
    },
    {
      "epoch": 0.3688834733534278,
      "loss": 1.4142377376556396,
      "loss_ce": 0.003104914678260684,
      "loss_iou": 0.62109375,
      "loss_num": 0.0341796875,
      "loss_xval": 1.4140625,
      "num_input_tokens_seen": 181686156,
      "step": 1438
    },
    {
      "epoch": 0.3691399987173732,
      "grad_norm": 58.34791946411133,
      "learning_rate": 5e-06,
      "loss": 1.224,
      "num_input_tokens_seen": 181812904,
      "step": 1439
    },
    {
      "epoch": 0.3691399987173732,
      "loss": 1.2716073989868164,
      "loss_ce": 0.0006112903356552124,
      "loss_iou": 0.578125,
      "loss_num": 0.0230712890625,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 181812904,
      "step": 1439
    },
    {
      "epoch": 0.36939652408131857,
      "grad_norm": 71.49700927734375,
      "learning_rate": 5e-06,
      "loss": 1.1284,
      "num_input_tokens_seen": 181939124,
      "step": 1440
    },
    {
      "epoch": 0.36939652408131857,
      "loss": 1.3389750719070435,
      "loss_ce": 0.0020609612111002207,
      "loss_iou": 0.6015625,
      "loss_num": 0.027099609375,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 181939124,
      "step": 1440
    },
    {
      "epoch": 0.3696530494452639,
      "grad_norm": 54.36580276489258,
      "learning_rate": 5e-06,
      "loss": 1.2617,
      "num_input_tokens_seen": 182064644,
      "step": 1441
    },
    {
      "epoch": 0.3696530494452639,
      "loss": 1.2562098503112793,
      "loss_ce": 0.0037685034330934286,
      "loss_iou": 0.59375,
      "loss_num": 0.013427734375,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 182064644,
      "step": 1441
    },
    {
      "epoch": 0.3699095748092093,
      "grad_norm": 43.05189895629883,
      "learning_rate": 5e-06,
      "loss": 1.1161,
      "num_input_tokens_seen": 182190700,
      "step": 1442
    },
    {
      "epoch": 0.3699095748092093,
      "loss": 0.9707801938056946,
      "loss_ce": 0.0005654080305248499,
      "loss_iou": 0.45703125,
      "loss_num": 0.01116943359375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 182190700,
      "step": 1442
    },
    {
      "epoch": 0.3701661001731546,
      "grad_norm": 58.621910095214844,
      "learning_rate": 5e-06,
      "loss": 1.116,
      "num_input_tokens_seen": 182317404,
      "step": 1443
    },
    {
      "epoch": 0.3701661001731546,
      "loss": 1.0504403114318848,
      "loss_ce": 0.0011238225270062685,
      "loss_iou": 0.494140625,
      "loss_num": 0.01214599609375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 182317404,
      "step": 1443
    },
    {
      "epoch": 0.3704226255371,
      "grad_norm": 52.356361389160156,
      "learning_rate": 5e-06,
      "loss": 1.1329,
      "num_input_tokens_seen": 182444136,
      "step": 1444
    },
    {
      "epoch": 0.3704226255371,
      "loss": 1.24242103099823,
      "loss_ce": 0.002186728175729513,
      "loss_iou": 0.55078125,
      "loss_num": 0.0283203125,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 182444136,
      "step": 1444
    },
    {
      "epoch": 0.37067915090104536,
      "grad_norm": 77.2430648803711,
      "learning_rate": 5e-06,
      "loss": 1.0967,
      "num_input_tokens_seen": 182570484,
      "step": 1445
    },
    {
      "epoch": 0.37067915090104536,
      "loss": 1.0517778396606445,
      "loss_ce": 0.0014848210848867893,
      "loss_iou": 0.484375,
      "loss_num": 0.016357421875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 182570484,
      "step": 1445
    },
    {
      "epoch": 0.3709356762649907,
      "grad_norm": 51.65608596801758,
      "learning_rate": 5e-06,
      "loss": 1.3162,
      "num_input_tokens_seen": 182698136,
      "step": 1446
    },
    {
      "epoch": 0.3709356762649907,
      "loss": 1.4817254543304443,
      "loss_ce": 0.002233359031379223,
      "loss_iou": 0.67578125,
      "loss_num": 0.0262451171875,
      "loss_xval": 1.4765625,
      "num_input_tokens_seen": 182698136,
      "step": 1446
    },
    {
      "epoch": 0.37119220162893607,
      "grad_norm": 30.956701278686523,
      "learning_rate": 5e-06,
      "loss": 1.1749,
      "num_input_tokens_seen": 182824724,
      "step": 1447
    },
    {
      "epoch": 0.37119220162893607,
      "loss": 1.1401504278182983,
      "loss_ce": 0.0005019723903387785,
      "loss_iou": 0.5234375,
      "loss_num": 0.019287109375,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 182824724,
      "step": 1447
    },
    {
      "epoch": 0.3714487269928814,
      "grad_norm": 26.532615661621094,
      "learning_rate": 5e-06,
      "loss": 1.2666,
      "num_input_tokens_seen": 182950348,
      "step": 1448
    },
    {
      "epoch": 0.3714487269928814,
      "loss": 1.6688858270645142,
      "loss_ce": 0.000917116878554225,
      "loss_iou": 0.7109375,
      "loss_num": 0.0498046875,
      "loss_xval": 1.671875,
      "num_input_tokens_seen": 182950348,
      "step": 1448
    },
    {
      "epoch": 0.3717052523568268,
      "grad_norm": 30.09617805480957,
      "learning_rate": 5e-06,
      "loss": 1.0391,
      "num_input_tokens_seen": 183076340,
      "step": 1449
    },
    {
      "epoch": 0.3717052523568268,
      "loss": 1.0249981880187988,
      "loss_ce": 0.002537301741540432,
      "loss_iou": 0.47265625,
      "loss_num": 0.014892578125,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 183076340,
      "step": 1449
    },
    {
      "epoch": 0.37196177772077216,
      "grad_norm": 48.92543029785156,
      "learning_rate": 5e-06,
      "loss": 1.1529,
      "num_input_tokens_seen": 183204332,
      "step": 1450
    },
    {
      "epoch": 0.37196177772077216,
      "loss": 1.0905632972717285,
      "loss_ce": 0.0007195285870693624,
      "loss_iou": 0.5,
      "loss_num": 0.017333984375,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 183204332,
      "step": 1450
    },
    {
      "epoch": 0.3722183030847175,
      "grad_norm": 81.83463287353516,
      "learning_rate": 5e-06,
      "loss": 1.2816,
      "num_input_tokens_seen": 183331368,
      "step": 1451
    },
    {
      "epoch": 0.3722183030847175,
      "loss": 1.1401288509368896,
      "loss_ce": 0.00048049382166936994,
      "loss_iou": 0.54296875,
      "loss_num": 0.010498046875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 183331368,
      "step": 1451
    },
    {
      "epoch": 0.37247482844866286,
      "grad_norm": 46.24848175048828,
      "learning_rate": 5e-06,
      "loss": 1.2737,
      "num_input_tokens_seen": 183458728,
      "step": 1452
    },
    {
      "epoch": 0.37247482844866286,
      "loss": 1.4954209327697754,
      "loss_ce": 0.0017685178900137544,
      "loss_iou": 0.67578125,
      "loss_num": 0.02783203125,
      "loss_xval": 1.4921875,
      "num_input_tokens_seen": 183458728,
      "step": 1452
    },
    {
      "epoch": 0.37273135381260825,
      "grad_norm": 53.595603942871094,
      "learning_rate": 5e-06,
      "loss": 1.096,
      "num_input_tokens_seen": 183585176,
      "step": 1453
    },
    {
      "epoch": 0.37273135381260825,
      "loss": 1.109360694885254,
      "loss_ce": 0.0009622994693927467,
      "loss_iou": 0.51171875,
      "loss_num": 0.017333984375,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 183585176,
      "step": 1453
    },
    {
      "epoch": 0.37298787917655357,
      "grad_norm": 52.50171661376953,
      "learning_rate": 5e-06,
      "loss": 1.2083,
      "num_input_tokens_seen": 183712196,
      "step": 1454
    },
    {
      "epoch": 0.37298787917655357,
      "loss": 1.2069188356399536,
      "loss_ce": 0.0008641676395200193,
      "loss_iou": 0.546875,
      "loss_num": 0.021728515625,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 183712196,
      "step": 1454
    },
    {
      "epoch": 0.37324440454049895,
      "grad_norm": 47.28135681152344,
      "learning_rate": 5e-06,
      "loss": 1.1427,
      "num_input_tokens_seen": 183837988,
      "step": 1455
    },
    {
      "epoch": 0.37324440454049895,
      "loss": 0.9374693036079407,
      "loss_ce": 0.0019224147545173764,
      "loss_iou": 0.423828125,
      "loss_num": 0.017822265625,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 183837988,
      "step": 1455
    },
    {
      "epoch": 0.3735009299044443,
      "grad_norm": 51.378475189208984,
      "learning_rate": 5e-06,
      "loss": 1.1388,
      "num_input_tokens_seen": 183964708,
      "step": 1456
    },
    {
      "epoch": 0.3735009299044443,
      "loss": 1.0875346660614014,
      "loss_ce": 0.0020854545291513205,
      "loss_iou": 0.515625,
      "loss_num": 0.0113525390625,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 183964708,
      "step": 1456
    },
    {
      "epoch": 0.37375745526838966,
      "grad_norm": 48.922672271728516,
      "learning_rate": 5e-06,
      "loss": 1.2063,
      "num_input_tokens_seen": 184091092,
      "step": 1457
    },
    {
      "epoch": 0.37375745526838966,
      "loss": 1.1303311586380005,
      "loss_ce": 0.000936680706217885,
      "loss_iou": 0.51171875,
      "loss_num": 0.0206298828125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 184091092,
      "step": 1457
    },
    {
      "epoch": 0.37401398063233504,
      "grad_norm": 35.330074310302734,
      "learning_rate": 5e-06,
      "loss": 1.046,
      "num_input_tokens_seen": 184217968,
      "step": 1458
    },
    {
      "epoch": 0.37401398063233504,
      "loss": 1.1571398973464966,
      "loss_ce": 0.0008899496169760823,
      "loss_iou": 0.52734375,
      "loss_num": 0.0198974609375,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 184217968,
      "step": 1458
    },
    {
      "epoch": 0.37427050599628037,
      "grad_norm": 46.58449935913086,
      "learning_rate": 5e-06,
      "loss": 1.1735,
      "num_input_tokens_seen": 184345016,
      "step": 1459
    },
    {
      "epoch": 0.37427050599628037,
      "loss": 1.1300907135009766,
      "loss_ce": 0.00020788460096810013,
      "loss_iou": 0.5234375,
      "loss_num": 0.01708984375,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 184345016,
      "step": 1459
    },
    {
      "epoch": 0.37452703136022575,
      "grad_norm": 72.1821060180664,
      "learning_rate": 5e-06,
      "loss": 1.3589,
      "num_input_tokens_seen": 184471676,
      "step": 1460
    },
    {
      "epoch": 0.37452703136022575,
      "loss": 1.181196689605713,
      "loss_ce": 0.0015092871617525816,
      "loss_iou": 0.546875,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 184471676,
      "step": 1460
    },
    {
      "epoch": 0.37478355672417113,
      "grad_norm": 50.933868408203125,
      "learning_rate": 5e-06,
      "loss": 1.2062,
      "num_input_tokens_seen": 184598868,
      "step": 1461
    },
    {
      "epoch": 0.37478355672417113,
      "loss": 1.2450307607650757,
      "loss_ce": 0.0018667103722691536,
      "loss_iou": 0.58984375,
      "loss_num": 0.01324462890625,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 184598868,
      "step": 1461
    },
    {
      "epoch": 0.37504008208811646,
      "grad_norm": 31.51675033569336,
      "learning_rate": 5e-06,
      "loss": 1.1351,
      "num_input_tokens_seen": 184725156,
      "step": 1462
    },
    {
      "epoch": 0.37504008208811646,
      "loss": 1.248775839805603,
      "loss_ce": 0.00219384185038507,
      "loss_iou": 0.5703125,
      "loss_num": 0.0206298828125,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 184725156,
      "step": 1462
    },
    {
      "epoch": 0.37529660745206184,
      "grad_norm": 50.46366882324219,
      "learning_rate": 5e-06,
      "loss": 1.1203,
      "num_input_tokens_seen": 184851476,
      "step": 1463
    },
    {
      "epoch": 0.37529660745206184,
      "loss": 1.2937703132629395,
      "loss_ce": 0.0012898120330646634,
      "loss_iou": 0.59375,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 184851476,
      "step": 1463
    },
    {
      "epoch": 0.37555313281600716,
      "grad_norm": 60.26002502441406,
      "learning_rate": 5e-06,
      "loss": 1.1225,
      "num_input_tokens_seen": 184977272,
      "step": 1464
    },
    {
      "epoch": 0.37555313281600716,
      "loss": 1.1190664768218994,
      "loss_ce": 0.0013906274689361453,
      "loss_iou": 0.515625,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 184977272,
      "step": 1464
    },
    {
      "epoch": 0.37580965817995254,
      "grad_norm": 73.34342193603516,
      "learning_rate": 5e-06,
      "loss": 1.0823,
      "num_input_tokens_seen": 185104268,
      "step": 1465
    },
    {
      "epoch": 0.37580965817995254,
      "loss": 1.18039071559906,
      "loss_ce": 0.0021680148784071207,
      "loss_iou": 0.53515625,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 185104268,
      "step": 1465
    },
    {
      "epoch": 0.3760661835438979,
      "grad_norm": 53.87993240356445,
      "learning_rate": 5e-06,
      "loss": 1.1936,
      "num_input_tokens_seen": 185229720,
      "step": 1466
    },
    {
      "epoch": 0.3760661835438979,
      "loss": 1.347795009613037,
      "loss_ce": 0.0006270152516663074,
      "loss_iou": 0.6171875,
      "loss_num": 0.0228271484375,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 185229720,
      "step": 1466
    },
    {
      "epoch": 0.37632270890784325,
      "grad_norm": 35.32950973510742,
      "learning_rate": 5e-06,
      "loss": 1.1457,
      "num_input_tokens_seen": 185357412,
      "step": 1467
    },
    {
      "epoch": 0.37632270890784325,
      "loss": 0.9886486530303955,
      "loss_ce": 0.0003673986648209393,
      "loss_iou": 0.466796875,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 185357412,
      "step": 1467
    },
    {
      "epoch": 0.37657923427178863,
      "grad_norm": 41.81003952026367,
      "learning_rate": 5e-06,
      "loss": 1.1306,
      "num_input_tokens_seen": 185483416,
      "step": 1468
    },
    {
      "epoch": 0.37657923427178863,
      "loss": 0.9659301042556763,
      "loss_ce": 0.0010863338829949498,
      "loss_iou": 0.44140625,
      "loss_num": 0.01611328125,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 185483416,
      "step": 1468
    },
    {
      "epoch": 0.37683575963573396,
      "grad_norm": 59.57676696777344,
      "learning_rate": 5e-06,
      "loss": 1.1317,
      "num_input_tokens_seen": 185609440,
      "step": 1469
    },
    {
      "epoch": 0.37683575963573396,
      "loss": 0.9435204267501831,
      "loss_ce": 0.0006493524415418506,
      "loss_iou": 0.435546875,
      "loss_num": 0.0145263671875,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 185609440,
      "step": 1469
    },
    {
      "epoch": 0.37709228499967934,
      "grad_norm": 58.61503982543945,
      "learning_rate": 5e-06,
      "loss": 1.1535,
      "num_input_tokens_seen": 185735728,
      "step": 1470
    },
    {
      "epoch": 0.37709228499967934,
      "loss": 1.3372206687927246,
      "loss_ce": 0.008607424795627594,
      "loss_iou": 0.578125,
      "loss_num": 0.033935546875,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 185735728,
      "step": 1470
    },
    {
      "epoch": 0.3773488103636247,
      "grad_norm": 69.69792175292969,
      "learning_rate": 5e-06,
      "loss": 1.1821,
      "num_input_tokens_seen": 185862328,
      "step": 1471
    },
    {
      "epoch": 0.3773488103636247,
      "loss": 1.2412822246551514,
      "loss_ce": 0.000559644540771842,
      "loss_iou": 0.5859375,
      "loss_num": 0.01422119140625,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 185862328,
      "step": 1471
    },
    {
      "epoch": 0.37760533572757005,
      "grad_norm": 57.6271858215332,
      "learning_rate": 5e-06,
      "loss": 1.084,
      "num_input_tokens_seen": 185989264,
      "step": 1472
    },
    {
      "epoch": 0.37760533572757005,
      "loss": 1.087946891784668,
      "loss_ce": 0.0005444984999485314,
      "loss_iou": 0.5078125,
      "loss_num": 0.01397705078125,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 185989264,
      "step": 1472
    },
    {
      "epoch": 0.3778618610915154,
      "grad_norm": 42.4777946472168,
      "learning_rate": 5e-06,
      "loss": 1.1132,
      "num_input_tokens_seen": 186116152,
      "step": 1473
    },
    {
      "epoch": 0.3778618610915154,
      "loss": 1.2301592826843262,
      "loss_ce": 0.0033527114428579807,
      "loss_iou": 0.5625,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 186116152,
      "step": 1473
    },
    {
      "epoch": 0.3781183864554608,
      "grad_norm": 58.11088943481445,
      "learning_rate": 5e-06,
      "loss": 1.1675,
      "num_input_tokens_seen": 186242344,
      "step": 1474
    },
    {
      "epoch": 0.3781183864554608,
      "loss": 1.3402596712112427,
      "loss_ce": 0.0009042044403031468,
      "loss_iou": 0.6015625,
      "loss_num": 0.0269775390625,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 186242344,
      "step": 1474
    },
    {
      "epoch": 0.37837491181940613,
      "grad_norm": 92.21174621582031,
      "learning_rate": 5e-06,
      "loss": 1.2085,
      "num_input_tokens_seen": 186368552,
      "step": 1475
    },
    {
      "epoch": 0.37837491181940613,
      "loss": 1.2746590375900269,
      "loss_ce": 0.002198141533881426,
      "loss_iou": 0.58984375,
      "loss_num": 0.017822265625,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 186368552,
      "step": 1475
    },
    {
      "epoch": 0.3786314371833515,
      "grad_norm": 48.54583740234375,
      "learning_rate": 5e-06,
      "loss": 1.223,
      "num_input_tokens_seen": 186494284,
      "step": 1476
    },
    {
      "epoch": 0.3786314371833515,
      "loss": 1.3988313674926758,
      "loss_ce": 0.006741541437804699,
      "loss_iou": 0.62890625,
      "loss_num": 0.0264892578125,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 186494284,
      "step": 1476
    },
    {
      "epoch": 0.37888796254729684,
      "grad_norm": 38.96225357055664,
      "learning_rate": 5e-06,
      "loss": 1.0842,
      "num_input_tokens_seen": 186620304,
      "step": 1477
    },
    {
      "epoch": 0.37888796254729684,
      "loss": 1.0690982341766357,
      "loss_ce": 0.002691975561901927,
      "loss_iou": 0.48828125,
      "loss_num": 0.01806640625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 186620304,
      "step": 1477
    },
    {
      "epoch": 0.3791444879112422,
      "grad_norm": 53.8547248840332,
      "learning_rate": 5e-06,
      "loss": 0.9833,
      "num_input_tokens_seen": 186747888,
      "step": 1478
    },
    {
      "epoch": 0.3791444879112422,
      "loss": 0.8739967346191406,
      "loss_ce": 0.002902979264035821,
      "loss_iou": 0.408203125,
      "loss_num": 0.010986328125,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 186747888,
      "step": 1478
    },
    {
      "epoch": 0.3794010132751876,
      "grad_norm": 51.58454132080078,
      "learning_rate": 5e-06,
      "loss": 1.0796,
      "num_input_tokens_seen": 186874780,
      "step": 1479
    },
    {
      "epoch": 0.3794010132751876,
      "loss": 1.0766490697860718,
      "loss_ce": 0.002430299762636423,
      "loss_iou": 0.478515625,
      "loss_num": 0.023193359375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 186874780,
      "step": 1479
    },
    {
      "epoch": 0.37965753863913293,
      "grad_norm": 62.28803253173828,
      "learning_rate": 5e-06,
      "loss": 1.0719,
      "num_input_tokens_seen": 187002092,
      "step": 1480
    },
    {
      "epoch": 0.37965753863913293,
      "loss": 1.0872108936309814,
      "loss_ce": 0.00029688942595385015,
      "loss_iou": 0.5,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 187002092,
      "step": 1480
    },
    {
      "epoch": 0.3799140640030783,
      "grad_norm": 47.01852798461914,
      "learning_rate": 5e-06,
      "loss": 1.1707,
      "num_input_tokens_seen": 187128668,
      "step": 1481
    },
    {
      "epoch": 0.3799140640030783,
      "loss": 1.3619575500488281,
      "loss_ce": 0.0016059414483606815,
      "loss_iou": 0.61328125,
      "loss_num": 0.0274658203125,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 187128668,
      "step": 1481
    },
    {
      "epoch": 0.38017058936702364,
      "grad_norm": 29.3968505859375,
      "learning_rate": 5e-06,
      "loss": 1.1119,
      "num_input_tokens_seen": 187254764,
      "step": 1482
    },
    {
      "epoch": 0.38017058936702364,
      "loss": 1.0216299295425415,
      "loss_ce": 0.0030751931481063366,
      "loss_iou": 0.48828125,
      "loss_num": 0.008544921875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 187254764,
      "step": 1482
    },
    {
      "epoch": 0.380427114730969,
      "grad_norm": 50.26612091064453,
      "learning_rate": 5e-06,
      "loss": 1.101,
      "num_input_tokens_seen": 187380452,
      "step": 1483
    },
    {
      "epoch": 0.380427114730969,
      "loss": 0.9717945456504822,
      "loss_ce": 0.0015796525403857231,
      "loss_iou": 0.46484375,
      "loss_num": 0.007568359375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 187380452,
      "step": 1483
    },
    {
      "epoch": 0.3806836400949144,
      "grad_norm": 109.7345199584961,
      "learning_rate": 5e-06,
      "loss": 1.2347,
      "num_input_tokens_seen": 187507644,
      "step": 1484
    },
    {
      "epoch": 0.3806836400949144,
      "loss": 1.1330649852752686,
      "loss_ce": 0.00025251254555769265,
      "loss_iou": 0.5390625,
      "loss_num": 0.0106201171875,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 187507644,
      "step": 1484
    },
    {
      "epoch": 0.3809401654588597,
      "grad_norm": 71.36920928955078,
      "learning_rate": 5e-06,
      "loss": 1.1469,
      "num_input_tokens_seen": 187635876,
      "step": 1485
    },
    {
      "epoch": 0.3809401654588597,
      "loss": 1.1659294366836548,
      "loss_ce": 0.002843515481799841,
      "loss_iou": 0.5390625,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 187635876,
      "step": 1485
    },
    {
      "epoch": 0.3811966908228051,
      "grad_norm": 51.950374603271484,
      "learning_rate": 5e-06,
      "loss": 1.2401,
      "num_input_tokens_seen": 187762348,
      "step": 1486
    },
    {
      "epoch": 0.3811966908228051,
      "loss": 1.083819031715393,
      "loss_ce": 0.0008112285286188126,
      "loss_iou": 0.5078125,
      "loss_num": 0.0130615234375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 187762348,
      "step": 1486
    },
    {
      "epoch": 0.3814532161867505,
      "grad_norm": 26.825910568237305,
      "learning_rate": 5e-06,
      "loss": 1.1679,
      "num_input_tokens_seen": 187889512,
      "step": 1487
    },
    {
      "epoch": 0.3814532161867505,
      "loss": 1.0824724435806274,
      "loss_ce": 0.0026385136879980564,
      "loss_iou": 0.48828125,
      "loss_num": 0.0205078125,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 187889512,
      "step": 1487
    },
    {
      "epoch": 0.3817097415506958,
      "grad_norm": 35.31439971923828,
      "learning_rate": 5e-06,
      "loss": 1.1302,
      "num_input_tokens_seen": 188015532,
      "step": 1488
    },
    {
      "epoch": 0.3817097415506958,
      "loss": 1.1531200408935547,
      "loss_ce": 0.0007762362947687507,
      "loss_iou": 0.51953125,
      "loss_num": 0.0220947265625,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 188015532,
      "step": 1488
    },
    {
      "epoch": 0.3819662669146412,
      "grad_norm": 48.783267974853516,
      "learning_rate": 5e-06,
      "loss": 0.9855,
      "num_input_tokens_seen": 188142588,
      "step": 1489
    },
    {
      "epoch": 0.3819662669146412,
      "loss": 1.179478645324707,
      "loss_ce": 0.00125592271797359,
      "loss_iou": 0.53515625,
      "loss_num": 0.021484375,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 188142588,
      "step": 1489
    },
    {
      "epoch": 0.3822227922785865,
      "grad_norm": 59.11516189575195,
      "learning_rate": 5e-06,
      "loss": 1.1455,
      "num_input_tokens_seen": 188268616,
      "step": 1490
    },
    {
      "epoch": 0.3822227922785865,
      "loss": 1.342651128768921,
      "loss_ce": 0.00231909635476768,
      "loss_iou": 0.59765625,
      "loss_num": 0.02880859375,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 188268616,
      "step": 1490
    },
    {
      "epoch": 0.3824793176425319,
      "grad_norm": 58.986289978027344,
      "learning_rate": 5e-06,
      "loss": 1.1642,
      "num_input_tokens_seen": 188395472,
      "step": 1491
    },
    {
      "epoch": 0.3824793176425319,
      "loss": 1.4730690717697144,
      "loss_ce": 0.0013893836876377463,
      "loss_iou": 0.671875,
      "loss_num": 0.0262451171875,
      "loss_xval": 1.46875,
      "num_input_tokens_seen": 188395472,
      "step": 1491
    },
    {
      "epoch": 0.3827358430064773,
      "grad_norm": 63.35247802734375,
      "learning_rate": 5e-06,
      "loss": 1.0822,
      "num_input_tokens_seen": 188521252,
      "step": 1492
    },
    {
      "epoch": 0.3827358430064773,
      "loss": 1.1525726318359375,
      "loss_ce": 0.0007171613397076726,
      "loss_iou": 0.5234375,
      "loss_num": 0.0205078125,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 188521252,
      "step": 1492
    },
    {
      "epoch": 0.3829923683704226,
      "grad_norm": 50.06898880004883,
      "learning_rate": 5e-06,
      "loss": 1.069,
      "num_input_tokens_seen": 188647320,
      "step": 1493
    },
    {
      "epoch": 0.3829923683704226,
      "loss": 0.908941924571991,
      "loss_ce": 0.0007387791993096471,
      "loss_iou": 0.435546875,
      "loss_num": 0.00762939453125,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 188647320,
      "step": 1493
    },
    {
      "epoch": 0.383248893734368,
      "grad_norm": 45.221744537353516,
      "learning_rate": 5e-06,
      "loss": 1.1514,
      "num_input_tokens_seen": 188772732,
      "step": 1494
    },
    {
      "epoch": 0.383248893734368,
      "loss": 1.234305739402771,
      "loss_ce": 0.004325295332819223,
      "loss_iou": 0.5390625,
      "loss_num": 0.0302734375,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 188772732,
      "step": 1494
    },
    {
      "epoch": 0.38350541909831337,
      "grad_norm": 53.2840461730957,
      "learning_rate": 5e-06,
      "loss": 1.0886,
      "num_input_tokens_seen": 188898676,
      "step": 1495
    },
    {
      "epoch": 0.38350541909831337,
      "loss": 1.0565247535705566,
      "loss_ce": 0.0033020772971212864,
      "loss_iou": 0.50390625,
      "loss_num": 0.0096435546875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 188898676,
      "step": 1495
    },
    {
      "epoch": 0.3837619444622587,
      "grad_norm": 78.18954467773438,
      "learning_rate": 5e-06,
      "loss": 1.181,
      "num_input_tokens_seen": 189024624,
      "step": 1496
    },
    {
      "epoch": 0.3837619444622587,
      "loss": 1.1217641830444336,
      "loss_ce": 0.0006704367697238922,
      "loss_iou": 0.51171875,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 189024624,
      "step": 1496
    },
    {
      "epoch": 0.3840184698262041,
      "grad_norm": 51.146820068359375,
      "learning_rate": 5e-06,
      "loss": 1.2754,
      "num_input_tokens_seen": 189151212,
      "step": 1497
    },
    {
      "epoch": 0.3840184698262041,
      "loss": 1.4092732667922974,
      "loss_ce": 0.004488097969442606,
      "loss_iou": 0.62890625,
      "loss_num": 0.0301513671875,
      "loss_xval": 1.40625,
      "num_input_tokens_seen": 189151212,
      "step": 1497
    },
    {
      "epoch": 0.3842749951901494,
      "grad_norm": 39.66246795654297,
      "learning_rate": 5e-06,
      "loss": 0.9884,
      "num_input_tokens_seen": 189277892,
      "step": 1498
    },
    {
      "epoch": 0.3842749951901494,
      "loss": 0.8523750305175781,
      "loss_ce": 0.00032432383159175515,
      "loss_iou": 0.408203125,
      "loss_num": 0.0074462890625,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 189277892,
      "step": 1498
    },
    {
      "epoch": 0.3845315205540948,
      "grad_norm": 56.27462387084961,
      "learning_rate": 5e-06,
      "loss": 1.0781,
      "num_input_tokens_seen": 189404836,
      "step": 1499
    },
    {
      "epoch": 0.3845315205540948,
      "loss": 0.9103527069091797,
      "loss_ce": 0.0006847254699096084,
      "loss_iou": 0.4296875,
      "loss_num": 0.01025390625,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 189404836,
      "step": 1499
    },
    {
      "epoch": 0.38478804591804017,
      "grad_norm": 76.12755584716797,
      "learning_rate": 5e-06,
      "loss": 1.0705,
      "num_input_tokens_seen": 189530596,
      "step": 1500
    },
    {
      "epoch": 0.38478804591804017,
      "eval_icons_CIoU": 0.11265752464532852,
      "eval_icons_GIoU": 0.08986295387148857,
      "eval_icons_IoU": 0.2963978126645088,
      "eval_icons_MAE_all": 0.035035944543778896,
      "eval_icons_MAE_h": 0.06094491295516491,
      "eval_icons_MAE_w": 0.05346305854618549,
      "eval_icons_MAE_x_boxes": 0.0489485040307045,
      "eval_icons_MAE_y_boxes": 0.05883572995662689,
      "eval_icons_NUM_probability": 0.9997245073318481,
      "eval_icons_inside_bbox": 0.5225694477558136,
      "eval_icons_loss": 1.9418941736221313,
      "eval_icons_loss_ce": 0.0002810888981912285,
      "eval_icons_loss_iou": 0.8802490234375,
      "eval_icons_loss_num": 0.03933525085449219,
      "eval_icons_loss_xval": 1.957763671875,
      "eval_icons_runtime": 63.2423,
      "eval_icons_samples_per_second": 0.791,
      "eval_icons_steps_per_second": 0.032,
      "num_input_tokens_seen": 189530596,
      "step": 1500
    },
    {
      "epoch": 0.38478804591804017,
      "eval_screenspot_CIoU": 0.11906857788562775,
      "eval_screenspot_GIoU": 0.10873545954624812,
      "eval_screenspot_IoU": 0.2889045178890228,
      "eval_screenspot_MAE_all": 0.0802874465783437,
      "eval_screenspot_MAE_h": 0.058682166039943695,
      "eval_screenspot_MAE_w": 0.128630168735981,
      "eval_screenspot_MAE_x_boxes": 0.10889026025931041,
      "eval_screenspot_MAE_y_boxes": 0.05938880269726118,
      "eval_screenspot_NUM_probability": 0.9998126228650411,
      "eval_screenspot_inside_bbox": 0.6016666690508524,
      "eval_screenspot_loss": 2.2293777465820312,
      "eval_screenspot_loss_ce": 0.0027873129583895206,
      "eval_screenspot_loss_iou": 0.9191080729166666,
      "eval_screenspot_loss_num": 0.08681233723958333,
      "eval_screenspot_loss_xval": 2.2721354166666665,
      "eval_screenspot_runtime": 109.1977,
      "eval_screenspot_samples_per_second": 0.815,
      "eval_screenspot_steps_per_second": 0.027,
      "num_input_tokens_seen": 189530596,
      "step": 1500
    },
    {
      "epoch": 0.38478804591804017,
      "loss": 2.201124668121338,
      "loss_ce": 0.0019058401230722666,
      "loss_iou": 0.8984375,
      "loss_num": 0.080078125,
      "loss_xval": 2.203125,
      "num_input_tokens_seen": 189530596,
      "step": 1500
    },
    {
      "epoch": 0.3850445712819855,
      "grad_norm": 61.09836959838867,
      "learning_rate": 5e-06,
      "loss": 1.1602,
      "num_input_tokens_seen": 189658140,
      "step": 1501
    },
    {
      "epoch": 0.3850445712819855,
      "loss": 1.015412449836731,
      "loss_ce": 0.0002757255861070007,
      "loss_iou": 0.478515625,
      "loss_num": 0.01177978515625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 189658140,
      "step": 1501
    },
    {
      "epoch": 0.3853010966459309,
      "grad_norm": 52.31174850463867,
      "learning_rate": 5e-06,
      "loss": 1.0971,
      "num_input_tokens_seen": 189785788,
      "step": 1502
    },
    {
      "epoch": 0.3853010966459309,
      "loss": 1.1657353639602661,
      "loss_ce": 0.002161166165024042,
      "loss_iou": 0.5390625,
      "loss_num": 0.0166015625,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 189785788,
      "step": 1502
    },
    {
      "epoch": 0.3855576220098762,
      "grad_norm": 50.60268783569336,
      "learning_rate": 5e-06,
      "loss": 1.2291,
      "num_input_tokens_seen": 189911632,
      "step": 1503
    },
    {
      "epoch": 0.3855576220098762,
      "loss": 1.2179605960845947,
      "loss_ce": 0.001651977770961821,
      "loss_iou": 0.5703125,
      "loss_num": 0.014892578125,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 189911632,
      "step": 1503
    },
    {
      "epoch": 0.3858141473738216,
      "grad_norm": 48.19023895263672,
      "learning_rate": 5e-06,
      "loss": 1.0979,
      "num_input_tokens_seen": 190036728,
      "step": 1504
    },
    {
      "epoch": 0.3858141473738216,
      "loss": 0.8764955401420593,
      "loss_ce": 0.0010072184959426522,
      "loss_iou": 0.416015625,
      "loss_num": 0.0087890625,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 190036728,
      "step": 1504
    },
    {
      "epoch": 0.38607067273776696,
      "grad_norm": 63.0456428527832,
      "learning_rate": 5e-06,
      "loss": 1.1139,
      "num_input_tokens_seen": 190163360,
      "step": 1505
    },
    {
      "epoch": 0.38607067273776696,
      "loss": 0.9802591800689697,
      "loss_ce": 0.00027872496866621077,
      "loss_iou": 0.4609375,
      "loss_num": 0.011474609375,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 190163360,
      "step": 1505
    },
    {
      "epoch": 0.3863271981017123,
      "grad_norm": 76.94174194335938,
      "learning_rate": 5e-06,
      "loss": 1.0723,
      "num_input_tokens_seen": 190289624,
      "step": 1506
    },
    {
      "epoch": 0.3863271981017123,
      "loss": 1.128048300743103,
      "loss_ce": 0.0015834597870707512,
      "loss_iou": 0.51953125,
      "loss_num": 0.016845703125,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 190289624,
      "step": 1506
    },
    {
      "epoch": 0.38658372346565767,
      "grad_norm": 58.044837951660156,
      "learning_rate": 5e-06,
      "loss": 1.1987,
      "num_input_tokens_seen": 190416452,
      "step": 1507
    },
    {
      "epoch": 0.38658372346565767,
      "loss": 1.2507119178771973,
      "loss_ce": 0.0007119464571587741,
      "loss_iou": 0.55859375,
      "loss_num": 0.02685546875,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 190416452,
      "step": 1507
    },
    {
      "epoch": 0.38684024882960305,
      "grad_norm": 38.8647575378418,
      "learning_rate": 5e-06,
      "loss": 1.1747,
      "num_input_tokens_seen": 190541876,
      "step": 1508
    },
    {
      "epoch": 0.38684024882960305,
      "loss": 1.027365803718567,
      "loss_ce": 0.002463455544784665,
      "loss_iou": 0.466796875,
      "loss_num": 0.018310546875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 190541876,
      "step": 1508
    },
    {
      "epoch": 0.3870967741935484,
      "grad_norm": 61.25758743286133,
      "learning_rate": 5e-06,
      "loss": 1.0612,
      "num_input_tokens_seen": 190668100,
      "step": 1509
    },
    {
      "epoch": 0.3870967741935484,
      "loss": 1.148411512374878,
      "loss_ce": 0.003392076352611184,
      "loss_iou": 0.52734375,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 190668100,
      "step": 1509
    },
    {
      "epoch": 0.38735329955749376,
      "grad_norm": 92.65426635742188,
      "learning_rate": 5e-06,
      "loss": 1.1023,
      "num_input_tokens_seen": 190794680,
      "step": 1510
    },
    {
      "epoch": 0.38735329955749376,
      "loss": 1.120812177658081,
      "loss_ce": 0.0016715934034436941,
      "loss_iou": 0.5078125,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 190794680,
      "step": 1510
    },
    {
      "epoch": 0.3876098249214391,
      "grad_norm": 52.11134338378906,
      "learning_rate": 5e-06,
      "loss": 1.3463,
      "num_input_tokens_seen": 190921504,
      "step": 1511
    },
    {
      "epoch": 0.3876098249214391,
      "loss": 1.367532730102539,
      "loss_ce": 0.0037630663719028234,
      "loss_iou": 0.62109375,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 190921504,
      "step": 1511
    },
    {
      "epoch": 0.38786635028538446,
      "grad_norm": 32.84667205810547,
      "learning_rate": 5e-06,
      "loss": 1.1584,
      "num_input_tokens_seen": 191046412,
      "step": 1512
    },
    {
      "epoch": 0.38786635028538446,
      "loss": 1.3258578777313232,
      "loss_ce": 0.0006626513786613941,
      "loss_iou": 0.609375,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 191046412,
      "step": 1512
    },
    {
      "epoch": 0.38812287564932985,
      "grad_norm": 47.48963928222656,
      "learning_rate": 5e-06,
      "loss": 1.0965,
      "num_input_tokens_seen": 191172548,
      "step": 1513
    },
    {
      "epoch": 0.38812287564932985,
      "loss": 1.0604231357574463,
      "loss_ce": 0.0008528043399564922,
      "loss_iou": 0.478515625,
      "loss_num": 0.0206298828125,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 191172548,
      "step": 1513
    },
    {
      "epoch": 0.38837940101327517,
      "grad_norm": 51.24031066894531,
      "learning_rate": 5e-06,
      "loss": 1.1738,
      "num_input_tokens_seen": 191297372,
      "step": 1514
    },
    {
      "epoch": 0.38837940101327517,
      "loss": 1.123929500579834,
      "loss_ce": 0.0008825291297398508,
      "loss_iou": 0.51171875,
      "loss_num": 0.020263671875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 191297372,
      "step": 1514
    },
    {
      "epoch": 0.38863592637722055,
      "grad_norm": 77.43284606933594,
      "learning_rate": 5e-06,
      "loss": 1.1405,
      "num_input_tokens_seen": 191424232,
      "step": 1515
    },
    {
      "epoch": 0.38863592637722055,
      "loss": 1.0486277341842651,
      "loss_ce": 0.0012644442031159997,
      "loss_iou": 0.490234375,
      "loss_num": 0.01336669921875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 191424232,
      "step": 1515
    },
    {
      "epoch": 0.38889245174116593,
      "grad_norm": 43.15481948852539,
      "learning_rate": 5e-06,
      "loss": 1.2764,
      "num_input_tokens_seen": 191550568,
      "step": 1516
    },
    {
      "epoch": 0.38889245174116593,
      "loss": 1.3104968070983887,
      "loss_ce": 0.0031238049268722534,
      "loss_iou": 0.578125,
      "loss_num": 0.029296875,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 191550568,
      "step": 1516
    },
    {
      "epoch": 0.38914897710511126,
      "grad_norm": 36.84035873413086,
      "learning_rate": 5e-06,
      "loss": 1.0121,
      "num_input_tokens_seen": 191677516,
      "step": 1517
    },
    {
      "epoch": 0.38914897710511126,
      "loss": 0.9524126648902893,
      "loss_ce": 0.002217363566160202,
      "loss_iou": 0.443359375,
      "loss_num": 0.0125732421875,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 191677516,
      "step": 1517
    },
    {
      "epoch": 0.38940550246905664,
      "grad_norm": 74.81336212158203,
      "learning_rate": 5e-06,
      "loss": 1.0434,
      "num_input_tokens_seen": 191803800,
      "step": 1518
    },
    {
      "epoch": 0.38940550246905664,
      "loss": 1.0824499130249023,
      "loss_ce": 0.0018835681257769465,
      "loss_iou": 0.486328125,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 191803800,
      "step": 1518
    },
    {
      "epoch": 0.38966202783300197,
      "grad_norm": 56.38863754272461,
      "learning_rate": 5e-06,
      "loss": 1.2743,
      "num_input_tokens_seen": 191929768,
      "step": 1519
    },
    {
      "epoch": 0.38966202783300197,
      "loss": 1.2586743831634521,
      "loss_ce": 0.00037358838017098606,
      "loss_iou": 0.5859375,
      "loss_num": 0.017578125,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 191929768,
      "step": 1519
    },
    {
      "epoch": 0.38991855319694735,
      "grad_norm": 37.75717544555664,
      "learning_rate": 5e-06,
      "loss": 1.1706,
      "num_input_tokens_seen": 192055244,
      "step": 1520
    },
    {
      "epoch": 0.38991855319694735,
      "loss": 1.347277045249939,
      "loss_ce": 0.0025504936929792166,
      "loss_iou": 0.60546875,
      "loss_num": 0.026123046875,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 192055244,
      "step": 1520
    },
    {
      "epoch": 0.39017507856089273,
      "grad_norm": 42.09926986694336,
      "learning_rate": 5e-06,
      "loss": 1.3359,
      "num_input_tokens_seen": 192181076,
      "step": 1521
    },
    {
      "epoch": 0.39017507856089273,
      "loss": 1.2312599420547485,
      "loss_ce": 0.0012794963549822569,
      "loss_iou": 0.55859375,
      "loss_num": 0.0228271484375,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 192181076,
      "step": 1521
    },
    {
      "epoch": 0.39043160392483806,
      "grad_norm": 45.43294143676758,
      "learning_rate": 5e-06,
      "loss": 1.0579,
      "num_input_tokens_seen": 192306704,
      "step": 1522
    },
    {
      "epoch": 0.39043160392483806,
      "loss": 1.036280870437622,
      "loss_ce": 0.0006363015854731202,
      "loss_iou": 0.484375,
      "loss_num": 0.012939453125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 192306704,
      "step": 1522
    },
    {
      "epoch": 0.39068812928878344,
      "grad_norm": 75.3431167602539,
      "learning_rate": 5e-06,
      "loss": 1.2175,
      "num_input_tokens_seen": 192432336,
      "step": 1523
    },
    {
      "epoch": 0.39068812928878344,
      "loss": 1.1916499137878418,
      "loss_ce": 0.002196761779487133,
      "loss_iou": 0.546875,
      "loss_num": 0.019775390625,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 192432336,
      "step": 1523
    },
    {
      "epoch": 0.39094465465272876,
      "grad_norm": 65.03369140625,
      "learning_rate": 5e-06,
      "loss": 1.3476,
      "num_input_tokens_seen": 192558840,
      "step": 1524
    },
    {
      "epoch": 0.39094465465272876,
      "loss": 1.5129880905151367,
      "loss_ce": 0.005175682716071606,
      "loss_iou": 0.671875,
      "loss_num": 0.03271484375,
      "loss_xval": 1.5078125,
      "num_input_tokens_seen": 192558840,
      "step": 1524
    },
    {
      "epoch": 0.39120118001667414,
      "grad_norm": 31.224037170410156,
      "learning_rate": 5e-06,
      "loss": 0.9564,
      "num_input_tokens_seen": 192685456,
      "step": 1525
    },
    {
      "epoch": 0.39120118001667414,
      "loss": 1.0182437896728516,
      "loss_ce": 0.0031070492696017027,
      "loss_iou": 0.45703125,
      "loss_num": 0.0205078125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 192685456,
      "step": 1525
    },
    {
      "epoch": 0.3914577053806195,
      "grad_norm": 65.39073181152344,
      "learning_rate": 5e-06,
      "loss": 1.2224,
      "num_input_tokens_seen": 192811228,
      "step": 1526
    },
    {
      "epoch": 0.3914577053806195,
      "loss": 1.2271161079406738,
      "loss_ce": 0.0005535732489079237,
      "loss_iou": 0.55859375,
      "loss_num": 0.0223388671875,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 192811228,
      "step": 1526
    },
    {
      "epoch": 0.39171423074456485,
      "grad_norm": 61.2736701965332,
      "learning_rate": 5e-06,
      "loss": 1.1001,
      "num_input_tokens_seen": 192938140,
      "step": 1527
    },
    {
      "epoch": 0.39171423074456485,
      "loss": 0.9914830327033997,
      "loss_ce": 0.002713508205488324,
      "loss_iou": 0.45703125,
      "loss_num": 0.01495361328125,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 192938140,
      "step": 1527
    },
    {
      "epoch": 0.39197075610851023,
      "grad_norm": 51.813697814941406,
      "learning_rate": 5e-06,
      "loss": 1.0995,
      "num_input_tokens_seen": 193065036,
      "step": 1528
    },
    {
      "epoch": 0.39197075610851023,
      "loss": 0.9853127598762512,
      "loss_ce": 0.00044953409815207124,
      "loss_iou": 0.458984375,
      "loss_num": 0.012939453125,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 193065036,
      "step": 1528
    },
    {
      "epoch": 0.3922272814724556,
      "grad_norm": 38.03799819946289,
      "learning_rate": 5e-06,
      "loss": 1.054,
      "num_input_tokens_seen": 193190448,
      "step": 1529
    },
    {
      "epoch": 0.3922272814724556,
      "loss": 1.145242691040039,
      "loss_ce": 0.0007113935425877571,
      "loss_iou": 0.52734375,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 193190448,
      "step": 1529
    },
    {
      "epoch": 0.39248380683640094,
      "grad_norm": 42.415897369384766,
      "learning_rate": 5e-06,
      "loss": 1.0583,
      "num_input_tokens_seen": 193316484,
      "step": 1530
    },
    {
      "epoch": 0.39248380683640094,
      "loss": 1.1623746156692505,
      "loss_ce": 0.0007535091135650873,
      "loss_iou": 0.5234375,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 193316484,
      "step": 1530
    },
    {
      "epoch": 0.3927403322003463,
      "grad_norm": 51.46474075317383,
      "learning_rate": 5e-06,
      "loss": 1.1727,
      "num_input_tokens_seen": 193443416,
      "step": 1531
    },
    {
      "epoch": 0.3927403322003463,
      "loss": 1.1363688707351685,
      "loss_ce": 0.002091593574732542,
      "loss_iou": 0.51171875,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 193443416,
      "step": 1531
    },
    {
      "epoch": 0.39299685756429165,
      "grad_norm": 70.49765014648438,
      "learning_rate": 5e-06,
      "loss": 1.0976,
      "num_input_tokens_seen": 193569044,
      "step": 1532
    },
    {
      "epoch": 0.39299685756429165,
      "loss": 1.1650943756103516,
      "loss_ce": 0.0005436567589640617,
      "loss_iou": 0.5390625,
      "loss_num": 0.017333984375,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 193569044,
      "step": 1532
    },
    {
      "epoch": 0.393253382928237,
      "grad_norm": 35.72270584106445,
      "learning_rate": 5e-06,
      "loss": 1.1378,
      "num_input_tokens_seen": 193693488,
      "step": 1533
    },
    {
      "epoch": 0.393253382928237,
      "loss": 1.165785312652588,
      "loss_ce": 0.0022111451253294945,
      "loss_iou": 0.53515625,
      "loss_num": 0.01904296875,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 193693488,
      "step": 1533
    },
    {
      "epoch": 0.3935099082921824,
      "grad_norm": 36.461997985839844,
      "learning_rate": 5e-06,
      "loss": 1.0489,
      "num_input_tokens_seen": 193821060,
      "step": 1534
    },
    {
      "epoch": 0.3935099082921824,
      "loss": 1.1525335311889648,
      "loss_ce": 0.002142914105206728,
      "loss_iou": 0.51953125,
      "loss_num": 0.0228271484375,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 193821060,
      "step": 1534
    },
    {
      "epoch": 0.39376643365612773,
      "grad_norm": 69.18570709228516,
      "learning_rate": 5e-06,
      "loss": 1.0326,
      "num_input_tokens_seen": 193947016,
      "step": 1535
    },
    {
      "epoch": 0.39376643365612773,
      "loss": 1.072740077972412,
      "loss_ce": 0.0004743871686514467,
      "loss_iou": 0.49609375,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 193947016,
      "step": 1535
    },
    {
      "epoch": 0.3940229590200731,
      "grad_norm": 53.863407135009766,
      "learning_rate": 5e-06,
      "loss": 1.2393,
      "num_input_tokens_seen": 194073124,
      "step": 1536
    },
    {
      "epoch": 0.3940229590200731,
      "loss": 1.1016266345977783,
      "loss_ce": 0.001040624687448144,
      "loss_iou": 0.5078125,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 194073124,
      "step": 1536
    },
    {
      "epoch": 0.3942794843840185,
      "grad_norm": 30.350656509399414,
      "learning_rate": 5e-06,
      "loss": 1.0471,
      "num_input_tokens_seen": 194199636,
      "step": 1537
    },
    {
      "epoch": 0.3942794843840185,
      "loss": 1.0734589099884033,
      "loss_ce": 0.00021668878616765141,
      "loss_iou": 0.49609375,
      "loss_num": 0.016357421875,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 194199636,
      "step": 1537
    },
    {
      "epoch": 0.3945360097479638,
      "grad_norm": 37.291587829589844,
      "learning_rate": 5e-06,
      "loss": 0.9813,
      "num_input_tokens_seen": 194326176,
      "step": 1538
    },
    {
      "epoch": 0.3945360097479638,
      "loss": 1.0740973949432373,
      "loss_ce": 0.0037849380169063807,
      "loss_iou": 0.49609375,
      "loss_num": 0.01611328125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 194326176,
      "step": 1538
    },
    {
      "epoch": 0.3947925351119092,
      "grad_norm": 46.24781799316406,
      "learning_rate": 5e-06,
      "loss": 1.2387,
      "num_input_tokens_seen": 194452456,
      "step": 1539
    },
    {
      "epoch": 0.3947925351119092,
      "loss": 1.2634050846099854,
      "loss_ce": 0.003639496862888336,
      "loss_iou": 0.58984375,
      "loss_num": 0.015625,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 194452456,
      "step": 1539
    },
    {
      "epoch": 0.39504906047585453,
      "grad_norm": 65.65367889404297,
      "learning_rate": 5e-06,
      "loss": 1.0808,
      "num_input_tokens_seen": 194578084,
      "step": 1540
    },
    {
      "epoch": 0.39504906047585453,
      "loss": 0.951698899269104,
      "loss_ce": 0.0010153321782127023,
      "loss_iou": 0.4453125,
      "loss_num": 0.01226806640625,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 194578084,
      "step": 1540
    },
    {
      "epoch": 0.3953055858397999,
      "grad_norm": 49.97622299194336,
      "learning_rate": 5e-06,
      "loss": 1.322,
      "num_input_tokens_seen": 194704076,
      "step": 1541
    },
    {
      "epoch": 0.3953055858397999,
      "loss": 1.2151434421539307,
      "loss_ce": 0.002741089090704918,
      "loss_iou": 0.53125,
      "loss_num": 0.030517578125,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 194704076,
      "step": 1541
    },
    {
      "epoch": 0.3955621112037453,
      "grad_norm": 65.10550689697266,
      "learning_rate": 5e-06,
      "loss": 0.9256,
      "num_input_tokens_seen": 194830920,
      "step": 1542
    },
    {
      "epoch": 0.3955621112037453,
      "loss": 1.0185145139694214,
      "loss_ce": 0.0024011863861232996,
      "loss_iou": 0.44921875,
      "loss_num": 0.0233154296875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 194830920,
      "step": 1542
    },
    {
      "epoch": 0.3958186365676906,
      "grad_norm": 58.70677947998047,
      "learning_rate": 5e-06,
      "loss": 1.2802,
      "num_input_tokens_seen": 194957768,
      "step": 1543
    },
    {
      "epoch": 0.3958186365676906,
      "loss": 1.0494959354400635,
      "loss_ce": 0.0006678862264379859,
      "loss_iou": 0.49609375,
      "loss_num": 0.01123046875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 194957768,
      "step": 1543
    },
    {
      "epoch": 0.396075161931636,
      "grad_norm": 45.512657165527344,
      "learning_rate": 5e-06,
      "loss": 1.0285,
      "num_input_tokens_seen": 195083768,
      "step": 1544
    },
    {
      "epoch": 0.396075161931636,
      "loss": 1.1316341161727905,
      "loss_ce": 0.0007747658528387547,
      "loss_iou": 0.5234375,
      "loss_num": 0.017333984375,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 195083768,
      "step": 1544
    },
    {
      "epoch": 0.3963316872955813,
      "grad_norm": 63.16133499145508,
      "learning_rate": 5e-06,
      "loss": 1.1437,
      "num_input_tokens_seen": 195210484,
      "step": 1545
    },
    {
      "epoch": 0.3963316872955813,
      "loss": 1.3586812019348145,
      "loss_ce": 0.0046771918423473835,
      "loss_iou": 0.625,
      "loss_num": 0.021484375,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 195210484,
      "step": 1545
    },
    {
      "epoch": 0.3965882126595267,
      "grad_norm": 82.78475189208984,
      "learning_rate": 5e-06,
      "loss": 1.0666,
      "num_input_tokens_seen": 195337036,
      "step": 1546
    },
    {
      "epoch": 0.3965882126595267,
      "loss": 1.1015851497650146,
      "loss_ce": 0.000999275827780366,
      "loss_iou": 0.50390625,
      "loss_num": 0.018310546875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 195337036,
      "step": 1546
    },
    {
      "epoch": 0.3968447380234721,
      "grad_norm": 52.03101348876953,
      "learning_rate": 5e-06,
      "loss": 1.208,
      "num_input_tokens_seen": 195463500,
      "step": 1547
    },
    {
      "epoch": 0.3968447380234721,
      "loss": 1.0965516567230225,
      "loss_ce": 0.0037782436702400446,
      "loss_iou": 0.51953125,
      "loss_num": 0.010498046875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 195463500,
      "step": 1547
    },
    {
      "epoch": 0.3971012633874174,
      "grad_norm": 27.089580535888672,
      "learning_rate": 5e-06,
      "loss": 1.1511,
      "num_input_tokens_seen": 195588292,
      "step": 1548
    },
    {
      "epoch": 0.3971012633874174,
      "loss": 1.3309563398361206,
      "loss_ce": 0.0033195768482983112,
      "loss_iou": 0.5859375,
      "loss_num": 0.030517578125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 195588292,
      "step": 1548
    },
    {
      "epoch": 0.3973577887513628,
      "grad_norm": 35.71665573120117,
      "learning_rate": 5e-06,
      "loss": 1.1771,
      "num_input_tokens_seen": 195714520,
      "step": 1549
    },
    {
      "epoch": 0.3973577887513628,
      "loss": 1.2118616104125977,
      "loss_ce": 0.003365545067936182,
      "loss_iou": 0.55859375,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 195714520,
      "step": 1549
    },
    {
      "epoch": 0.3976143141153082,
      "grad_norm": 46.36763381958008,
      "learning_rate": 5e-06,
      "loss": 1.0423,
      "num_input_tokens_seen": 195842196,
      "step": 1550
    },
    {
      "epoch": 0.3976143141153082,
      "loss": 0.8938024640083313,
      "loss_ce": 0.0002477540110703558,
      "loss_iou": 0.416015625,
      "loss_num": 0.01220703125,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 195842196,
      "step": 1550
    },
    {
      "epoch": 0.3978708394792535,
      "grad_norm": 43.3109016418457,
      "learning_rate": 5e-06,
      "loss": 1.0645,
      "num_input_tokens_seen": 195967416,
      "step": 1551
    },
    {
      "epoch": 0.3978708394792535,
      "loss": 1.0396095514297485,
      "loss_ce": 0.000547111383639276,
      "loss_iou": 0.4921875,
      "loss_num": 0.010498046875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 195967416,
      "step": 1551
    },
    {
      "epoch": 0.3981273648431989,
      "grad_norm": 45.22679138183594,
      "learning_rate": 5e-06,
      "loss": 1.109,
      "num_input_tokens_seen": 196093916,
      "step": 1552
    },
    {
      "epoch": 0.3981273648431989,
      "loss": 1.15860116481781,
      "loss_ce": 0.0003980428446084261,
      "loss_iou": 0.54296875,
      "loss_num": 0.01422119140625,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 196093916,
      "step": 1552
    },
    {
      "epoch": 0.3983838902071442,
      "grad_norm": 67.62503814697266,
      "learning_rate": 5e-06,
      "loss": 1.242,
      "num_input_tokens_seen": 196220872,
      "step": 1553
    },
    {
      "epoch": 0.3983838902071442,
      "loss": 1.1265982389450073,
      "loss_ce": 0.004039607010781765,
      "loss_iou": 0.50390625,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 196220872,
      "step": 1553
    },
    {
      "epoch": 0.3986404155710896,
      "grad_norm": 39.299259185791016,
      "learning_rate": 5e-06,
      "loss": 1.2042,
      "num_input_tokens_seen": 196346364,
      "step": 1554
    },
    {
      "epoch": 0.3986404155710896,
      "loss": 1.0823338031768799,
      "loss_ce": 0.0027439750265330076,
      "loss_iou": 0.50390625,
      "loss_num": 0.01416015625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 196346364,
      "step": 1554
    },
    {
      "epoch": 0.39889694093503497,
      "grad_norm": 24.284473419189453,
      "learning_rate": 5e-06,
      "loss": 1.0085,
      "num_input_tokens_seen": 196471824,
      "step": 1555
    },
    {
      "epoch": 0.39889694093503497,
      "loss": 0.8962870836257935,
      "loss_ce": 0.002732346998527646,
      "loss_iou": 0.40625,
      "loss_num": 0.015869140625,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 196471824,
      "step": 1555
    },
    {
      "epoch": 0.3991534662989803,
      "grad_norm": 29.332895278930664,
      "learning_rate": 5e-06,
      "loss": 1.0541,
      "num_input_tokens_seen": 196598144,
      "step": 1556
    },
    {
      "epoch": 0.3991534662989803,
      "loss": 0.8029073476791382,
      "loss_ce": 0.0011495501967146993,
      "loss_iou": 0.38671875,
      "loss_num": 0.005950927734375,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 196598144,
      "step": 1556
    },
    {
      "epoch": 0.3994099916629257,
      "grad_norm": 51.90876770019531,
      "learning_rate": 5e-06,
      "loss": 1.0953,
      "num_input_tokens_seen": 196724860,
      "step": 1557
    },
    {
      "epoch": 0.3994099916629257,
      "loss": 1.1668106317520142,
      "loss_ce": 0.0007949427817948163,
      "loss_iou": 0.52734375,
      "loss_num": 0.02197265625,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 196724860,
      "step": 1557
    },
    {
      "epoch": 0.399666517026871,
      "grad_norm": 53.316673278808594,
      "learning_rate": 5e-06,
      "loss": 1.1668,
      "num_input_tokens_seen": 196851120,
      "step": 1558
    },
    {
      "epoch": 0.399666517026871,
      "loss": 1.181157112121582,
      "loss_ce": 0.000492969760671258,
      "loss_iou": 0.54296875,
      "loss_num": 0.019287109375,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 196851120,
      "step": 1558
    },
    {
      "epoch": 0.3999230423908164,
      "grad_norm": 70.81504821777344,
      "learning_rate": 5e-06,
      "loss": 1.0365,
      "num_input_tokens_seen": 196977116,
      "step": 1559
    },
    {
      "epoch": 0.3999230423908164,
      "loss": 1.151735782623291,
      "loss_ce": 0.005251309368759394,
      "loss_iou": 0.52734375,
      "loss_num": 0.017578125,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 196977116,
      "step": 1559
    },
    {
      "epoch": 0.40017956775476177,
      "grad_norm": 63.709285736083984,
      "learning_rate": 5e-06,
      "loss": 1.2733,
      "num_input_tokens_seen": 197102816,
      "step": 1560
    },
    {
      "epoch": 0.40017956775476177,
      "loss": 1.3319530487060547,
      "loss_ce": 0.002363146748393774,
      "loss_iou": 0.61328125,
      "loss_num": 0.0205078125,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 197102816,
      "step": 1560
    },
    {
      "epoch": 0.4004360931187071,
      "grad_norm": 24.85494613647461,
      "learning_rate": 5e-06,
      "loss": 1.0136,
      "num_input_tokens_seen": 197229292,
      "step": 1561
    },
    {
      "epoch": 0.4004360931187071,
      "loss": 0.9530725479125977,
      "loss_ce": 0.00043580314377322793,
      "loss_iou": 0.4453125,
      "loss_num": 0.01220703125,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 197229292,
      "step": 1561
    },
    {
      "epoch": 0.4006926184826525,
      "grad_norm": 38.93208694458008,
      "learning_rate": 5e-06,
      "loss": 1.024,
      "num_input_tokens_seen": 197355308,
      "step": 1562
    },
    {
      "epoch": 0.4006926184826525,
      "loss": 0.915032148361206,
      "loss_ce": 0.0009696767665445805,
      "loss_iou": 0.4296875,
      "loss_num": 0.0107421875,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 197355308,
      "step": 1562
    },
    {
      "epoch": 0.40094914384659786,
      "grad_norm": 53.105751037597656,
      "learning_rate": 5e-06,
      "loss": 1.1505,
      "num_input_tokens_seen": 197482276,
      "step": 1563
    },
    {
      "epoch": 0.40094914384659786,
      "loss": 1.196049451828003,
      "loss_ce": 0.00415497412905097,
      "loss_iou": 0.5390625,
      "loss_num": 0.0234375,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 197482276,
      "step": 1563
    },
    {
      "epoch": 0.4012056692105432,
      "grad_norm": 62.04239273071289,
      "learning_rate": 5e-06,
      "loss": 1.1792,
      "num_input_tokens_seen": 197609880,
      "step": 1564
    },
    {
      "epoch": 0.4012056692105432,
      "loss": 1.3616387844085693,
      "loss_ce": 0.0022638263180851936,
      "loss_iou": 0.6015625,
      "loss_num": 0.0311279296875,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 197609880,
      "step": 1564
    },
    {
      "epoch": 0.40146219457448856,
      "grad_norm": 98.88211822509766,
      "learning_rate": 5e-06,
      "loss": 1.195,
      "num_input_tokens_seen": 197735528,
      "step": 1565
    },
    {
      "epoch": 0.40146219457448856,
      "loss": 1.1786649227142334,
      "loss_ce": 0.0014189048670232296,
      "loss_iou": 0.546875,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 197735528,
      "step": 1565
    },
    {
      "epoch": 0.4017187199384339,
      "grad_norm": 54.32612609863281,
      "learning_rate": 5e-06,
      "loss": 1.3069,
      "num_input_tokens_seen": 197862352,
      "step": 1566
    },
    {
      "epoch": 0.4017187199384339,
      "loss": 1.5224307775497437,
      "loss_ce": 0.005829181522130966,
      "loss_iou": 0.6796875,
      "loss_num": 0.03173828125,
      "loss_xval": 1.515625,
      "num_input_tokens_seen": 197862352,
      "step": 1566
    },
    {
      "epoch": 0.40197524530237927,
      "grad_norm": 38.99921417236328,
      "learning_rate": 5e-06,
      "loss": 1.0473,
      "num_input_tokens_seen": 197988876,
      "step": 1567
    },
    {
      "epoch": 0.40197524530237927,
      "loss": 1.09300696849823,
      "loss_ce": 0.002674960531294346,
      "loss_iou": 0.494140625,
      "loss_num": 0.020263671875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 197988876,
      "step": 1567
    },
    {
      "epoch": 0.40223177066632465,
      "grad_norm": 46.888946533203125,
      "learning_rate": 5e-06,
      "loss": 1.1427,
      "num_input_tokens_seen": 198114624,
      "step": 1568
    },
    {
      "epoch": 0.40223177066632465,
      "loss": 1.4389984607696533,
      "loss_ce": 0.001498574623838067,
      "loss_iou": 0.6171875,
      "loss_num": 0.04052734375,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 198114624,
      "step": 1568
    },
    {
      "epoch": 0.40248829603027,
      "grad_norm": 45.29999923706055,
      "learning_rate": 5e-06,
      "loss": 1.0794,
      "num_input_tokens_seen": 198241208,
      "step": 1569
    },
    {
      "epoch": 0.40248829603027,
      "loss": 0.9347891807556152,
      "loss_ce": 0.0031485140789300203,
      "loss_iou": 0.439453125,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 198241208,
      "step": 1569
    },
    {
      "epoch": 0.40274482139421536,
      "grad_norm": 51.33820724487305,
      "learning_rate": 5e-06,
      "loss": 1.166,
      "num_input_tokens_seen": 198367280,
      "step": 1570
    },
    {
      "epoch": 0.40274482139421536,
      "loss": 1.223694920539856,
      "loss_ce": 0.004456730093806982,
      "loss_iou": 0.55859375,
      "loss_num": 0.0205078125,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 198367280,
      "step": 1570
    },
    {
      "epoch": 0.40300134675816074,
      "grad_norm": 61.1533088684082,
      "learning_rate": 5e-06,
      "loss": 1.1844,
      "num_input_tokens_seen": 198493992,
      "step": 1571
    },
    {
      "epoch": 0.40300134675816074,
      "loss": 1.2196438312530518,
      "loss_ce": 0.0013821612810716033,
      "loss_iou": 0.56640625,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 198493992,
      "step": 1571
    },
    {
      "epoch": 0.40325787212210606,
      "grad_norm": 78.06536865234375,
      "learning_rate": 5e-06,
      "loss": 1.2488,
      "num_input_tokens_seen": 198620276,
      "step": 1572
    },
    {
      "epoch": 0.40325787212210606,
      "loss": 1.4699575901031494,
      "loss_ce": 0.005602159537374973,
      "loss_iou": 0.64453125,
      "loss_num": 0.03515625,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 198620276,
      "step": 1572
    },
    {
      "epoch": 0.40351439748605145,
      "grad_norm": 48.317047119140625,
      "learning_rate": 5e-06,
      "loss": 1.0406,
      "num_input_tokens_seen": 198745900,
      "step": 1573
    },
    {
      "epoch": 0.40351439748605145,
      "loss": 1.0384116172790527,
      "loss_ce": 0.0008139099809341133,
      "loss_iou": 0.4921875,
      "loss_num": 0.01007080078125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 198745900,
      "step": 1573
    },
    {
      "epoch": 0.40377092284999677,
      "grad_norm": 34.022945404052734,
      "learning_rate": 5e-06,
      "loss": 1.1458,
      "num_input_tokens_seen": 198872064,
      "step": 1574
    },
    {
      "epoch": 0.40377092284999677,
      "loss": 1.1450846195220947,
      "loss_ce": 0.004947975743561983,
      "loss_iou": 0.515625,
      "loss_num": 0.021240234375,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 198872064,
      "step": 1574
    },
    {
      "epoch": 0.40402744821394215,
      "grad_norm": 40.52445983886719,
      "learning_rate": 5e-06,
      "loss": 0.9889,
      "num_input_tokens_seen": 198999540,
      "step": 1575
    },
    {
      "epoch": 0.40402744821394215,
      "loss": 0.9268763661384583,
      "loss_ce": 0.001095124171115458,
      "loss_iou": 0.439453125,
      "loss_num": 0.009033203125,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 198999540,
      "step": 1575
    },
    {
      "epoch": 0.40428397357788753,
      "grad_norm": 65.02236938476562,
      "learning_rate": 5e-06,
      "loss": 1.0033,
      "num_input_tokens_seen": 199127280,
      "step": 1576
    },
    {
      "epoch": 0.40428397357788753,
      "loss": 1.0825482606887817,
      "loss_ce": 0.00344668235629797,
      "loss_iou": 0.494140625,
      "loss_num": 0.01806640625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 199127280,
      "step": 1576
    },
    {
      "epoch": 0.40454049894183286,
      "grad_norm": 56.176116943359375,
      "learning_rate": 5e-06,
      "loss": 1.1199,
      "num_input_tokens_seen": 199254448,
      "step": 1577
    },
    {
      "epoch": 0.40454049894183286,
      "loss": 1.0419844388961792,
      "loss_ce": 0.0029219682328402996,
      "loss_iou": 0.494140625,
      "loss_num": 0.01019287109375,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 199254448,
      "step": 1577
    },
    {
      "epoch": 0.40479702430577824,
      "grad_norm": 46.91203308105469,
      "learning_rate": 5e-06,
      "loss": 1.1591,
      "num_input_tokens_seen": 199379984,
      "step": 1578
    },
    {
      "epoch": 0.40479702430577824,
      "loss": 1.2087640762329102,
      "loss_ce": 0.003197699785232544,
      "loss_iou": 0.546875,
      "loss_num": 0.022705078125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 199379984,
      "step": 1578
    },
    {
      "epoch": 0.40505354966972357,
      "grad_norm": 45.60390853881836,
      "learning_rate": 5e-06,
      "loss": 1.1384,
      "num_input_tokens_seen": 199505764,
      "step": 1579
    },
    {
      "epoch": 0.40505354966972357,
      "loss": 1.2366540431976318,
      "loss_ce": 0.0008141376893036067,
      "loss_iou": 0.57421875,
      "loss_num": 0.017822265625,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 199505764,
      "step": 1579
    },
    {
      "epoch": 0.40531007503366895,
      "grad_norm": 68.7022476196289,
      "learning_rate": 5e-06,
      "loss": 1.1007,
      "num_input_tokens_seen": 199632140,
      "step": 1580
    },
    {
      "epoch": 0.40531007503366895,
      "loss": 1.1716147661209106,
      "loss_ce": 0.00022805578191764653,
      "loss_iou": 0.5390625,
      "loss_num": 0.019287109375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 199632140,
      "step": 1580
    },
    {
      "epoch": 0.40556660039761433,
      "grad_norm": 53.40279006958008,
      "learning_rate": 5e-06,
      "loss": 1.1485,
      "num_input_tokens_seen": 199758440,
      "step": 1581
    },
    {
      "epoch": 0.40556660039761433,
      "loss": 1.069993495941162,
      "loss_ce": 0.0011458214139565825,
      "loss_iou": 0.5,
      "loss_num": 0.01361083984375,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 199758440,
      "step": 1581
    },
    {
      "epoch": 0.40582312576155966,
      "grad_norm": 53.18407440185547,
      "learning_rate": 5e-06,
      "loss": 0.9958,
      "num_input_tokens_seen": 199885324,
      "step": 1582
    },
    {
      "epoch": 0.40582312576155966,
      "loss": 0.8628374338150024,
      "loss_ce": 0.0002885780995711684,
      "loss_iou": 0.412109375,
      "loss_num": 0.007476806640625,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 199885324,
      "step": 1582
    },
    {
      "epoch": 0.40607965112550504,
      "grad_norm": 41.17107391357422,
      "learning_rate": 5e-06,
      "loss": 1.0769,
      "num_input_tokens_seen": 200011144,
      "step": 1583
    },
    {
      "epoch": 0.40607965112550504,
      "loss": 1.1172876358032227,
      "loss_ce": 0.0015650223940610886,
      "loss_iou": 0.5,
      "loss_num": 0.0228271484375,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 200011144,
      "step": 1583
    },
    {
      "epoch": 0.4063361764894504,
      "grad_norm": 69.88388061523438,
      "learning_rate": 5e-06,
      "loss": 1.0976,
      "num_input_tokens_seen": 200136852,
      "step": 1584
    },
    {
      "epoch": 0.4063361764894504,
      "loss": 1.15824294090271,
      "loss_ce": 0.0015046991175040603,
      "loss_iou": 0.5390625,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 200136852,
      "step": 1584
    },
    {
      "epoch": 0.40659270185339574,
      "grad_norm": 51.52262496948242,
      "learning_rate": 5e-06,
      "loss": 1.22,
      "num_input_tokens_seen": 200263788,
      "step": 1585
    },
    {
      "epoch": 0.40659270185339574,
      "loss": 1.2661281824111938,
      "loss_ce": 0.001479707658290863,
      "loss_iou": 0.5859375,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 200263788,
      "step": 1585
    },
    {
      "epoch": 0.4068492272173411,
      "grad_norm": 45.43435287475586,
      "learning_rate": 5e-06,
      "loss": 1.0949,
      "num_input_tokens_seen": 200389908,
      "step": 1586
    },
    {
      "epoch": 0.4068492272173411,
      "loss": 1.2181625366210938,
      "loss_ce": 0.0018539582379162312,
      "loss_iou": 0.5390625,
      "loss_num": 0.027099609375,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 200389908,
      "step": 1586
    },
    {
      "epoch": 0.40710575258128645,
      "grad_norm": 35.7471923828125,
      "learning_rate": 5e-06,
      "loss": 1.0233,
      "num_input_tokens_seen": 200515100,
      "step": 1587
    },
    {
      "epoch": 0.40710575258128645,
      "loss": 1.0286756753921509,
      "loss_ce": 0.0003553498536348343,
      "loss_iou": 0.482421875,
      "loss_num": 0.0130615234375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 200515100,
      "step": 1587
    },
    {
      "epoch": 0.40736227794523183,
      "grad_norm": 40.84055709838867,
      "learning_rate": 5e-06,
      "loss": 1.1475,
      "num_input_tokens_seen": 200641964,
      "step": 1588
    },
    {
      "epoch": 0.40736227794523183,
      "loss": 1.4442625045776367,
      "loss_ce": 0.0028562629595398903,
      "loss_iou": 0.6328125,
      "loss_num": 0.03466796875,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 200641964,
      "step": 1588
    },
    {
      "epoch": 0.4076188033091772,
      "grad_norm": 60.79541015625,
      "learning_rate": 5e-06,
      "loss": 1.0728,
      "num_input_tokens_seen": 200766608,
      "step": 1589
    },
    {
      "epoch": 0.4076188033091772,
      "loss": 1.1367096900939941,
      "loss_ce": 0.0019440683536231518,
      "loss_iou": 0.52734375,
      "loss_num": 0.01544189453125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 200766608,
      "step": 1589
    },
    {
      "epoch": 0.40787532867312254,
      "grad_norm": 48.42425537109375,
      "learning_rate": 5e-06,
      "loss": 1.1214,
      "num_input_tokens_seen": 200892912,
      "step": 1590
    },
    {
      "epoch": 0.40787532867312254,
      "loss": 1.2832303047180176,
      "loss_ce": 0.0010037871543318033,
      "loss_iou": 0.60546875,
      "loss_num": 0.014404296875,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 200892912,
      "step": 1590
    },
    {
      "epoch": 0.4081318540370679,
      "grad_norm": 69.77813720703125,
      "learning_rate": 5e-06,
      "loss": 1.0308,
      "num_input_tokens_seen": 201019296,
      "step": 1591
    },
    {
      "epoch": 0.4081318540370679,
      "loss": 0.9903916716575623,
      "loss_ce": 0.0006455503171309829,
      "loss_iou": 0.4609375,
      "loss_num": 0.0135498046875,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 201019296,
      "step": 1591
    },
    {
      "epoch": 0.4083883794010133,
      "grad_norm": 53.29359817504883,
      "learning_rate": 5e-06,
      "loss": 1.1744,
      "num_input_tokens_seen": 201146004,
      "step": 1592
    },
    {
      "epoch": 0.4083883794010133,
      "loss": 1.1521239280700684,
      "loss_ce": 0.0007567479624412954,
      "loss_iou": 0.54296875,
      "loss_num": 0.01300048828125,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 201146004,
      "step": 1592
    },
    {
      "epoch": 0.4086449047649586,
      "grad_norm": 32.17792510986328,
      "learning_rate": 5e-06,
      "loss": 1.1535,
      "num_input_tokens_seen": 201271968,
      "step": 1593
    },
    {
      "epoch": 0.4086449047649586,
      "loss": 1.0849266052246094,
      "loss_ce": 0.00094219931634143,
      "loss_iou": 0.50390625,
      "loss_num": 0.0150146484375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 201271968,
      "step": 1593
    },
    {
      "epoch": 0.408901430128904,
      "grad_norm": 50.247650146484375,
      "learning_rate": 5e-06,
      "loss": 1.0772,
      "num_input_tokens_seen": 201397284,
      "step": 1594
    },
    {
      "epoch": 0.408901430128904,
      "loss": 1.0865612030029297,
      "loss_ce": 0.0016002136981114745,
      "loss_iou": 0.50390625,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 201397284,
      "step": 1594
    },
    {
      "epoch": 0.40915795549284933,
      "grad_norm": 49.74248123168945,
      "learning_rate": 5e-06,
      "loss": 1.1077,
      "num_input_tokens_seen": 201523388,
      "step": 1595
    },
    {
      "epoch": 0.40915795549284933,
      "loss": 0.9415378570556641,
      "loss_ce": 0.0011081373086199164,
      "loss_iou": 0.443359375,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 201523388,
      "step": 1595
    },
    {
      "epoch": 0.4094144808567947,
      "grad_norm": 55.61701202392578,
      "learning_rate": 5e-06,
      "loss": 0.9612,
      "num_input_tokens_seen": 201649944,
      "step": 1596
    },
    {
      "epoch": 0.4094144808567947,
      "loss": 0.9368847012519836,
      "loss_ce": 0.0018261116929352283,
      "loss_iou": 0.423828125,
      "loss_num": 0.017333984375,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 201649944,
      "step": 1596
    },
    {
      "epoch": 0.4096710062207401,
      "grad_norm": 54.47943878173828,
      "learning_rate": 5e-06,
      "loss": 1.2131,
      "num_input_tokens_seen": 201776168,
      "step": 1597
    },
    {
      "epoch": 0.4096710062207401,
      "loss": 1.2258821725845337,
      "loss_ce": 0.001761116785928607,
      "loss_iou": 0.56640625,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 201776168,
      "step": 1597
    },
    {
      "epoch": 0.4099275315846854,
      "grad_norm": 56.75238800048828,
      "learning_rate": 5e-06,
      "loss": 1.0234,
      "num_input_tokens_seen": 201901948,
      "step": 1598
    },
    {
      "epoch": 0.4099275315846854,
      "loss": 0.9030282497406006,
      "loss_ce": 0.0006845340831205249,
      "loss_iou": 0.419921875,
      "loss_num": 0.0123291015625,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 201901948,
      "step": 1598
    },
    {
      "epoch": 0.4101840569486308,
      "grad_norm": 53.9236946105957,
      "learning_rate": 5e-06,
      "loss": 1.1868,
      "num_input_tokens_seen": 202028004,
      "step": 1599
    },
    {
      "epoch": 0.4101840569486308,
      "loss": 1.1269316673278809,
      "loss_ce": 0.0019317497499287128,
      "loss_iou": 0.51953125,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 202028004,
      "step": 1599
    },
    {
      "epoch": 0.41044058231257613,
      "grad_norm": 69.86937713623047,
      "learning_rate": 5e-06,
      "loss": 1.1545,
      "num_input_tokens_seen": 202153988,
      "step": 1600
    },
    {
      "epoch": 0.41044058231257613,
      "loss": 1.1669769287109375,
      "loss_ce": 0.0004729431529995054,
      "loss_iou": 0.54296875,
      "loss_num": 0.01519775390625,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 202153988,
      "step": 1600
    },
    {
      "epoch": 0.4106971076765215,
      "grad_norm": 53.41269302368164,
      "learning_rate": 5e-06,
      "loss": 1.1701,
      "num_input_tokens_seen": 202281020,
      "step": 1601
    },
    {
      "epoch": 0.4106971076765215,
      "loss": 1.2026866674423218,
      "loss_ce": 0.005421060137450695,
      "loss_iou": 0.5546875,
      "loss_num": 0.017333984375,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 202281020,
      "step": 1601
    },
    {
      "epoch": 0.4109536330404669,
      "grad_norm": 41.376346588134766,
      "learning_rate": 5e-06,
      "loss": 1.015,
      "num_input_tokens_seen": 202408136,
      "step": 1602
    },
    {
      "epoch": 0.4109536330404669,
      "loss": 0.8737397193908691,
      "loss_ce": 0.0011811305303126574,
      "loss_iou": 0.416015625,
      "loss_num": 0.0078125,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 202408136,
      "step": 1602
    },
    {
      "epoch": 0.4112101584044122,
      "grad_norm": 38.93073272705078,
      "learning_rate": 5e-06,
      "loss": 0.9689,
      "num_input_tokens_seen": 202534148,
      "step": 1603
    },
    {
      "epoch": 0.4112101584044122,
      "loss": 0.7529886960983276,
      "loss_ce": 0.0005472886259667575,
      "loss_iou": 0.361328125,
      "loss_num": 0.006256103515625,
      "loss_xval": 0.75390625,
      "num_input_tokens_seen": 202534148,
      "step": 1603
    },
    {
      "epoch": 0.4114666837683576,
      "grad_norm": 75.21710205078125,
      "learning_rate": 5e-06,
      "loss": 0.98,
      "num_input_tokens_seen": 202659680,
      "step": 1604
    },
    {
      "epoch": 0.4114666837683576,
      "loss": 0.9929934740066528,
      "loss_ce": 0.0008059820393100381,
      "loss_iou": 0.458984375,
      "loss_num": 0.01507568359375,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 202659680,
      "step": 1604
    },
    {
      "epoch": 0.411723209132303,
      "grad_norm": 53.58226776123047,
      "learning_rate": 5e-06,
      "loss": 1.1772,
      "num_input_tokens_seen": 202785648,
      "step": 1605
    },
    {
      "epoch": 0.411723209132303,
      "loss": 1.0735442638397217,
      "loss_ce": 0.0007904045050963759,
      "loss_iou": 0.5078125,
      "loss_num": 0.01220703125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 202785648,
      "step": 1605
    },
    {
      "epoch": 0.4119797344962483,
      "grad_norm": 31.25186538696289,
      "learning_rate": 5e-06,
      "loss": 1.0329,
      "num_input_tokens_seen": 202912300,
      "step": 1606
    },
    {
      "epoch": 0.4119797344962483,
      "loss": 0.8776917457580566,
      "loss_ce": 0.0007385924109257758,
      "loss_iou": 0.419921875,
      "loss_num": 0.00726318359375,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 202912300,
      "step": 1606
    },
    {
      "epoch": 0.4122362598601937,
      "grad_norm": 45.73114776611328,
      "learning_rate": 5e-06,
      "loss": 1.0816,
      "num_input_tokens_seen": 203038364,
      "step": 1607
    },
    {
      "epoch": 0.4122362598601937,
      "loss": 1.0132834911346436,
      "loss_ce": 0.00034398509887978435,
      "loss_iou": 0.458984375,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 203038364,
      "step": 1607
    },
    {
      "epoch": 0.412492785224139,
      "grad_norm": 59.52323532104492,
      "learning_rate": 5e-06,
      "loss": 0.9806,
      "num_input_tokens_seen": 203166004,
      "step": 1608
    },
    {
      "epoch": 0.412492785224139,
      "loss": 1.1055126190185547,
      "loss_ce": 0.0015087572392076254,
      "loss_iou": 0.51953125,
      "loss_num": 0.01336669921875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 203166004,
      "step": 1608
    },
    {
      "epoch": 0.4127493105880844,
      "grad_norm": 65.99946594238281,
      "learning_rate": 5e-06,
      "loss": 1.1221,
      "num_input_tokens_seen": 203292576,
      "step": 1609
    },
    {
      "epoch": 0.4127493105880844,
      "loss": 1.1487829685211182,
      "loss_ce": 0.002298548351973295,
      "loss_iou": 0.5234375,
      "loss_num": 0.019775390625,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 203292576,
      "step": 1609
    },
    {
      "epoch": 0.4130058359520298,
      "grad_norm": 70.04087829589844,
      "learning_rate": 5e-06,
      "loss": 1.1481,
      "num_input_tokens_seen": 203419412,
      "step": 1610
    },
    {
      "epoch": 0.4130058359520298,
      "loss": 1.013358473777771,
      "loss_ce": 0.0006632603472098708,
      "loss_iou": 0.46875,
      "loss_num": 0.01531982421875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 203419412,
      "step": 1610
    },
    {
      "epoch": 0.4132623613159751,
      "grad_norm": 56.5489616394043,
      "learning_rate": 5e-06,
      "loss": 1.0291,
      "num_input_tokens_seen": 203545660,
      "step": 1611
    },
    {
      "epoch": 0.4132623613159751,
      "loss": 1.0631475448608398,
      "loss_ce": 0.003088895697146654,
      "loss_iou": 0.5,
      "loss_num": 0.0120849609375,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 203545660,
      "step": 1611
    },
    {
      "epoch": 0.4135188866799205,
      "grad_norm": 52.033451080322266,
      "learning_rate": 5e-06,
      "loss": 1.0914,
      "num_input_tokens_seen": 203672084,
      "step": 1612
    },
    {
      "epoch": 0.4135188866799205,
      "loss": 1.0592870712280273,
      "loss_ce": 0.0006933377590030432,
      "loss_iou": 0.494140625,
      "loss_num": 0.0140380859375,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 203672084,
      "step": 1612
    },
    {
      "epoch": 0.41377541204386586,
      "grad_norm": 71.56627655029297,
      "learning_rate": 5e-06,
      "loss": 1.1175,
      "num_input_tokens_seen": 203799028,
      "step": 1613
    },
    {
      "epoch": 0.41377541204386586,
      "loss": 0.9986370205879211,
      "loss_ce": 0.00010188800661126152,
      "loss_iou": 0.466796875,
      "loss_num": 0.012939453125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 203799028,
      "step": 1613
    },
    {
      "epoch": 0.4140319374078112,
      "grad_norm": 55.18699264526367,
      "learning_rate": 5e-06,
      "loss": 1.2273,
      "num_input_tokens_seen": 203925644,
      "step": 1614
    },
    {
      "epoch": 0.4140319374078112,
      "loss": 1.0516520738601685,
      "loss_ce": 0.0003825381863862276,
      "loss_iou": 0.49609375,
      "loss_num": 0.0120849609375,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 203925644,
      "step": 1614
    },
    {
      "epoch": 0.41428846277175657,
      "grad_norm": 42.202938079833984,
      "learning_rate": 5e-06,
      "loss": 1.1336,
      "num_input_tokens_seen": 204052460,
      "step": 1615
    },
    {
      "epoch": 0.41428846277175657,
      "loss": 1.2043044567108154,
      "loss_ce": 0.002156055998057127,
      "loss_iou": 0.546875,
      "loss_num": 0.022216796875,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 204052460,
      "step": 1615
    },
    {
      "epoch": 0.4145449881357019,
      "grad_norm": 57.70219421386719,
      "learning_rate": 5e-06,
      "loss": 1.1603,
      "num_input_tokens_seen": 204179520,
      "step": 1616
    },
    {
      "epoch": 0.4145449881357019,
      "loss": 1.248015284538269,
      "loss_ce": 0.0009449715726077557,
      "loss_iou": 0.5703125,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 204179520,
      "step": 1616
    },
    {
      "epoch": 0.4148015134996473,
      "grad_norm": 77.36762237548828,
      "learning_rate": 5e-06,
      "loss": 1.1801,
      "num_input_tokens_seen": 204306420,
      "step": 1617
    },
    {
      "epoch": 0.4148015134996473,
      "loss": 1.20962393283844,
      "loss_ce": 0.0006395644741132855,
      "loss_iou": 0.5625,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 204306420,
      "step": 1617
    },
    {
      "epoch": 0.41505803886359266,
      "grad_norm": 56.69791793823242,
      "learning_rate": 5e-06,
      "loss": 1.031,
      "num_input_tokens_seen": 204431660,
      "step": 1618
    },
    {
      "epoch": 0.41505803886359266,
      "loss": 1.0564846992492676,
      "loss_ce": 0.0003323976998217404,
      "loss_iou": 0.50390625,
      "loss_num": 0.010009765625,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 204431660,
      "step": 1618
    },
    {
      "epoch": 0.415314564227538,
      "grad_norm": 39.941017150878906,
      "learning_rate": 5e-06,
      "loss": 0.9796,
      "num_input_tokens_seen": 204557480,
      "step": 1619
    },
    {
      "epoch": 0.415314564227538,
      "loss": 1.0838923454284668,
      "loss_ce": 0.0008845559787005186,
      "loss_iou": 0.51171875,
      "loss_num": 0.01214599609375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 204557480,
      "step": 1619
    },
    {
      "epoch": 0.41557108959148337,
      "grad_norm": 47.552310943603516,
      "learning_rate": 5e-06,
      "loss": 1.122,
      "num_input_tokens_seen": 204683312,
      "step": 1620
    },
    {
      "epoch": 0.41557108959148337,
      "loss": 1.0735079050064087,
      "loss_ce": 0.0012423183070495725,
      "loss_iou": 0.5,
      "loss_num": 0.0145263671875,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 204683312,
      "step": 1620
    },
    {
      "epoch": 0.4158276149554287,
      "grad_norm": 89.33126831054688,
      "learning_rate": 5e-06,
      "loss": 1.0803,
      "num_input_tokens_seen": 204810332,
      "step": 1621
    },
    {
      "epoch": 0.4158276149554287,
      "loss": 1.2124977111816406,
      "loss_ce": 0.002048431197181344,
      "loss_iou": 0.5546875,
      "loss_num": 0.02099609375,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 204810332,
      "step": 1621
    },
    {
      "epoch": 0.4160841403193741,
      "grad_norm": 49.66191864013672,
      "learning_rate": 5e-06,
      "loss": 1.3202,
      "num_input_tokens_seen": 204936580,
      "step": 1622
    },
    {
      "epoch": 0.4160841403193741,
      "loss": 1.361793875694275,
      "loss_ce": 0.001442310749553144,
      "loss_iou": 0.62890625,
      "loss_num": 0.0205078125,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 204936580,
      "step": 1622
    },
    {
      "epoch": 0.41634066568331946,
      "grad_norm": 46.02541732788086,
      "learning_rate": 5e-06,
      "loss": 1.1219,
      "num_input_tokens_seen": 205062980,
      "step": 1623
    },
    {
      "epoch": 0.41634066568331946,
      "loss": 1.0990922451019287,
      "loss_ce": 0.0004594980855472386,
      "loss_iou": 0.51171875,
      "loss_num": 0.0146484375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 205062980,
      "step": 1623
    },
    {
      "epoch": 0.4165971910472648,
      "grad_norm": 52.34889602661133,
      "learning_rate": 5e-06,
      "loss": 1.2072,
      "num_input_tokens_seen": 205188652,
      "step": 1624
    },
    {
      "epoch": 0.4165971910472648,
      "loss": 1.1092159748077393,
      "loss_ce": 0.004235539119690657,
      "loss_iou": 0.5078125,
      "loss_num": 0.018310546875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 205188652,
      "step": 1624
    },
    {
      "epoch": 0.41685371641121016,
      "grad_norm": 60.65018081665039,
      "learning_rate": 5e-06,
      "loss": 1.1441,
      "num_input_tokens_seen": 205315476,
      "step": 1625
    },
    {
      "epoch": 0.41685371641121016,
      "loss": 1.2122611999511719,
      "loss_ce": 0.0003471853560768068,
      "loss_iou": 0.57421875,
      "loss_num": 0.0123291015625,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 205315476,
      "step": 1625
    },
    {
      "epoch": 0.41711024177515554,
      "grad_norm": 100.54743957519531,
      "learning_rate": 5e-06,
      "loss": 1.1206,
      "num_input_tokens_seen": 205442692,
      "step": 1626
    },
    {
      "epoch": 0.41711024177515554,
      "loss": 1.1039631366729736,
      "loss_ce": 0.0038655202370136976,
      "loss_iou": 0.5078125,
      "loss_num": 0.016845703125,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 205442692,
      "step": 1626
    },
    {
      "epoch": 0.41736676713910087,
      "grad_norm": 48.566585540771484,
      "learning_rate": 5e-06,
      "loss": 1.2676,
      "num_input_tokens_seen": 205569612,
      "step": 1627
    },
    {
      "epoch": 0.41736676713910087,
      "loss": 1.0438179969787598,
      "loss_ce": 0.0003609832201618701,
      "loss_iou": 0.48046875,
      "loss_num": 0.0167236328125,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 205569612,
      "step": 1627
    },
    {
      "epoch": 0.41762329250304625,
      "grad_norm": 40.65486526489258,
      "learning_rate": 5e-06,
      "loss": 1.1021,
      "num_input_tokens_seen": 205695848,
      "step": 1628
    },
    {
      "epoch": 0.41762329250304625,
      "loss": 0.9678932428359985,
      "loss_ce": 0.0015846036840230227,
      "loss_iou": 0.451171875,
      "loss_num": 0.012939453125,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 205695848,
      "step": 1628
    },
    {
      "epoch": 0.4178798178669916,
      "grad_norm": 33.806114196777344,
      "learning_rate": 5e-06,
      "loss": 1.1296,
      "num_input_tokens_seen": 205821864,
      "step": 1629
    },
    {
      "epoch": 0.4178798178669916,
      "loss": 1.001373291015625,
      "loss_ce": 0.00381465838290751,
      "loss_iou": 0.46484375,
      "loss_num": 0.01348876953125,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 205821864,
      "step": 1629
    },
    {
      "epoch": 0.41813634323093696,
      "grad_norm": 44.681095123291016,
      "learning_rate": 5e-06,
      "loss": 1.1251,
      "num_input_tokens_seen": 205948028,
      "step": 1630
    },
    {
      "epoch": 0.41813634323093696,
      "loss": 1.3766072988510132,
      "loss_ce": 0.006490145344287157,
      "loss_iou": 0.625,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 205948028,
      "step": 1630
    },
    {
      "epoch": 0.41839286859488234,
      "grad_norm": 64.68565368652344,
      "learning_rate": 5e-06,
      "loss": 1.1959,
      "num_input_tokens_seen": 206074620,
      "step": 1631
    },
    {
      "epoch": 0.41839286859488234,
      "loss": 1.1151930093765259,
      "loss_ce": 0.0019117454066872597,
      "loss_iou": 0.51171875,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 206074620,
      "step": 1631
    },
    {
      "epoch": 0.41864939395882766,
      "grad_norm": 74.66930389404297,
      "learning_rate": 5e-06,
      "loss": 1.0981,
      "num_input_tokens_seen": 206201020,
      "step": 1632
    },
    {
      "epoch": 0.41864939395882766,
      "loss": 1.0806163549423218,
      "loss_ce": 0.0010265437886118889,
      "loss_iou": 0.51171875,
      "loss_num": 0.0108642578125,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 206201020,
      "step": 1632
    },
    {
      "epoch": 0.41890591932277305,
      "grad_norm": 44.213932037353516,
      "learning_rate": 5e-06,
      "loss": 1.0272,
      "num_input_tokens_seen": 206327884,
      "step": 1633
    },
    {
      "epoch": 0.41890591932277305,
      "loss": 1.1376762390136719,
      "loss_ce": 0.0009575064177624881,
      "loss_iou": 0.51953125,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 206327884,
      "step": 1633
    },
    {
      "epoch": 0.41916244468671837,
      "grad_norm": 49.7847900390625,
      "learning_rate": 5e-06,
      "loss": 1.1589,
      "num_input_tokens_seen": 206453908,
      "step": 1634
    },
    {
      "epoch": 0.41916244468671837,
      "loss": 1.195236086845398,
      "loss_ce": 0.002853353973478079,
      "loss_iou": 0.54296875,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 206453908,
      "step": 1634
    },
    {
      "epoch": 0.41941897005066375,
      "grad_norm": 48.77326583862305,
      "learning_rate": 5e-06,
      "loss": 1.0922,
      "num_input_tokens_seen": 206579560,
      "step": 1635
    },
    {
      "epoch": 0.41941897005066375,
      "loss": 1.1942617893218994,
      "loss_ce": 0.001879069022834301,
      "loss_iou": 0.56640625,
      "loss_num": 0.0123291015625,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 206579560,
      "step": 1635
    },
    {
      "epoch": 0.41967549541460913,
      "grad_norm": 59.41028594970703,
      "learning_rate": 5e-06,
      "loss": 0.9281,
      "num_input_tokens_seen": 206705940,
      "step": 1636
    },
    {
      "epoch": 0.41967549541460913,
      "loss": 0.9515740871429443,
      "loss_ce": 0.0004021739587187767,
      "loss_iou": 0.455078125,
      "loss_num": 0.0084228515625,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 206705940,
      "step": 1636
    },
    {
      "epoch": 0.41993202077855446,
      "grad_norm": 74.77178192138672,
      "learning_rate": 5e-06,
      "loss": 1.1077,
      "num_input_tokens_seen": 206832216,
      "step": 1637
    },
    {
      "epoch": 0.41993202077855446,
      "loss": 1.1981807947158813,
      "loss_ce": 0.0009152039419859648,
      "loss_iou": 0.55078125,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 206832216,
      "step": 1637
    },
    {
      "epoch": 0.42018854614249984,
      "grad_norm": 58.300376892089844,
      "learning_rate": 5e-06,
      "loss": 1.1902,
      "num_input_tokens_seen": 206959228,
      "step": 1638
    },
    {
      "epoch": 0.42018854614249984,
      "loss": 1.238316535949707,
      "loss_ce": 0.001011868822388351,
      "loss_iou": 0.56640625,
      "loss_num": 0.02001953125,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 206959228,
      "step": 1638
    },
    {
      "epoch": 0.4204450715064452,
      "grad_norm": 68.75013732910156,
      "learning_rate": 5e-06,
      "loss": 0.9584,
      "num_input_tokens_seen": 207085820,
      "step": 1639
    },
    {
      "epoch": 0.4204450715064452,
      "loss": 0.9124757051467896,
      "loss_ce": 0.00036630802787840366,
      "loss_iou": 0.427734375,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 207085820,
      "step": 1639
    },
    {
      "epoch": 0.42070159687039055,
      "grad_norm": 51.79212188720703,
      "learning_rate": 5e-06,
      "loss": 1.2161,
      "num_input_tokens_seen": 207211836,
      "step": 1640
    },
    {
      "epoch": 0.42070159687039055,
      "loss": 1.104777455329895,
      "loss_ce": 0.0007735765539109707,
      "loss_iou": 0.5234375,
      "loss_num": 0.01080322265625,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 207211836,
      "step": 1640
    },
    {
      "epoch": 0.42095812223433593,
      "grad_norm": 33.48579406738281,
      "learning_rate": 5e-06,
      "loss": 1.0281,
      "num_input_tokens_seen": 207339856,
      "step": 1641
    },
    {
      "epoch": 0.42095812223433593,
      "loss": 0.9371021389961243,
      "loss_ce": 0.0020435622427612543,
      "loss_iou": 0.4296875,
      "loss_num": 0.01495361328125,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 207339856,
      "step": 1641
    },
    {
      "epoch": 0.42121464759828126,
      "grad_norm": 52.31923294067383,
      "learning_rate": 5e-06,
      "loss": 1.1891,
      "num_input_tokens_seen": 207467044,
      "step": 1642
    },
    {
      "epoch": 0.42121464759828126,
      "loss": 1.095590353012085,
      "loss_ce": 0.0018403513822704554,
      "loss_iou": 0.515625,
      "loss_num": 0.012451171875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 207467044,
      "step": 1642
    },
    {
      "epoch": 0.42147117296222664,
      "grad_norm": 104.14488983154297,
      "learning_rate": 5e-06,
      "loss": 1.0728,
      "num_input_tokens_seen": 207593952,
      "step": 1643
    },
    {
      "epoch": 0.42147117296222664,
      "loss": 1.0262861251831055,
      "loss_ce": 0.003825117601081729,
      "loss_iou": 0.47265625,
      "loss_num": 0.015625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 207593952,
      "step": 1643
    },
    {
      "epoch": 0.421727698326172,
      "grad_norm": 56.339027404785156,
      "learning_rate": 5e-06,
      "loss": 1.1859,
      "num_input_tokens_seen": 207719980,
      "step": 1644
    },
    {
      "epoch": 0.421727698326172,
      "loss": 1.3872721195220947,
      "loss_ce": 0.0010417889570817351,
      "loss_iou": 0.62890625,
      "loss_num": 0.026123046875,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 207719980,
      "step": 1644
    },
    {
      "epoch": 0.42198422369011734,
      "grad_norm": 39.85120391845703,
      "learning_rate": 5e-06,
      "loss": 1.1114,
      "num_input_tokens_seen": 207847076,
      "step": 1645
    },
    {
      "epoch": 0.42198422369011734,
      "loss": 1.0069575309753418,
      "loss_ce": 0.001098224543966353,
      "loss_iou": 0.46484375,
      "loss_num": 0.0152587890625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 207847076,
      "step": 1645
    },
    {
      "epoch": 0.4222407490540627,
      "grad_norm": 75.31285858154297,
      "learning_rate": 5e-06,
      "loss": 1.0876,
      "num_input_tokens_seen": 207972640,
      "step": 1646
    },
    {
      "epoch": 0.4222407490540627,
      "loss": 1.1401056051254272,
      "loss_ce": 0.00045717734610661864,
      "loss_iou": 0.53515625,
      "loss_num": 0.014404296875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 207972640,
      "step": 1646
    },
    {
      "epoch": 0.4224972744180081,
      "grad_norm": 49.89292526245117,
      "learning_rate": 5e-06,
      "loss": 0.9842,
      "num_input_tokens_seen": 208098256,
      "step": 1647
    },
    {
      "epoch": 0.4224972744180081,
      "loss": 0.9398205280303955,
      "loss_ce": 0.003297131508588791,
      "loss_iou": 0.44140625,
      "loss_num": 0.010498046875,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 208098256,
      "step": 1647
    },
    {
      "epoch": 0.42275379978195343,
      "grad_norm": 38.94388961791992,
      "learning_rate": 5e-06,
      "loss": 1.0707,
      "num_input_tokens_seen": 208223560,
      "step": 1648
    },
    {
      "epoch": 0.42275379978195343,
      "loss": 1.025101900100708,
      "loss_ce": 0.0006878477288410068,
      "loss_iou": 0.486328125,
      "loss_num": 0.01068115234375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 208223560,
      "step": 1648
    },
    {
      "epoch": 0.4230103251458988,
      "grad_norm": 45.26676559448242,
      "learning_rate": 5e-06,
      "loss": 1.1189,
      "num_input_tokens_seen": 208350088,
      "step": 1649
    },
    {
      "epoch": 0.4230103251458988,
      "loss": 1.1897099018096924,
      "loss_ce": 0.00025679345708340406,
      "loss_iou": 0.55078125,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 208350088,
      "step": 1649
    },
    {
      "epoch": 0.42326685050984414,
      "grad_norm": 83.2241439819336,
      "learning_rate": 5e-06,
      "loss": 1.18,
      "num_input_tokens_seen": 208476332,
      "step": 1650
    },
    {
      "epoch": 0.42326685050984414,
      "loss": 1.1875088214874268,
      "loss_ce": 0.0009853194933384657,
      "loss_iou": 0.55078125,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 208476332,
      "step": 1650
    },
    {
      "epoch": 0.4235233758737895,
      "grad_norm": 50.063880920410156,
      "learning_rate": 5e-06,
      "loss": 1.1067,
      "num_input_tokens_seen": 208601848,
      "step": 1651
    },
    {
      "epoch": 0.4235233758737895,
      "loss": 1.1624304056167603,
      "loss_ce": 0.0012975574936717749,
      "loss_iou": 0.53125,
      "loss_num": 0.02001953125,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 208601848,
      "step": 1651
    },
    {
      "epoch": 0.4237799012377349,
      "grad_norm": 42.35184860229492,
      "learning_rate": 5e-06,
      "loss": 1.102,
      "num_input_tokens_seen": 208728204,
      "step": 1652
    },
    {
      "epoch": 0.4237799012377349,
      "loss": 1.1195818185806274,
      "loss_ce": 0.0009294777410104871,
      "loss_iou": 0.5234375,
      "loss_num": 0.0147705078125,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 208728204,
      "step": 1652
    },
    {
      "epoch": 0.4240364266016802,
      "grad_norm": 53.56521224975586,
      "learning_rate": 5e-06,
      "loss": 0.9967,
      "num_input_tokens_seen": 208854624,
      "step": 1653
    },
    {
      "epoch": 0.4240364266016802,
      "loss": 1.0427217483520508,
      "loss_ce": 0.0017061267280951142,
      "loss_iou": 0.490234375,
      "loss_num": 0.0120849609375,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 208854624,
      "step": 1653
    },
    {
      "epoch": 0.4242929519656256,
      "grad_norm": 69.64403533935547,
      "learning_rate": 5e-06,
      "loss": 1.0525,
      "num_input_tokens_seen": 208979824,
      "step": 1654
    },
    {
      "epoch": 0.4242929519656256,
      "loss": 0.9538745284080505,
      "loss_ce": 0.0002612921816762537,
      "loss_iou": 0.451171875,
      "loss_num": 0.010498046875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 208979824,
      "step": 1654
    },
    {
      "epoch": 0.42454947732957093,
      "grad_norm": 47.09593200683594,
      "learning_rate": 5e-06,
      "loss": 1.0658,
      "num_input_tokens_seen": 209107408,
      "step": 1655
    },
    {
      "epoch": 0.42454947732957093,
      "loss": 1.039341688156128,
      "loss_ce": 0.00027919039712287486,
      "loss_iou": 0.46484375,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 209107408,
      "step": 1655
    },
    {
      "epoch": 0.4248060026935163,
      "grad_norm": 55.104034423828125,
      "learning_rate": 5e-06,
      "loss": 1.1006,
      "num_input_tokens_seen": 209233980,
      "step": 1656
    },
    {
      "epoch": 0.4248060026935163,
      "loss": 0.9260310530662537,
      "loss_ce": 0.0002498391841072589,
      "loss_iou": 0.439453125,
      "loss_num": 0.00946044921875,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 209233980,
      "step": 1656
    },
    {
      "epoch": 0.4250625280574617,
      "grad_norm": 61.89091110229492,
      "learning_rate": 5e-06,
      "loss": 1.1101,
      "num_input_tokens_seen": 209360496,
      "step": 1657
    },
    {
      "epoch": 0.4250625280574617,
      "loss": 0.9135799407958984,
      "loss_ce": 0.0009822794236242771,
      "loss_iou": 0.44140625,
      "loss_num": 0.005828857421875,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 209360496,
      "step": 1657
    },
    {
      "epoch": 0.425319053421407,
      "grad_norm": 75.11056518554688,
      "learning_rate": 5e-06,
      "loss": 1.1138,
      "num_input_tokens_seen": 209486104,
      "step": 1658
    },
    {
      "epoch": 0.425319053421407,
      "loss": 1.1328139305114746,
      "loss_ce": 0.001466244924813509,
      "loss_iou": 0.515625,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 209486104,
      "step": 1658
    },
    {
      "epoch": 0.4255755787853524,
      "grad_norm": 50.10881805419922,
      "learning_rate": 5e-06,
      "loss": 1.124,
      "num_input_tokens_seen": 209612336,
      "step": 1659
    },
    {
      "epoch": 0.4255755787853524,
      "loss": 1.0528364181518555,
      "loss_ce": 0.000590332958381623,
      "loss_iou": 0.49609375,
      "loss_num": 0.0125732421875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 209612336,
      "step": 1659
    },
    {
      "epoch": 0.4258321041492978,
      "grad_norm": 50.55360794067383,
      "learning_rate": 5e-06,
      "loss": 1.0657,
      "num_input_tokens_seen": 209738396,
      "step": 1660
    },
    {
      "epoch": 0.4258321041492978,
      "loss": 1.0428487062454224,
      "loss_ce": 0.0013447541277855635,
      "loss_iou": 0.478515625,
      "loss_num": 0.016845703125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 209738396,
      "step": 1660
    },
    {
      "epoch": 0.4260886295132431,
      "grad_norm": 49.765769958496094,
      "learning_rate": 5e-06,
      "loss": 1.2556,
      "num_input_tokens_seen": 209865172,
      "step": 1661
    },
    {
      "epoch": 0.4260886295132431,
      "loss": 1.2541368007659912,
      "loss_ce": 0.002183671109378338,
      "loss_iou": 0.578125,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 209865172,
      "step": 1661
    },
    {
      "epoch": 0.4263451548771885,
      "grad_norm": 39.32392883300781,
      "learning_rate": 5e-06,
      "loss": 1.025,
      "num_input_tokens_seen": 209990984,
      "step": 1662
    },
    {
      "epoch": 0.4263451548771885,
      "loss": 1.0351297855377197,
      "loss_ce": 0.0009500670130364597,
      "loss_iou": 0.46875,
      "loss_num": 0.01904296875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 209990984,
      "step": 1662
    },
    {
      "epoch": 0.4266016802411338,
      "grad_norm": 46.45328903198242,
      "learning_rate": 5e-06,
      "loss": 1.0134,
      "num_input_tokens_seen": 210116624,
      "step": 1663
    },
    {
      "epoch": 0.4266016802411338,
      "loss": 1.2170459032058716,
      "loss_ce": 0.0022021338809281588,
      "loss_iou": 0.54296875,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 210116624,
      "step": 1663
    },
    {
      "epoch": 0.4268582056050792,
      "grad_norm": 74.96824645996094,
      "learning_rate": 5e-06,
      "loss": 1.0088,
      "num_input_tokens_seen": 210242424,
      "step": 1664
    },
    {
      "epoch": 0.4268582056050792,
      "loss": 1.0115416049957275,
      "loss_ce": 0.0012877867557108402,
      "loss_iou": 0.466796875,
      "loss_num": 0.01483154296875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 210242424,
      "step": 1664
    },
    {
      "epoch": 0.4271147309690246,
      "grad_norm": 59.330047607421875,
      "learning_rate": 5e-06,
      "loss": 1.2514,
      "num_input_tokens_seen": 210369156,
      "step": 1665
    },
    {
      "epoch": 0.4271147309690246,
      "loss": 1.4214725494384766,
      "loss_ce": 0.001062413677573204,
      "loss_iou": 0.6484375,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 210369156,
      "step": 1665
    },
    {
      "epoch": 0.4273712563329699,
      "grad_norm": 21.97696876525879,
      "learning_rate": 5e-06,
      "loss": 1.089,
      "num_input_tokens_seen": 210495756,
      "step": 1666
    },
    {
      "epoch": 0.4273712563329699,
      "loss": 1.3233956098556519,
      "loss_ce": 0.006012811791151762,
      "loss_iou": 0.5859375,
      "loss_num": 0.0296630859375,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 210495756,
      "step": 1666
    },
    {
      "epoch": 0.4276277816969153,
      "grad_norm": 27.928895950317383,
      "learning_rate": 5e-06,
      "loss": 1.0116,
      "num_input_tokens_seen": 210621460,
      "step": 1667
    },
    {
      "epoch": 0.4276277816969153,
      "loss": 0.9810816049575806,
      "loss_ce": 0.0013452961575239897,
      "loss_iou": 0.458984375,
      "loss_num": 0.01263427734375,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 210621460,
      "step": 1667
    },
    {
      "epoch": 0.42788430706086067,
      "grad_norm": 30.50233268737793,
      "learning_rate": 5e-06,
      "loss": 1.0934,
      "num_input_tokens_seen": 210747352,
      "step": 1668
    },
    {
      "epoch": 0.42788430706086067,
      "loss": 1.1623146533966064,
      "loss_ce": 0.00020530365873128176,
      "loss_iou": 0.54296875,
      "loss_num": 0.01507568359375,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 210747352,
      "step": 1668
    },
    {
      "epoch": 0.428140832424806,
      "grad_norm": 37.15053939819336,
      "learning_rate": 5e-06,
      "loss": 1.0555,
      "num_input_tokens_seen": 210873128,
      "step": 1669
    },
    {
      "epoch": 0.428140832424806,
      "loss": 0.949683666229248,
      "loss_ce": 0.0004648909962270409,
      "loss_iou": 0.443359375,
      "loss_num": 0.0125732421875,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 210873128,
      "step": 1669
    },
    {
      "epoch": 0.4283973577887514,
      "grad_norm": 43.04761505126953,
      "learning_rate": 5e-06,
      "loss": 1.1937,
      "num_input_tokens_seen": 210998712,
      "step": 1670
    },
    {
      "epoch": 0.4283973577887514,
      "loss": 1.0563784837722778,
      "loss_ce": 0.0007144762203097343,
      "loss_iou": 0.494140625,
      "loss_num": 0.0135498046875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 210998712,
      "step": 1670
    },
    {
      "epoch": 0.4286538831526967,
      "grad_norm": 59.648155212402344,
      "learning_rate": 5e-06,
      "loss": 1.0378,
      "num_input_tokens_seen": 211125456,
      "step": 1671
    },
    {
      "epoch": 0.4286538831526967,
      "loss": 1.248727560043335,
      "loss_ce": 0.0021456300746649504,
      "loss_iou": 0.5625,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 211125456,
      "step": 1671
    },
    {
      "epoch": 0.4289104085166421,
      "grad_norm": 56.436737060546875,
      "learning_rate": 5e-06,
      "loss": 1.1041,
      "num_input_tokens_seen": 211252004,
      "step": 1672
    },
    {
      "epoch": 0.4289104085166421,
      "loss": 1.1503679752349854,
      "loss_ce": 0.0019303737208247185,
      "loss_iou": 0.5234375,
      "loss_num": 0.020263671875,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 211252004,
      "step": 1672
    },
    {
      "epoch": 0.42916693388058746,
      "grad_norm": 71.11824035644531,
      "learning_rate": 5e-06,
      "loss": 1.1049,
      "num_input_tokens_seen": 211378052,
      "step": 1673
    },
    {
      "epoch": 0.42916693388058746,
      "loss": 0.8712977170944214,
      "loss_ce": 0.0021570592653006315,
      "loss_iou": 0.419921875,
      "loss_num": 0.006134033203125,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 211378052,
      "step": 1673
    },
    {
      "epoch": 0.4294234592445328,
      "grad_norm": 52.73110580444336,
      "learning_rate": 5e-06,
      "loss": 1.1802,
      "num_input_tokens_seen": 211503648,
      "step": 1674
    },
    {
      "epoch": 0.4294234592445328,
      "loss": 1.173094630241394,
      "loss_ce": 0.0021962355822324753,
      "loss_iou": 0.5546875,
      "loss_num": 0.0120849609375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 211503648,
      "step": 1674
    },
    {
      "epoch": 0.42967998460847817,
      "grad_norm": 27.168691635131836,
      "learning_rate": 5e-06,
      "loss": 0.978,
      "num_input_tokens_seen": 211630584,
      "step": 1675
    },
    {
      "epoch": 0.42967998460847817,
      "loss": 0.7920674681663513,
      "loss_ce": 0.0005635780980810523,
      "loss_iou": 0.37890625,
      "loss_num": 0.00665283203125,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 211630584,
      "step": 1675
    },
    {
      "epoch": 0.4299365099724235,
      "grad_norm": 35.89946365356445,
      "learning_rate": 5e-06,
      "loss": 1.0427,
      "num_input_tokens_seen": 211755400,
      "step": 1676
    },
    {
      "epoch": 0.4299365099724235,
      "loss": 0.9957920908927917,
      "loss_ce": 0.00018661384820006788,
      "loss_iou": 0.46875,
      "loss_num": 0.01171875,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 211755400,
      "step": 1676
    },
    {
      "epoch": 0.4301930353363689,
      "grad_norm": 73.55236053466797,
      "learning_rate": 5e-06,
      "loss": 1.0297,
      "num_input_tokens_seen": 211881792,
      "step": 1677
    },
    {
      "epoch": 0.4301930353363689,
      "loss": 0.9825071096420288,
      "loss_ce": 0.0005735284648835659,
      "loss_iou": 0.45703125,
      "loss_num": 0.01361083984375,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 211881792,
      "step": 1677
    },
    {
      "epoch": 0.43044956070031426,
      "grad_norm": 43.15802764892578,
      "learning_rate": 5e-06,
      "loss": 1.258,
      "num_input_tokens_seen": 212007792,
      "step": 1678
    },
    {
      "epoch": 0.43044956070031426,
      "loss": 1.1792137622833252,
      "loss_ce": 0.003432475496083498,
      "loss_iou": 0.546875,
      "loss_num": 0.0166015625,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 212007792,
      "step": 1678
    },
    {
      "epoch": 0.4307060860642596,
      "grad_norm": 37.76390838623047,
      "learning_rate": 5e-06,
      "loss": 1.0209,
      "num_input_tokens_seen": 212134384,
      "step": 1679
    },
    {
      "epoch": 0.4307060860642596,
      "loss": 0.923201322555542,
      "loss_ce": 0.0005939488764852285,
      "loss_iou": 0.427734375,
      "loss_num": 0.01287841796875,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 212134384,
      "step": 1679
    },
    {
      "epoch": 0.43096261142820497,
      "grad_norm": 59.22579574584961,
      "learning_rate": 5e-06,
      "loss": 1.0173,
      "num_input_tokens_seen": 212260488,
      "step": 1680
    },
    {
      "epoch": 0.43096261142820497,
      "loss": 0.9751040935516357,
      "loss_ce": 0.0009829895570874214,
      "loss_iou": 0.46484375,
      "loss_num": 0.00921630859375,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 212260488,
      "step": 1680
    },
    {
      "epoch": 0.43121913679215035,
      "grad_norm": 76.30946350097656,
      "learning_rate": 5e-06,
      "loss": 1.2586,
      "num_input_tokens_seen": 212386728,
      "step": 1681
    },
    {
      "epoch": 0.43121913679215035,
      "loss": 0.9621812105178833,
      "loss_ce": 0.0005112984217703342,
      "loss_iou": 0.4609375,
      "loss_num": 0.00799560546875,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 212386728,
      "step": 1681
    },
    {
      "epoch": 0.4314756621560957,
      "grad_norm": 59.16542053222656,
      "learning_rate": 5e-06,
      "loss": 1.0156,
      "num_input_tokens_seen": 212511524,
      "step": 1682
    },
    {
      "epoch": 0.4314756621560957,
      "loss": 0.8259526491165161,
      "loss_ce": 0.0002690640976652503,
      "loss_iou": 0.39453125,
      "loss_num": 0.00714111328125,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 212511524,
      "step": 1682
    },
    {
      "epoch": 0.43173218752004106,
      "grad_norm": 54.78873825073242,
      "learning_rate": 5e-06,
      "loss": 0.968,
      "num_input_tokens_seen": 212638756,
      "step": 1683
    },
    {
      "epoch": 0.43173218752004106,
      "loss": 1.0525240898132324,
      "loss_ce": 0.002231112215667963,
      "loss_iou": 0.486328125,
      "loss_num": 0.01531982421875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 212638756,
      "step": 1683
    },
    {
      "epoch": 0.4319887128839864,
      "grad_norm": 43.38678741455078,
      "learning_rate": 5e-06,
      "loss": 1.1246,
      "num_input_tokens_seen": 212765016,
      "step": 1684
    },
    {
      "epoch": 0.4319887128839864,
      "loss": 1.2292381525039673,
      "loss_ce": 0.0007225493900477886,
      "loss_iou": 0.5625,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 212765016,
      "step": 1684
    },
    {
      "epoch": 0.43224523824793176,
      "grad_norm": 60.852508544921875,
      "learning_rate": 5e-06,
      "loss": 1.1452,
      "num_input_tokens_seen": 212891064,
      "step": 1685
    },
    {
      "epoch": 0.43224523824793176,
      "loss": 1.0859408378601074,
      "loss_ce": 0.003909580875188112,
      "loss_iou": 0.50390625,
      "loss_num": 0.0142822265625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 212891064,
      "step": 1685
    },
    {
      "epoch": 0.43250176361187714,
      "grad_norm": 43.29603576660156,
      "learning_rate": 5e-06,
      "loss": 1.2806,
      "num_input_tokens_seen": 213016908,
      "step": 1686
    },
    {
      "epoch": 0.43250176361187714,
      "loss": 1.3492157459259033,
      "loss_ce": 0.0015595202567055821,
      "loss_iou": 0.61328125,
      "loss_num": 0.023681640625,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 213016908,
      "step": 1686
    },
    {
      "epoch": 0.43275828897582247,
      "grad_norm": 39.058982849121094,
      "learning_rate": 5e-06,
      "loss": 0.9249,
      "num_input_tokens_seen": 213142960,
      "step": 1687
    },
    {
      "epoch": 0.43275828897582247,
      "loss": 0.8114954829216003,
      "loss_ce": 0.00046032428508624434,
      "loss_iou": 0.38671875,
      "loss_num": 0.007537841796875,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 213142960,
      "step": 1687
    },
    {
      "epoch": 0.43301481433976785,
      "grad_norm": 37.85932159423828,
      "learning_rate": 5e-06,
      "loss": 1.1708,
      "num_input_tokens_seen": 213268476,
      "step": 1688
    },
    {
      "epoch": 0.43301481433976785,
      "loss": 1.3028829097747803,
      "loss_ce": 0.0035665498580783606,
      "loss_iou": 0.578125,
      "loss_num": 0.027587890625,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 213268476,
      "step": 1688
    },
    {
      "epoch": 0.43327133970371323,
      "grad_norm": 48.668487548828125,
      "learning_rate": 5e-06,
      "loss": 1.0394,
      "num_input_tokens_seen": 213395764,
      "step": 1689
    },
    {
      "epoch": 0.43327133970371323,
      "loss": 1.1256420612335205,
      "loss_ce": 0.0006420727004297078,
      "loss_iou": 0.51171875,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 213395764,
      "step": 1689
    },
    {
      "epoch": 0.43352786506765856,
      "grad_norm": 42.9271240234375,
      "learning_rate": 5e-06,
      "loss": 1.0501,
      "num_input_tokens_seen": 213522828,
      "step": 1690
    },
    {
      "epoch": 0.43352786506765856,
      "loss": 1.0162036418914795,
      "loss_ce": 0.000578532402869314,
      "loss_iou": 0.478515625,
      "loss_num": 0.01190185546875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 213522828,
      "step": 1690
    },
    {
      "epoch": 0.43378439043160394,
      "grad_norm": 64.90715026855469,
      "learning_rate": 5e-06,
      "loss": 1.0359,
      "num_input_tokens_seen": 213650352,
      "step": 1691
    },
    {
      "epoch": 0.43378439043160394,
      "loss": 1.0330381393432617,
      "loss_ce": 0.0012999402824789286,
      "loss_iou": 0.482421875,
      "loss_num": 0.01312255859375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 213650352,
      "step": 1691
    },
    {
      "epoch": 0.43404091579554926,
      "grad_norm": 46.68683624267578,
      "learning_rate": 5e-06,
      "loss": 1.2712,
      "num_input_tokens_seen": 213776636,
      "step": 1692
    },
    {
      "epoch": 0.43404091579554926,
      "loss": 1.0397357940673828,
      "loss_ce": 0.0006732118199579418,
      "loss_iou": 0.49609375,
      "loss_num": 0.0091552734375,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 213776636,
      "step": 1692
    },
    {
      "epoch": 0.43429744115949465,
      "grad_norm": 35.813636779785156,
      "learning_rate": 5e-06,
      "loss": 1.0869,
      "num_input_tokens_seen": 213902904,
      "step": 1693
    },
    {
      "epoch": 0.43429744115949465,
      "loss": 1.4020848274230957,
      "loss_ce": 0.0007176260696724057,
      "loss_iou": 0.640625,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 213902904,
      "step": 1693
    },
    {
      "epoch": 0.43455396652344,
      "grad_norm": 60.409934997558594,
      "learning_rate": 5e-06,
      "loss": 1.0868,
      "num_input_tokens_seen": 214028792,
      "step": 1694
    },
    {
      "epoch": 0.43455396652344,
      "loss": 1.0841947793960571,
      "loss_ce": 0.0041166553273797035,
      "loss_iou": 0.490234375,
      "loss_num": 0.0198974609375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 214028792,
      "step": 1694
    },
    {
      "epoch": 0.43481049188738535,
      "grad_norm": 44.60717010498047,
      "learning_rate": 5e-06,
      "loss": 1.1302,
      "num_input_tokens_seen": 214154564,
      "step": 1695
    },
    {
      "epoch": 0.43481049188738535,
      "loss": 0.9172141551971436,
      "loss_ce": 0.001686788396909833,
      "loss_iou": 0.431640625,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 214154564,
      "step": 1695
    },
    {
      "epoch": 0.43506701725133073,
      "grad_norm": 33.89347457885742,
      "learning_rate": 5e-06,
      "loss": 1.028,
      "num_input_tokens_seen": 214281148,
      "step": 1696
    },
    {
      "epoch": 0.43506701725133073,
      "loss": 0.8942193984985352,
      "loss_ce": 0.0004205804434604943,
      "loss_iou": 0.4140625,
      "loss_num": 0.01312255859375,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 214281148,
      "step": 1696
    },
    {
      "epoch": 0.43532354261527606,
      "grad_norm": 36.94711685180664,
      "learning_rate": 5e-06,
      "loss": 1.0375,
      "num_input_tokens_seen": 214408464,
      "step": 1697
    },
    {
      "epoch": 0.43532354261527606,
      "loss": 1.127626895904541,
      "loss_ce": 0.0011620090808719397,
      "loss_iou": 0.5234375,
      "loss_num": 0.0167236328125,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 214408464,
      "step": 1697
    },
    {
      "epoch": 0.43558006797922144,
      "grad_norm": 51.89728546142578,
      "learning_rate": 5e-06,
      "loss": 1.0329,
      "num_input_tokens_seen": 214534768,
      "step": 1698
    },
    {
      "epoch": 0.43558006797922144,
      "loss": 1.0764617919921875,
      "loss_ce": 0.001266501029022038,
      "loss_iou": 0.48828125,
      "loss_num": 0.019775390625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 214534768,
      "step": 1698
    },
    {
      "epoch": 0.4358365933431668,
      "grad_norm": 56.97518539428711,
      "learning_rate": 5e-06,
      "loss": 1.091,
      "num_input_tokens_seen": 214661080,
      "step": 1699
    },
    {
      "epoch": 0.4358365933431668,
      "loss": 1.1828217506408691,
      "loss_ce": 0.00850541889667511,
      "loss_iou": 0.53125,
      "loss_num": 0.0223388671875,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 214661080,
      "step": 1699
    },
    {
      "epoch": 0.43609311870711215,
      "grad_norm": 66.85093688964844,
      "learning_rate": 5e-06,
      "loss": 0.9973,
      "num_input_tokens_seen": 214787764,
      "step": 1700
    },
    {
      "epoch": 0.43609311870711215,
      "loss": 1.0678298473358154,
      "loss_ce": 0.0028884424827992916,
      "loss_iou": 0.49609375,
      "loss_num": 0.014404296875,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 214787764,
      "step": 1700
    },
    {
      "epoch": 0.43634964407105753,
      "grad_norm": 61.146766662597656,
      "learning_rate": 5e-06,
      "loss": 1.1892,
      "num_input_tokens_seen": 214914876,
      "step": 1701
    },
    {
      "epoch": 0.43634964407105753,
      "loss": 1.1562916040420532,
      "loss_ce": 0.0049244724214077,
      "loss_iou": 0.5390625,
      "loss_num": 0.01385498046875,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 214914876,
      "step": 1701
    },
    {
      "epoch": 0.4366061694350029,
      "grad_norm": 74.96965026855469,
      "learning_rate": 5e-06,
      "loss": 1.0846,
      "num_input_tokens_seen": 215041840,
      "step": 1702
    },
    {
      "epoch": 0.4366061694350029,
      "loss": 1.153557538986206,
      "loss_ce": 0.00023729816894046962,
      "loss_iou": 0.5234375,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 215041840,
      "step": 1702
    },
    {
      "epoch": 0.43686269479894824,
      "grad_norm": 49.68824768066406,
      "learning_rate": 5e-06,
      "loss": 1.1794,
      "num_input_tokens_seen": 215167568,
      "step": 1703
    },
    {
      "epoch": 0.43686269479894824,
      "loss": 1.2320411205291748,
      "loss_ce": 0.0005958082620054483,
      "loss_iou": 0.56640625,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 215167568,
      "step": 1703
    },
    {
      "epoch": 0.4371192201628936,
      "grad_norm": 28.13874053955078,
      "learning_rate": 5e-06,
      "loss": 1.0946,
      "num_input_tokens_seen": 215293568,
      "step": 1704
    },
    {
      "epoch": 0.4371192201628936,
      "loss": 1.2300231456756592,
      "loss_ce": 0.0029722554609179497,
      "loss_iou": 0.546875,
      "loss_num": 0.0269775390625,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 215293568,
      "step": 1704
    },
    {
      "epoch": 0.43737574552683894,
      "grad_norm": 43.31360626220703,
      "learning_rate": 5e-06,
      "loss": 1.0783,
      "num_input_tokens_seen": 215419708,
      "step": 1705
    },
    {
      "epoch": 0.43737574552683894,
      "loss": 1.0617132186889648,
      "loss_ce": 0.005560874938964844,
      "loss_iou": 0.453125,
      "loss_num": 0.0303955078125,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 215419708,
      "step": 1705
    },
    {
      "epoch": 0.4376322708907843,
      "grad_norm": 47.878501892089844,
      "learning_rate": 5e-06,
      "loss": 1.1204,
      "num_input_tokens_seen": 215545032,
      "step": 1706
    },
    {
      "epoch": 0.4376322708907843,
      "loss": 1.117936611175537,
      "loss_ce": 0.0017257253639400005,
      "loss_iou": 0.50390625,
      "loss_num": 0.021484375,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 215545032,
      "step": 1706
    },
    {
      "epoch": 0.4378887962547297,
      "grad_norm": 33.08382034301758,
      "learning_rate": 5e-06,
      "loss": 1.0077,
      "num_input_tokens_seen": 215670804,
      "step": 1707
    },
    {
      "epoch": 0.4378887962547297,
      "loss": 1.241870641708374,
      "loss_ce": 0.004321817308664322,
      "loss_iou": 0.55078125,
      "loss_num": 0.0267333984375,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 215670804,
      "step": 1707
    },
    {
      "epoch": 0.43814532161867503,
      "grad_norm": 60.26030731201172,
      "learning_rate": 5e-06,
      "loss": 1.1039,
      "num_input_tokens_seen": 215797588,
      "step": 1708
    },
    {
      "epoch": 0.43814532161867503,
      "loss": 1.2055153846740723,
      "loss_ce": 0.0038552528712898493,
      "loss_iou": 0.54296875,
      "loss_num": 0.0224609375,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 215797588,
      "step": 1708
    },
    {
      "epoch": 0.4384018469826204,
      "grad_norm": 99.734375,
      "learning_rate": 5e-06,
      "loss": 1.1371,
      "num_input_tokens_seen": 215924552,
      "step": 1709
    },
    {
      "epoch": 0.4384018469826204,
      "loss": 1.1549296379089355,
      "loss_ce": 0.0006327689625322819,
      "loss_iou": 0.5390625,
      "loss_num": 0.0146484375,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 215924552,
      "step": 1709
    },
    {
      "epoch": 0.43865837234656574,
      "grad_norm": 50.84249496459961,
      "learning_rate": 5e-06,
      "loss": 1.1741,
      "num_input_tokens_seen": 216050496,
      "step": 1710
    },
    {
      "epoch": 0.43865837234656574,
      "loss": 1.2726256847381592,
      "loss_ce": 0.003094491781666875,
      "loss_iou": 0.57421875,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 216050496,
      "step": 1710
    },
    {
      "epoch": 0.4389148977105111,
      "grad_norm": 49.006404876708984,
      "learning_rate": 5e-06,
      "loss": 1.0052,
      "num_input_tokens_seen": 216176652,
      "step": 1711
    },
    {
      "epoch": 0.4389148977105111,
      "loss": 0.8756401538848877,
      "loss_ce": 0.00039604902849532664,
      "loss_iou": 0.408203125,
      "loss_num": 0.01141357421875,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 216176652,
      "step": 1711
    },
    {
      "epoch": 0.4391714230744565,
      "grad_norm": 57.28960418701172,
      "learning_rate": 5e-06,
      "loss": 1.1369,
      "num_input_tokens_seen": 216303056,
      "step": 1712
    },
    {
      "epoch": 0.4391714230744565,
      "loss": 1.0891642570495605,
      "loss_ce": 0.00029716239077970386,
      "loss_iou": 0.51171875,
      "loss_num": 0.0130615234375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 216303056,
      "step": 1712
    },
    {
      "epoch": 0.4394279484384018,
      "grad_norm": 41.549110412597656,
      "learning_rate": 5e-06,
      "loss": 1.1071,
      "num_input_tokens_seen": 216430404,
      "step": 1713
    },
    {
      "epoch": 0.4394279484384018,
      "loss": 1.3964653015136719,
      "loss_ce": 0.0009574639843776822,
      "loss_iou": 0.625,
      "loss_num": 0.028564453125,
      "loss_xval": 1.3984375,
      "num_input_tokens_seen": 216430404,
      "step": 1713
    },
    {
      "epoch": 0.4396844738023472,
      "grad_norm": 38.457977294921875,
      "learning_rate": 5e-06,
      "loss": 1.0112,
      "num_input_tokens_seen": 216555976,
      "step": 1714
    },
    {
      "epoch": 0.4396844738023472,
      "loss": 1.184187412261963,
      "loss_ce": 0.0010819791350513697,
      "loss_iou": 0.52734375,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 216555976,
      "step": 1714
    },
    {
      "epoch": 0.4399409991662926,
      "grad_norm": 55.67451095581055,
      "learning_rate": 5e-06,
      "loss": 1.0446,
      "num_input_tokens_seen": 216682616,
      "step": 1715
    },
    {
      "epoch": 0.4399409991662926,
      "loss": 1.0428118705749512,
      "loss_ce": 0.00033150549279525876,
      "loss_iou": 0.4765625,
      "loss_num": 0.017822265625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 216682616,
      "step": 1715
    },
    {
      "epoch": 0.4401975245302379,
      "grad_norm": 72.97443389892578,
      "learning_rate": 5e-06,
      "loss": 1.0097,
      "num_input_tokens_seen": 216809512,
      "step": 1716
    },
    {
      "epoch": 0.4401975245302379,
      "loss": 1.1563479900360107,
      "loss_ce": 0.0030277553014457226,
      "loss_iou": 0.53515625,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 216809512,
      "step": 1716
    },
    {
      "epoch": 0.4404540498941833,
      "grad_norm": 59.25205993652344,
      "learning_rate": 5e-06,
      "loss": 1.117,
      "num_input_tokens_seen": 216936232,
      "step": 1717
    },
    {
      "epoch": 0.4404540498941833,
      "loss": 1.1371543407440186,
      "loss_ce": 0.004830121994018555,
      "loss_iou": 0.51953125,
      "loss_num": 0.019287109375,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 216936232,
      "step": 1717
    },
    {
      "epoch": 0.4407105752581286,
      "grad_norm": 45.468631744384766,
      "learning_rate": 5e-06,
      "loss": 1.1769,
      "num_input_tokens_seen": 217062324,
      "step": 1718
    },
    {
      "epoch": 0.4407105752581286,
      "loss": 1.1025447845458984,
      "loss_ce": 0.0004939006757922471,
      "loss_iou": 0.51953125,
      "loss_num": 0.01336669921875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 217062324,
      "step": 1718
    },
    {
      "epoch": 0.440967100622074,
      "grad_norm": 50.48375701904297,
      "learning_rate": 5e-06,
      "loss": 1.2932,
      "num_input_tokens_seen": 217188588,
      "step": 1719
    },
    {
      "epoch": 0.440967100622074,
      "loss": 1.0813567638397217,
      "loss_ce": 0.0017669497756287456,
      "loss_iou": 0.49609375,
      "loss_num": 0.01708984375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 217188588,
      "step": 1719
    },
    {
      "epoch": 0.4412236259860194,
      "grad_norm": 66.76935577392578,
      "learning_rate": 5e-06,
      "loss": 1.129,
      "num_input_tokens_seen": 217315184,
      "step": 1720
    },
    {
      "epoch": 0.4412236259860194,
      "loss": 1.1760069131851196,
      "loss_ce": 0.002667068038135767,
      "loss_iou": 0.53125,
      "loss_num": 0.021484375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 217315184,
      "step": 1720
    },
    {
      "epoch": 0.4414801513499647,
      "grad_norm": 46.163448333740234,
      "learning_rate": 5e-06,
      "loss": 1.0255,
      "num_input_tokens_seen": 217440320,
      "step": 1721
    },
    {
      "epoch": 0.4414801513499647,
      "loss": 1.0357567071914673,
      "loss_ce": 0.004018500447273254,
      "loss_iou": 0.46484375,
      "loss_num": 0.0206298828125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 217440320,
      "step": 1721
    },
    {
      "epoch": 0.4417366767139101,
      "grad_norm": 28.159130096435547,
      "learning_rate": 5e-06,
      "loss": 1.1231,
      "num_input_tokens_seen": 217566980,
      "step": 1722
    },
    {
      "epoch": 0.4417366767139101,
      "loss": 1.2694045305252075,
      "loss_ce": 0.0032912425231188536,
      "loss_iou": 0.5703125,
      "loss_num": 0.0257568359375,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 217566980,
      "step": 1722
    },
    {
      "epoch": 0.4419932020778555,
      "grad_norm": 25.083528518676758,
      "learning_rate": 5e-06,
      "loss": 0.9489,
      "num_input_tokens_seen": 217692868,
      "step": 1723
    },
    {
      "epoch": 0.4419932020778555,
      "loss": 0.9106738567352295,
      "loss_ce": 0.0014941783156245947,
      "loss_iou": 0.427734375,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 217692868,
      "step": 1723
    },
    {
      "epoch": 0.4422497274418008,
      "grad_norm": 32.0662841796875,
      "learning_rate": 5e-06,
      "loss": 1.0154,
      "num_input_tokens_seen": 217819496,
      "step": 1724
    },
    {
      "epoch": 0.4422497274418008,
      "loss": 0.8857411742210388,
      "loss_ce": 0.00048729853006079793,
      "loss_iou": 0.42578125,
      "loss_num": 0.006683349609375,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 217819496,
      "step": 1724
    },
    {
      "epoch": 0.4425062528057462,
      "grad_norm": 38.85762405395508,
      "learning_rate": 5e-06,
      "loss": 1.0428,
      "num_input_tokens_seen": 217945548,
      "step": 1725
    },
    {
      "epoch": 0.4425062528057462,
      "loss": 0.9111621379852295,
      "loss_ce": 0.0029589852783828974,
      "loss_iou": 0.42578125,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 217945548,
      "step": 1725
    },
    {
      "epoch": 0.4427627781696915,
      "grad_norm": 53.181636810302734,
      "learning_rate": 5e-06,
      "loss": 1.1949,
      "num_input_tokens_seen": 218072168,
      "step": 1726
    },
    {
      "epoch": 0.4427627781696915,
      "loss": 1.2823820114135742,
      "loss_ce": 0.003085160395130515,
      "loss_iou": 0.56640625,
      "loss_num": 0.029296875,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 218072168,
      "step": 1726
    },
    {
      "epoch": 0.4430193035336369,
      "grad_norm": 47.58131408691406,
      "learning_rate": 5e-06,
      "loss": 1.0586,
      "num_input_tokens_seen": 218199204,
      "step": 1727
    },
    {
      "epoch": 0.4430193035336369,
      "loss": 1.1768717765808105,
      "loss_ce": 0.002067042514681816,
      "loss_iou": 0.53515625,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 218199204,
      "step": 1727
    },
    {
      "epoch": 0.44327582889758227,
      "grad_norm": 52.15944290161133,
      "learning_rate": 5e-06,
      "loss": 0.9872,
      "num_input_tokens_seen": 218324740,
      "step": 1728
    },
    {
      "epoch": 0.44327582889758227,
      "loss": 1.1255285739898682,
      "loss_ce": 0.0010168793378397822,
      "loss_iou": 0.4921875,
      "loss_num": 0.027587890625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 218324740,
      "step": 1728
    },
    {
      "epoch": 0.4435323542615276,
      "grad_norm": 69.7750244140625,
      "learning_rate": 5e-06,
      "loss": 1.1588,
      "num_input_tokens_seen": 218451404,
      "step": 1729
    },
    {
      "epoch": 0.4435323542615276,
      "loss": 1.0207029581069946,
      "loss_ce": 0.0006835001986473799,
      "loss_iou": 0.486328125,
      "loss_num": 0.00927734375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 218451404,
      "step": 1729
    },
    {
      "epoch": 0.443788879625473,
      "grad_norm": 81.23307800292969,
      "learning_rate": 5e-06,
      "loss": 1.1839,
      "num_input_tokens_seen": 218578104,
      "step": 1730
    },
    {
      "epoch": 0.443788879625473,
      "loss": 0.964625358581543,
      "loss_ce": 0.00026984367286786437,
      "loss_iou": 0.443359375,
      "loss_num": 0.0155029296875,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 218578104,
      "step": 1730
    },
    {
      "epoch": 0.4440454049894183,
      "grad_norm": 70.81971740722656,
      "learning_rate": 5e-06,
      "loss": 1.2513,
      "num_input_tokens_seen": 218703752,
      "step": 1731
    },
    {
      "epoch": 0.4440454049894183,
      "loss": 1.2160639762878418,
      "loss_ce": 0.0017085422296077013,
      "loss_iou": 0.56640625,
      "loss_num": 0.0159912109375,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 218703752,
      "step": 1731
    },
    {
      "epoch": 0.4443019303533637,
      "grad_norm": 41.94395065307617,
      "learning_rate": 5e-06,
      "loss": 0.9854,
      "num_input_tokens_seen": 218831260,
      "step": 1732
    },
    {
      "epoch": 0.4443019303533637,
      "loss": 0.863932728767395,
      "loss_ce": 0.00016315290122292936,
      "loss_iou": 0.4140625,
      "loss_num": 0.007537841796875,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 218831260,
      "step": 1732
    },
    {
      "epoch": 0.44455845571730906,
      "grad_norm": 52.87050247192383,
      "learning_rate": 5e-06,
      "loss": 1.0794,
      "num_input_tokens_seen": 218956900,
      "step": 1733
    },
    {
      "epoch": 0.44455845571730906,
      "loss": 1.021039366722107,
      "loss_ce": 0.002484695753082633,
      "loss_iou": 0.4765625,
      "loss_num": 0.01336669921875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 218956900,
      "step": 1733
    },
    {
      "epoch": 0.4448149810812544,
      "grad_norm": 77.93696594238281,
      "learning_rate": 5e-06,
      "loss": 1.048,
      "num_input_tokens_seen": 219082204,
      "step": 1734
    },
    {
      "epoch": 0.4448149810812544,
      "loss": 1.1230113506317139,
      "loss_ce": 0.002405996434390545,
      "loss_iou": 0.51953125,
      "loss_num": 0.0162353515625,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 219082204,
      "step": 1734
    },
    {
      "epoch": 0.44507150644519977,
      "grad_norm": 51.49489212036133,
      "learning_rate": 5e-06,
      "loss": 1.1849,
      "num_input_tokens_seen": 219207320,
      "step": 1735
    },
    {
      "epoch": 0.44507150644519977,
      "loss": 1.182167410850525,
      "loss_ce": 0.0015033646486699581,
      "loss_iou": 0.54296875,
      "loss_num": 0.01904296875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 219207320,
      "step": 1735
    },
    {
      "epoch": 0.44532803180914515,
      "grad_norm": 64.10763549804688,
      "learning_rate": 5e-06,
      "loss": 1.0117,
      "num_input_tokens_seen": 219334420,
      "step": 1736
    },
    {
      "epoch": 0.44532803180914515,
      "loss": 1.1375796794891357,
      "loss_ce": 0.001349158468656242,
      "loss_iou": 0.5234375,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 219334420,
      "step": 1736
    },
    {
      "epoch": 0.4455845571730905,
      "grad_norm": 60.665958404541016,
      "learning_rate": 5e-06,
      "loss": 1.1388,
      "num_input_tokens_seen": 219460968,
      "step": 1737
    },
    {
      "epoch": 0.4455845571730905,
      "loss": 1.2081689834594727,
      "loss_ce": 0.0011378065682947636,
      "loss_iou": 0.5625,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 219460968,
      "step": 1737
    },
    {
      "epoch": 0.44584108253703586,
      "grad_norm": 51.04098129272461,
      "learning_rate": 5e-06,
      "loss": 1.1346,
      "num_input_tokens_seen": 219587608,
      "step": 1738
    },
    {
      "epoch": 0.44584108253703586,
      "loss": 1.051917552947998,
      "loss_ce": 0.001380457542836666,
      "loss_iou": 0.486328125,
      "loss_num": 0.0152587890625,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 219587608,
      "step": 1738
    },
    {
      "epoch": 0.4460976079009812,
      "grad_norm": 39.799922943115234,
      "learning_rate": 5e-06,
      "loss": 0.9987,
      "num_input_tokens_seen": 219713428,
      "step": 1739
    },
    {
      "epoch": 0.4460976079009812,
      "loss": 0.918642520904541,
      "loss_ce": 0.005068228580057621,
      "loss_iou": 0.421875,
      "loss_num": 0.0137939453125,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 219713428,
      "step": 1739
    },
    {
      "epoch": 0.44635413326492657,
      "grad_norm": 49.80137634277344,
      "learning_rate": 5e-06,
      "loss": 1.0599,
      "num_input_tokens_seen": 219839820,
      "step": 1740
    },
    {
      "epoch": 0.44635413326492657,
      "loss": 1.207512617111206,
      "loss_ce": 0.0024344762787222862,
      "loss_iou": 0.52734375,
      "loss_num": 0.030517578125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 219839820,
      "step": 1740
    },
    {
      "epoch": 0.44661065862887195,
      "grad_norm": 68.66104125976562,
      "learning_rate": 5e-06,
      "loss": 1.0696,
      "num_input_tokens_seen": 219966636,
      "step": 1741
    },
    {
      "epoch": 0.44661065862887195,
      "loss": 1.0989265441894531,
      "loss_ce": 0.00322341313585639,
      "loss_iou": 0.498046875,
      "loss_num": 0.019775390625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 219966636,
      "step": 1741
    },
    {
      "epoch": 0.4468671839928173,
      "grad_norm": 58.057106018066406,
      "learning_rate": 5e-06,
      "loss": 1.0122,
      "num_input_tokens_seen": 220092768,
      "step": 1742
    },
    {
      "epoch": 0.4468671839928173,
      "loss": 1.058262825012207,
      "loss_ce": 0.0011339513584971428,
      "loss_iou": 0.490234375,
      "loss_num": 0.0155029296875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 220092768,
      "step": 1742
    },
    {
      "epoch": 0.44712370935676266,
      "grad_norm": 54.936180114746094,
      "learning_rate": 5e-06,
      "loss": 1.0755,
      "num_input_tokens_seen": 220218764,
      "step": 1743
    },
    {
      "epoch": 0.44712370935676266,
      "loss": 1.2308447360992432,
      "loss_ce": 0.000864313100464642,
      "loss_iou": 0.54296875,
      "loss_num": 0.0279541015625,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 220218764,
      "step": 1743
    },
    {
      "epoch": 0.44738023472070804,
      "grad_norm": 54.46271896362305,
      "learning_rate": 5e-06,
      "loss": 1.2558,
      "num_input_tokens_seen": 220345436,
      "step": 1744
    },
    {
      "epoch": 0.44738023472070804,
      "loss": 1.337061882019043,
      "loss_ce": 0.001612723572179675,
      "loss_iou": 0.59375,
      "loss_num": 0.029541015625,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 220345436,
      "step": 1744
    },
    {
      "epoch": 0.44763676008465336,
      "grad_norm": 74.26089477539062,
      "learning_rate": 5e-06,
      "loss": 0.9805,
      "num_input_tokens_seen": 220471580,
      "step": 1745
    },
    {
      "epoch": 0.44763676008465336,
      "loss": 0.9207468628883362,
      "loss_ce": 0.0013132905587553978,
      "loss_iou": 0.4375,
      "loss_num": 0.0086669921875,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 220471580,
      "step": 1745
    },
    {
      "epoch": 0.44789328544859874,
      "grad_norm": 48.16965866088867,
      "learning_rate": 5e-06,
      "loss": 1.2025,
      "num_input_tokens_seen": 220596952,
      "step": 1746
    },
    {
      "epoch": 0.44789328544859874,
      "loss": 1.2162046432495117,
      "loss_ce": 0.0003843932645395398,
      "loss_iou": 0.56640625,
      "loss_num": 0.0166015625,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 220596952,
      "step": 1746
    },
    {
      "epoch": 0.44814981081254407,
      "grad_norm": 45.7118034362793,
      "learning_rate": 5e-06,
      "loss": 1.0403,
      "num_input_tokens_seen": 220723320,
      "step": 1747
    },
    {
      "epoch": 0.44814981081254407,
      "loss": 1.120827078819275,
      "loss_ce": 0.00022159266518428922,
      "loss_iou": 0.51953125,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 220723320,
      "step": 1747
    },
    {
      "epoch": 0.44840633617648945,
      "grad_norm": 85.08150482177734,
      "learning_rate": 5e-06,
      "loss": 1.0256,
      "num_input_tokens_seen": 220849444,
      "step": 1748
    },
    {
      "epoch": 0.44840633617648945,
      "loss": 0.9492961764335632,
      "loss_ce": 0.0020305525977164507,
      "loss_iou": 0.451171875,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 220849444,
      "step": 1748
    },
    {
      "epoch": 0.44866286154043483,
      "grad_norm": 48.142723083496094,
      "learning_rate": 5e-06,
      "loss": 1.2591,
      "num_input_tokens_seen": 220975668,
      "step": 1749
    },
    {
      "epoch": 0.44866286154043483,
      "loss": 1.2303417921066284,
      "loss_ce": 0.0013378707226365805,
      "loss_iou": 0.5859375,
      "loss_num": 0.01153564453125,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 220975668,
      "step": 1749
    },
    {
      "epoch": 0.44891938690438016,
      "grad_norm": 33.37443161010742,
      "learning_rate": 5e-06,
      "loss": 0.9492,
      "num_input_tokens_seen": 221101092,
      "step": 1750
    },
    {
      "epoch": 0.44891938690438016,
      "eval_icons_CIoU": 0.13520523346960545,
      "eval_icons_GIoU": 0.09360607946291566,
      "eval_icons_IoU": 0.33239367604255676,
      "eval_icons_MAE_all": 0.03282083850353956,
      "eval_icons_MAE_h": 0.05826394818723202,
      "eval_icons_MAE_w": 0.05559726431965828,
      "eval_icons_MAE_x_boxes": 0.054289765655994415,
      "eval_icons_MAE_y_boxes": 0.058288367465138435,
      "eval_icons_NUM_probability": 0.9995181262493134,
      "eval_icons_inside_bbox": 0.5659722238779068,
      "eval_icons_loss": 1.9127000570297241,
      "eval_icons_loss_ce": 0.0001715321996016428,
      "eval_icons_loss_iou": 0.87646484375,
      "eval_icons_loss_num": 0.036895751953125,
      "eval_icons_loss_xval": 1.93798828125,
      "eval_icons_runtime": 63.7316,
      "eval_icons_samples_per_second": 0.785,
      "eval_icons_steps_per_second": 0.031,
      "num_input_tokens_seen": 221101092,
      "step": 1750
    },
    {
      "epoch": 0.44891938690438016,
      "eval_screenspot_CIoU": 0.13932100435098013,
      "eval_screenspot_GIoU": 0.12832056730985641,
      "eval_screenspot_IoU": 0.30554496745268506,
      "eval_screenspot_MAE_all": 0.08185822144150734,
      "eval_screenspot_MAE_h": 0.06552359213431676,
      "eval_screenspot_MAE_w": 0.13179517289002737,
      "eval_screenspot_MAE_x_boxes": 0.10988386223713557,
      "eval_screenspot_MAE_y_boxes": 0.059355118622382484,
      "eval_screenspot_NUM_probability": 0.9998281002044678,
      "eval_screenspot_inside_bbox": 0.6358333428700765,
      "eval_screenspot_loss": 2.2082271575927734,
      "eval_screenspot_loss_ce": 0.0019252800848335028,
      "eval_screenspot_loss_iou": 0.907470703125,
      "eval_screenspot_loss_num": 0.0882568359375,
      "eval_screenspot_loss_xval": 2.2571614583333335,
      "eval_screenspot_runtime": 105.2121,
      "eval_screenspot_samples_per_second": 0.846,
      "eval_screenspot_steps_per_second": 0.029,
      "num_input_tokens_seen": 221101092,
      "step": 1750
    },
    {
      "epoch": 0.44891938690438016,
      "loss": 2.137132167816162,
      "loss_ce": 0.0013901516795158386,
      "loss_iou": 0.87890625,
      "loss_num": 0.07568359375,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 221101092,
      "step": 1750
    },
    {
      "epoch": 0.44917591226832554,
      "grad_norm": 65.04472351074219,
      "learning_rate": 5e-06,
      "loss": 1.0779,
      "num_input_tokens_seen": 221227408,
      "step": 1751
    },
    {
      "epoch": 0.44917591226832554,
      "loss": 1.097533941268921,
      "loss_ce": 0.00036594917764887214,
      "loss_iou": 0.515625,
      "loss_num": 0.0137939453125,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 221227408,
      "step": 1751
    },
    {
      "epoch": 0.44943243763227086,
      "grad_norm": 58.349761962890625,
      "learning_rate": 5e-06,
      "loss": 1.1219,
      "num_input_tokens_seen": 221354612,
      "step": 1752
    },
    {
      "epoch": 0.44943243763227086,
      "loss": 1.2975740432739258,
      "loss_ce": 0.0011872686445713043,
      "loss_iou": 0.578125,
      "loss_num": 0.0286865234375,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 221354612,
      "step": 1752
    },
    {
      "epoch": 0.44968896299621625,
      "grad_norm": 40.07772445678711,
      "learning_rate": 5e-06,
      "loss": 1.2295,
      "num_input_tokens_seen": 221480192,
      "step": 1753
    },
    {
      "epoch": 0.44968896299621625,
      "loss": 1.2535150051116943,
      "loss_ce": 0.0010735716205090284,
      "loss_iou": 0.5703125,
      "loss_num": 0.0224609375,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 221480192,
      "step": 1753
    },
    {
      "epoch": 0.4499454883601616,
      "grad_norm": 44.417903900146484,
      "learning_rate": 5e-06,
      "loss": 1.0847,
      "num_input_tokens_seen": 221606036,
      "step": 1754
    },
    {
      "epoch": 0.4499454883601616,
      "loss": 1.1093040704727173,
      "loss_ce": 0.0013939510099589825,
      "loss_iou": 0.51171875,
      "loss_num": 0.017333984375,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 221606036,
      "step": 1754
    },
    {
      "epoch": 0.45020201372410695,
      "grad_norm": 82.19584655761719,
      "learning_rate": 5e-06,
      "loss": 1.0316,
      "num_input_tokens_seen": 221733884,
      "step": 1755
    },
    {
      "epoch": 0.45020201372410695,
      "loss": 0.8864402770996094,
      "loss_ce": 0.0021629538387060165,
      "loss_iou": 0.416015625,
      "loss_num": 0.0103759765625,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 221733884,
      "step": 1755
    },
    {
      "epoch": 0.45045853908805233,
      "grad_norm": 54.95599365234375,
      "learning_rate": 5e-06,
      "loss": 1.1545,
      "num_input_tokens_seen": 221859656,
      "step": 1756
    },
    {
      "epoch": 0.45045853908805233,
      "loss": 1.0377905368804932,
      "loss_ce": 0.0006811793427914381,
      "loss_iou": 0.49609375,
      "loss_num": 0.0093994140625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 221859656,
      "step": 1756
    },
    {
      "epoch": 0.4507150644519977,
      "grad_norm": 50.52367401123047,
      "learning_rate": 5e-06,
      "loss": 1.0899,
      "num_input_tokens_seen": 221986800,
      "step": 1757
    },
    {
      "epoch": 0.4507150644519977,
      "loss": 0.935173749923706,
      "loss_ce": 0.0006034575053490698,
      "loss_iou": 0.443359375,
      "loss_num": 0.00994873046875,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 221986800,
      "step": 1757
    },
    {
      "epoch": 0.45097158981594304,
      "grad_norm": 67.1668701171875,
      "learning_rate": 5e-06,
      "loss": 1.1084,
      "num_input_tokens_seen": 222113588,
      "step": 1758
    },
    {
      "epoch": 0.45097158981594304,
      "loss": 1.1809331178665161,
      "loss_ce": 0.007104948628693819,
      "loss_iou": 0.51953125,
      "loss_num": 0.027587890625,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 222113588,
      "step": 1758
    },
    {
      "epoch": 0.4512281151798884,
      "grad_norm": 49.523834228515625,
      "learning_rate": 5e-06,
      "loss": 1.1212,
      "num_input_tokens_seen": 222239476,
      "step": 1759
    },
    {
      "epoch": 0.4512281151798884,
      "loss": 1.2047364711761475,
      "loss_ce": 0.0011232678079977632,
      "loss_iou": 0.53125,
      "loss_num": 0.027587890625,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 222239476,
      "step": 1759
    },
    {
      "epoch": 0.45148464054383375,
      "grad_norm": 39.00166702270508,
      "learning_rate": 5e-06,
      "loss": 0.9189,
      "num_input_tokens_seen": 222365960,
      "step": 1760
    },
    {
      "epoch": 0.45148464054383375,
      "loss": 0.8535187840461731,
      "loss_ce": 0.000491458224132657,
      "loss_iou": 0.390625,
      "loss_num": 0.0142822265625,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 222365960,
      "step": 1760
    },
    {
      "epoch": 0.45174116590777913,
      "grad_norm": 48.74122619628906,
      "learning_rate": 5e-06,
      "loss": 1.0079,
      "num_input_tokens_seen": 222493120,
      "step": 1761
    },
    {
      "epoch": 0.45174116590777913,
      "loss": 1.0591301918029785,
      "loss_ce": 0.0010247546015307307,
      "loss_iou": 0.484375,
      "loss_num": 0.017578125,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 222493120,
      "step": 1761
    },
    {
      "epoch": 0.4519976912717245,
      "grad_norm": 57.42464065551758,
      "learning_rate": 5e-06,
      "loss": 1.1333,
      "num_input_tokens_seen": 222618836,
      "step": 1762
    },
    {
      "epoch": 0.4519976912717245,
      "loss": 1.053152322769165,
      "loss_ce": 0.0018827388994395733,
      "loss_iou": 0.48828125,
      "loss_num": 0.0147705078125,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 222618836,
      "step": 1762
    },
    {
      "epoch": 0.45225421663566984,
      "grad_norm": 53.764163970947266,
      "learning_rate": 5e-06,
      "loss": 1.1735,
      "num_input_tokens_seen": 222744376,
      "step": 1763
    },
    {
      "epoch": 0.45225421663566984,
      "loss": 1.3524705171585083,
      "loss_ce": 0.0033494741655886173,
      "loss_iou": 0.61328125,
      "loss_num": 0.0247802734375,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 222744376,
      "step": 1763
    },
    {
      "epoch": 0.4525107419996152,
      "grad_norm": 73.12234497070312,
      "learning_rate": 5e-06,
      "loss": 1.0865,
      "num_input_tokens_seen": 222871892,
      "step": 1764
    },
    {
      "epoch": 0.4525107419996152,
      "loss": 0.9467097520828247,
      "loss_ce": 0.003350441576912999,
      "loss_iou": 0.43359375,
      "loss_num": 0.014892578125,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 222871892,
      "step": 1764
    },
    {
      "epoch": 0.4527672673635606,
      "grad_norm": 55.75526428222656,
      "learning_rate": 5e-06,
      "loss": 1.1035,
      "num_input_tokens_seen": 222998220,
      "step": 1765
    },
    {
      "epoch": 0.4527672673635606,
      "loss": 1.3217352628707886,
      "loss_ce": 0.0009344975696876645,
      "loss_iou": 0.59375,
      "loss_num": 0.02587890625,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 222998220,
      "step": 1765
    },
    {
      "epoch": 0.4530237927275059,
      "grad_norm": 35.10811233520508,
      "learning_rate": 5e-06,
      "loss": 0.9668,
      "num_input_tokens_seen": 223124288,
      "step": 1766
    },
    {
      "epoch": 0.4530237927275059,
      "loss": 0.971388578414917,
      "loss_ce": 0.0016620028764009476,
      "loss_iou": 0.45703125,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 223124288,
      "step": 1766
    },
    {
      "epoch": 0.4532803180914513,
      "grad_norm": 41.83962631225586,
      "learning_rate": 5e-06,
      "loss": 1.0906,
      "num_input_tokens_seen": 223251036,
      "step": 1767
    },
    {
      "epoch": 0.4532803180914513,
      "loss": 1.3172807693481445,
      "loss_ce": 0.003804178908467293,
      "loss_iou": 0.59765625,
      "loss_num": 0.0244140625,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 223251036,
      "step": 1767
    },
    {
      "epoch": 0.45353684345539663,
      "grad_norm": 75.01993560791016,
      "learning_rate": 5e-06,
      "loss": 1.1356,
      "num_input_tokens_seen": 223377328,
      "step": 1768
    },
    {
      "epoch": 0.45353684345539663,
      "loss": 0.9791259169578552,
      "loss_ce": 0.0025634029880166054,
      "loss_iou": 0.451171875,
      "loss_num": 0.0146484375,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 223377328,
      "step": 1768
    },
    {
      "epoch": 0.453793368819342,
      "grad_norm": 53.41657257080078,
      "learning_rate": 5e-06,
      "loss": 1.1458,
      "num_input_tokens_seen": 223504412,
      "step": 1769
    },
    {
      "epoch": 0.453793368819342,
      "loss": 1.106865406036377,
      "loss_ce": 0.0023732022382318974,
      "loss_iou": 0.51171875,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 223504412,
      "step": 1769
    },
    {
      "epoch": 0.4540498941832874,
      "grad_norm": 21.908044815063477,
      "learning_rate": 5e-06,
      "loss": 0.9441,
      "num_input_tokens_seen": 223630272,
      "step": 1770
    },
    {
      "epoch": 0.4540498941832874,
      "loss": 0.8534073233604431,
      "loss_ce": 0.0008682726183906198,
      "loss_iou": 0.3984375,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 223630272,
      "step": 1770
    },
    {
      "epoch": 0.4543064195472327,
      "grad_norm": 20.499309539794922,
      "learning_rate": 5e-06,
      "loss": 0.9913,
      "num_input_tokens_seen": 223756240,
      "step": 1771
    },
    {
      "epoch": 0.4543064195472327,
      "loss": 0.8340408802032471,
      "loss_ce": 0.0003006830520462245,
      "loss_iou": 0.37890625,
      "loss_num": 0.01495361328125,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 223756240,
      "step": 1771
    },
    {
      "epoch": 0.4545629449111781,
      "grad_norm": 44.41531753540039,
      "learning_rate": 5e-06,
      "loss": 1.2043,
      "num_input_tokens_seen": 223882360,
      "step": 1772
    },
    {
      "epoch": 0.4545629449111781,
      "loss": 1.0591591596603394,
      "loss_ce": 0.005448200739920139,
      "loss_iou": 0.47265625,
      "loss_num": 0.021240234375,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 223882360,
      "step": 1772
    },
    {
      "epoch": 0.4548194702751234,
      "grad_norm": 53.299381256103516,
      "learning_rate": 5e-06,
      "loss": 1.1289,
      "num_input_tokens_seen": 224007764,
      "step": 1773
    },
    {
      "epoch": 0.4548194702751234,
      "loss": 1.4351820945739746,
      "loss_ce": 0.0006116722943261266,
      "loss_iou": 0.65234375,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 224007764,
      "step": 1773
    },
    {
      "epoch": 0.4550759956390688,
      "grad_norm": 51.93644714355469,
      "learning_rate": 5e-06,
      "loss": 1.0473,
      "num_input_tokens_seen": 224134064,
      "step": 1774
    },
    {
      "epoch": 0.4550759956390688,
      "loss": 1.0699505805969238,
      "loss_ce": 0.0030560598243027925,
      "loss_iou": 0.49609375,
      "loss_num": 0.01544189453125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 224134064,
      "step": 1774
    },
    {
      "epoch": 0.4553325210030142,
      "grad_norm": 58.659854888916016,
      "learning_rate": 5e-06,
      "loss": 1.1839,
      "num_input_tokens_seen": 224259744,
      "step": 1775
    },
    {
      "epoch": 0.4553325210030142,
      "loss": 1.148506999015808,
      "loss_ce": 0.0005577196134254336,
      "loss_iou": 0.52734375,
      "loss_num": 0.01806640625,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 224259744,
      "step": 1775
    },
    {
      "epoch": 0.4555890463669595,
      "grad_norm": 47.804054260253906,
      "learning_rate": 5e-06,
      "loss": 0.9735,
      "num_input_tokens_seen": 224386844,
      "step": 1776
    },
    {
      "epoch": 0.4555890463669595,
      "loss": 0.8405540585517883,
      "loss_ce": 0.0016868961974978447,
      "loss_iou": 0.392578125,
      "loss_num": 0.01068115234375,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 224386844,
      "step": 1776
    },
    {
      "epoch": 0.4558455717309049,
      "grad_norm": 46.61387252807617,
      "learning_rate": 5e-06,
      "loss": 1.0408,
      "num_input_tokens_seen": 224513500,
      "step": 1777
    },
    {
      "epoch": 0.4558455717309049,
      "loss": 1.0193055868148804,
      "loss_ce": 0.005877839867025614,
      "loss_iou": 0.45703125,
      "loss_num": 0.020263671875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 224513500,
      "step": 1777
    },
    {
      "epoch": 0.4561020970948503,
      "grad_norm": 58.60307312011719,
      "learning_rate": 5e-06,
      "loss": 1.0395,
      "num_input_tokens_seen": 224639844,
      "step": 1778
    },
    {
      "epoch": 0.4561020970948503,
      "loss": 1.1209123134613037,
      "loss_ce": 0.0042130243964493275,
      "loss_iou": 0.494140625,
      "loss_num": 0.0255126953125,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 224639844,
      "step": 1778
    },
    {
      "epoch": 0.4563586224587956,
      "grad_norm": 57.254234313964844,
      "learning_rate": 5e-06,
      "loss": 1.1969,
      "num_input_tokens_seen": 224766448,
      "step": 1779
    },
    {
      "epoch": 0.4563586224587956,
      "loss": 1.154077410697937,
      "loss_ce": 0.0017336651217192411,
      "loss_iou": 0.54296875,
      "loss_num": 0.01318359375,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 224766448,
      "step": 1779
    },
    {
      "epoch": 0.456615147822741,
      "grad_norm": 47.691226959228516,
      "learning_rate": 5e-06,
      "loss": 0.99,
      "num_input_tokens_seen": 224892048,
      "step": 1780
    },
    {
      "epoch": 0.456615147822741,
      "loss": 0.8634731769561768,
      "loss_ce": 0.008004425093531609,
      "loss_iou": 0.412109375,
      "loss_num": 0.0062255859375,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 224892048,
      "step": 1780
    },
    {
      "epoch": 0.4568716731866863,
      "grad_norm": 71.93791198730469,
      "learning_rate": 5e-06,
      "loss": 1.1428,
      "num_input_tokens_seen": 225019348,
      "step": 1781
    },
    {
      "epoch": 0.4568716731866863,
      "loss": 1.0822391510009766,
      "loss_ce": 0.0006961679318919778,
      "loss_iou": 0.5078125,
      "loss_num": 0.01336669921875,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 225019348,
      "step": 1781
    },
    {
      "epoch": 0.4571281985506317,
      "grad_norm": 77.20756530761719,
      "learning_rate": 5e-06,
      "loss": 1.2089,
      "num_input_tokens_seen": 225145096,
      "step": 1782
    },
    {
      "epoch": 0.4571281985506317,
      "loss": 1.2265117168426514,
      "loss_ce": 0.0023906128481030464,
      "loss_iou": 0.5625,
      "loss_num": 0.020263671875,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 225145096,
      "step": 1782
    },
    {
      "epoch": 0.4573847239145771,
      "grad_norm": 55.06850051879883,
      "learning_rate": 5e-06,
      "loss": 1.2276,
      "num_input_tokens_seen": 225272296,
      "step": 1783
    },
    {
      "epoch": 0.4573847239145771,
      "loss": 1.2547285556793213,
      "loss_ce": 0.001798930810764432,
      "loss_iou": 0.56640625,
      "loss_num": 0.0234375,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 225272296,
      "step": 1783
    },
    {
      "epoch": 0.4576412492785224,
      "grad_norm": 47.69963073730469,
      "learning_rate": 5e-06,
      "loss": 1.1367,
      "num_input_tokens_seen": 225399192,
      "step": 1784
    },
    {
      "epoch": 0.4576412492785224,
      "loss": 1.0881521701812744,
      "loss_ce": 0.0007497383048757911,
      "loss_iou": 0.50390625,
      "loss_num": 0.0159912109375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 225399192,
      "step": 1784
    },
    {
      "epoch": 0.4578977746424678,
      "grad_norm": 50.797889709472656,
      "learning_rate": 5e-06,
      "loss": 1.1077,
      "num_input_tokens_seen": 225524540,
      "step": 1785
    },
    {
      "epoch": 0.4578977746424678,
      "loss": 1.0107976198196411,
      "loss_ce": 0.003961687907576561,
      "loss_iou": 0.47265625,
      "loss_num": 0.01214599609375,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 225524540,
      "step": 1785
    },
    {
      "epoch": 0.4581543000064131,
      "grad_norm": 70.14015197753906,
      "learning_rate": 5e-06,
      "loss": 1.146,
      "num_input_tokens_seen": 225650852,
      "step": 1786
    },
    {
      "epoch": 0.4581543000064131,
      "loss": 1.058988094329834,
      "loss_ce": 0.0013709395425394177,
      "loss_iou": 0.486328125,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 225650852,
      "step": 1786
    },
    {
      "epoch": 0.4584108253703585,
      "grad_norm": 45.43425369262695,
      "learning_rate": 5e-06,
      "loss": 1.1859,
      "num_input_tokens_seen": 225777556,
      "step": 1787
    },
    {
      "epoch": 0.4584108253703585,
      "loss": 1.1797524690628052,
      "loss_ce": 0.0020180712454020977,
      "loss_iou": 0.54296875,
      "loss_num": 0.01806640625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 225777556,
      "step": 1787
    },
    {
      "epoch": 0.45866735073430387,
      "grad_norm": 40.239158630371094,
      "learning_rate": 5e-06,
      "loss": 1.0156,
      "num_input_tokens_seen": 225903552,
      "step": 1788
    },
    {
      "epoch": 0.45866735073430387,
      "loss": 0.9056026935577393,
      "loss_ce": 0.0010616483632475138,
      "loss_iou": 0.427734375,
      "loss_num": 0.00994873046875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 225903552,
      "step": 1788
    },
    {
      "epoch": 0.4589238760982492,
      "grad_norm": 52.5267219543457,
      "learning_rate": 5e-06,
      "loss": 1.1194,
      "num_input_tokens_seen": 226029732,
      "step": 1789
    },
    {
      "epoch": 0.4589238760982492,
      "loss": 0.9817174077033997,
      "loss_ce": 0.00027208661776967347,
      "loss_iou": 0.47265625,
      "loss_num": 0.007720947265625,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 226029732,
      "step": 1789
    },
    {
      "epoch": 0.4591804014621946,
      "grad_norm": 41.42628479003906,
      "learning_rate": 5e-06,
      "loss": 1.0112,
      "num_input_tokens_seen": 226156232,
      "step": 1790
    },
    {
      "epoch": 0.4591804014621946,
      "loss": 1.1469049453735352,
      "loss_ce": 0.000908812799025327,
      "loss_iou": 0.51953125,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 226156232,
      "step": 1790
    },
    {
      "epoch": 0.45943692682613996,
      "grad_norm": 35.50095748901367,
      "learning_rate": 5e-06,
      "loss": 1.0287,
      "num_input_tokens_seen": 226282468,
      "step": 1791
    },
    {
      "epoch": 0.45943692682613996,
      "loss": 0.917578399181366,
      "loss_ce": 9.793409117264673e-05,
      "loss_iou": 0.4296875,
      "loss_num": 0.01171875,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 226282468,
      "step": 1791
    },
    {
      "epoch": 0.4596934521900853,
      "grad_norm": 41.90004348754883,
      "learning_rate": 5e-06,
      "loss": 1.1602,
      "num_input_tokens_seen": 226407500,
      "step": 1792
    },
    {
      "epoch": 0.4596934521900853,
      "loss": 1.079375147819519,
      "loss_ce": 0.00125010940246284,
      "loss_iou": 0.498046875,
      "loss_num": 0.0166015625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 226407500,
      "step": 1792
    },
    {
      "epoch": 0.45994997755403066,
      "grad_norm": 45.10520935058594,
      "learning_rate": 5e-06,
      "loss": 1.0372,
      "num_input_tokens_seen": 226532952,
      "step": 1793
    },
    {
      "epoch": 0.45994997755403066,
      "loss": 1.0435144901275635,
      "loss_ce": 0.0005456857616081834,
      "loss_iou": 0.4765625,
      "loss_num": 0.017822265625,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 226532952,
      "step": 1793
    },
    {
      "epoch": 0.460206502917976,
      "grad_norm": 42.57160568237305,
      "learning_rate": 5e-06,
      "loss": 1.0469,
      "num_input_tokens_seen": 226659088,
      "step": 1794
    },
    {
      "epoch": 0.460206502917976,
      "loss": 0.8785485029220581,
      "loss_ce": 0.0015953680267557502,
      "loss_iou": 0.41015625,
      "loss_num": 0.011474609375,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 226659088,
      "step": 1794
    },
    {
      "epoch": 0.46046302828192137,
      "grad_norm": 85.52832794189453,
      "learning_rate": 5e-06,
      "loss": 1.1498,
      "num_input_tokens_seen": 226785940,
      "step": 1795
    },
    {
      "epoch": 0.46046302828192137,
      "loss": 1.0807669162750244,
      "loss_ce": 0.003130094613879919,
      "loss_iou": 0.4921875,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 226785940,
      "step": 1795
    },
    {
      "epoch": 0.46071955364586675,
      "grad_norm": 43.86018753051758,
      "learning_rate": 5e-06,
      "loss": 1.1319,
      "num_input_tokens_seen": 226911396,
      "step": 1796
    },
    {
      "epoch": 0.46071955364586675,
      "loss": 1.051501989364624,
      "loss_ce": 0.0016974173486232758,
      "loss_iou": 0.48828125,
      "loss_num": 0.01434326171875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 226911396,
      "step": 1796
    },
    {
      "epoch": 0.4609760790098121,
      "grad_norm": 32.8549690246582,
      "learning_rate": 5e-06,
      "loss": 1.1345,
      "num_input_tokens_seen": 227037092,
      "step": 1797
    },
    {
      "epoch": 0.4609760790098121,
      "loss": 1.0192904472351074,
      "loss_ce": 0.0029329685494303703,
      "loss_iou": 0.45703125,
      "loss_num": 0.0206298828125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 227037092,
      "step": 1797
    },
    {
      "epoch": 0.46123260437375746,
      "grad_norm": 30.514177322387695,
      "learning_rate": 5e-06,
      "loss": 1.1265,
      "num_input_tokens_seen": 227163092,
      "step": 1798
    },
    {
      "epoch": 0.46123260437375746,
      "loss": 1.148848533630371,
      "loss_ce": 0.0018758311634883285,
      "loss_iou": 0.515625,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 227163092,
      "step": 1798
    },
    {
      "epoch": 0.46148912973770284,
      "grad_norm": 41.02392578125,
      "learning_rate": 5e-06,
      "loss": 1.0624,
      "num_input_tokens_seen": 227288884,
      "step": 1799
    },
    {
      "epoch": 0.46148912973770284,
      "loss": 1.4358460903167725,
      "loss_ce": 0.0012757527874782681,
      "loss_iou": 0.66015625,
      "loss_num": 0.022705078125,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 227288884,
      "step": 1799
    },
    {
      "epoch": 0.46174565510164817,
      "grad_norm": 40.647464752197266,
      "learning_rate": 5e-06,
      "loss": 0.9747,
      "num_input_tokens_seen": 227415712,
      "step": 1800
    },
    {
      "epoch": 0.46174565510164817,
      "loss": 1.0220820903778076,
      "loss_ce": 0.00499228248372674,
      "loss_iou": 0.462890625,
      "loss_num": 0.01806640625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 227415712,
      "step": 1800
    },
    {
      "epoch": 0.46200218046559355,
      "grad_norm": 45.96141052246094,
      "learning_rate": 5e-06,
      "loss": 1.0637,
      "num_input_tokens_seen": 227542180,
      "step": 1801
    },
    {
      "epoch": 0.46200218046559355,
      "loss": 1.1472458839416504,
      "loss_ce": 0.004667793866246939,
      "loss_iou": 0.498046875,
      "loss_num": 0.0286865234375,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 227542180,
      "step": 1801
    },
    {
      "epoch": 0.4622587058295389,
      "grad_norm": 48.89726638793945,
      "learning_rate": 5e-06,
      "loss": 1.0363,
      "num_input_tokens_seen": 227668608,
      "step": 1802
    },
    {
      "epoch": 0.4622587058295389,
      "loss": 0.9320327043533325,
      "loss_ce": 0.00039204751374199986,
      "loss_iou": 0.439453125,
      "loss_num": 0.0103759765625,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 227668608,
      "step": 1802
    },
    {
      "epoch": 0.46251523119348426,
      "grad_norm": 47.7996826171875,
      "learning_rate": 5e-06,
      "loss": 1.0521,
      "num_input_tokens_seen": 227794348,
      "step": 1803
    },
    {
      "epoch": 0.46251523119348426,
      "loss": 0.9851279854774475,
      "loss_ce": 0.001241211430169642,
      "loss_iou": 0.46484375,
      "loss_num": 0.010498046875,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 227794348,
      "step": 1803
    },
    {
      "epoch": 0.46277175655742964,
      "grad_norm": 55.55686950683594,
      "learning_rate": 5e-06,
      "loss": 0.96,
      "num_input_tokens_seen": 227920024,
      "step": 1804
    },
    {
      "epoch": 0.46277175655742964,
      "loss": 0.8306246995925903,
      "loss_ce": 0.0005465293070301414,
      "loss_iou": 0.39453125,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 227920024,
      "step": 1804
    },
    {
      "epoch": 0.46302828192137496,
      "grad_norm": 62.18184280395508,
      "learning_rate": 5e-06,
      "loss": 1.0035,
      "num_input_tokens_seen": 228046804,
      "step": 1805
    },
    {
      "epoch": 0.46302828192137496,
      "loss": 1.0716681480407715,
      "loss_ce": 0.002332109957933426,
      "loss_iou": 0.5,
      "loss_num": 0.013671875,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 228046804,
      "step": 1805
    },
    {
      "epoch": 0.46328480728532034,
      "grad_norm": 51.51101303100586,
      "learning_rate": 5e-06,
      "loss": 1.1291,
      "num_input_tokens_seen": 228172136,
      "step": 1806
    },
    {
      "epoch": 0.46328480728532034,
      "loss": 1.269708514213562,
      "loss_ce": 0.0031068851239979267,
      "loss_iou": 0.578125,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 228172136,
      "step": 1806
    },
    {
      "epoch": 0.46354133264926567,
      "grad_norm": 57.650482177734375,
      "learning_rate": 5e-06,
      "loss": 1.0305,
      "num_input_tokens_seen": 228299092,
      "step": 1807
    },
    {
      "epoch": 0.46354133264926567,
      "loss": 0.9157262444496155,
      "loss_ce": 0.0016637363005429506,
      "loss_iou": 0.42578125,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 228299092,
      "step": 1807
    },
    {
      "epoch": 0.46379785801321105,
      "grad_norm": 51.743247985839844,
      "learning_rate": 5e-06,
      "loss": 1.0898,
      "num_input_tokens_seen": 228425312,
      "step": 1808
    },
    {
      "epoch": 0.46379785801321105,
      "loss": 1.1288851499557495,
      "loss_ce": 0.0004672062932513654,
      "loss_iou": 0.51171875,
      "loss_num": 0.021484375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 228425312,
      "step": 1808
    },
    {
      "epoch": 0.46405438337715643,
      "grad_norm": 55.841487884521484,
      "learning_rate": 5e-06,
      "loss": 1.0511,
      "num_input_tokens_seen": 228551700,
      "step": 1809
    },
    {
      "epoch": 0.46405438337715643,
      "loss": 1.0749510526657104,
      "loss_ce": 0.0012206027749925852,
      "loss_iou": 0.49609375,
      "loss_num": 0.0166015625,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 228551700,
      "step": 1809
    },
    {
      "epoch": 0.46431090874110176,
      "grad_norm": 53.72734069824219,
      "learning_rate": 5e-06,
      "loss": 1.171,
      "num_input_tokens_seen": 228678904,
      "step": 1810
    },
    {
      "epoch": 0.46431090874110176,
      "loss": 1.3807734251022339,
      "loss_ce": 0.004308619536459446,
      "loss_iou": 0.60546875,
      "loss_num": 0.033203125,
      "loss_xval": 1.375,
      "num_input_tokens_seen": 228678904,
      "step": 1810
    },
    {
      "epoch": 0.46456743410504714,
      "grad_norm": 50.47077560424805,
      "learning_rate": 5e-06,
      "loss": 1.0327,
      "num_input_tokens_seen": 228805080,
      "step": 1811
    },
    {
      "epoch": 0.46456743410504714,
      "loss": 0.9544177651405334,
      "loss_ce": 0.0017810547724366188,
      "loss_iou": 0.4375,
      "loss_num": 0.01513671875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 228805080,
      "step": 1811
    },
    {
      "epoch": 0.4648239594689925,
      "grad_norm": 45.25423049926758,
      "learning_rate": 5e-06,
      "loss": 1.0238,
      "num_input_tokens_seen": 228930680,
      "step": 1812
    },
    {
      "epoch": 0.4648239594689925,
      "loss": 1.1679481267929077,
      "loss_ce": 0.0004676592070609331,
      "loss_iou": 0.54296875,
      "loss_num": 0.016845703125,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 228930680,
      "step": 1812
    },
    {
      "epoch": 0.46508048483293785,
      "grad_norm": 33.005863189697266,
      "learning_rate": 5e-06,
      "loss": 0.9474,
      "num_input_tokens_seen": 229057132,
      "step": 1813
    },
    {
      "epoch": 0.46508048483293785,
      "loss": 1.0210117101669312,
      "loss_ce": 0.0005038633826188743,
      "loss_iou": 0.470703125,
      "loss_num": 0.0159912109375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 229057132,
      "step": 1813
    },
    {
      "epoch": 0.4653370101968832,
      "grad_norm": 48.521583557128906,
      "learning_rate": 5e-06,
      "loss": 1.0525,
      "num_input_tokens_seen": 229183564,
      "step": 1814
    },
    {
      "epoch": 0.4653370101968832,
      "loss": 1.021003246307373,
      "loss_ce": 0.0009836989920586348,
      "loss_iou": 0.4609375,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 229183564,
      "step": 1814
    },
    {
      "epoch": 0.46559353556082855,
      "grad_norm": 52.33184051513672,
      "learning_rate": 5e-06,
      "loss": 1.0733,
      "num_input_tokens_seen": 229310196,
      "step": 1815
    },
    {
      "epoch": 0.46559353556082855,
      "loss": 1.217082142829895,
      "loss_ce": 0.005656345281749964,
      "loss_iou": 0.56640625,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 229310196,
      "step": 1815
    },
    {
      "epoch": 0.46585006092477393,
      "grad_norm": 77.88722229003906,
      "learning_rate": 5e-06,
      "loss": 1.0679,
      "num_input_tokens_seen": 229435928,
      "step": 1816
    },
    {
      "epoch": 0.46585006092477393,
      "loss": 1.2572338581085205,
      "loss_ce": 0.00039804953848943114,
      "loss_iou": 0.578125,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 229435928,
      "step": 1816
    },
    {
      "epoch": 0.4661065862887193,
      "grad_norm": 54.415672302246094,
      "learning_rate": 5e-06,
      "loss": 1.0738,
      "num_input_tokens_seen": 229562624,
      "step": 1817
    },
    {
      "epoch": 0.4661065862887193,
      "loss": 0.970221221446991,
      "loss_ce": 0.0004946249537169933,
      "loss_iou": 0.45703125,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 229562624,
      "step": 1817
    },
    {
      "epoch": 0.46636311165266464,
      "grad_norm": 47.427982330322266,
      "learning_rate": 5e-06,
      "loss": 1.015,
      "num_input_tokens_seen": 229688444,
      "step": 1818
    },
    {
      "epoch": 0.46636311165266464,
      "loss": 1.1745421886444092,
      "loss_ce": 0.004132051952183247,
      "loss_iou": 0.5390625,
      "loss_num": 0.017822265625,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 229688444,
      "step": 1818
    },
    {
      "epoch": 0.46661963701661,
      "grad_norm": 59.17680358886719,
      "learning_rate": 5e-06,
      "loss": 1.0897,
      "num_input_tokens_seen": 229815112,
      "step": 1819
    },
    {
      "epoch": 0.46661963701661,
      "loss": 1.2227951288223267,
      "loss_ce": 0.002580307424068451,
      "loss_iou": 0.55859375,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 229815112,
      "step": 1819
    },
    {
      "epoch": 0.4668761623805554,
      "grad_norm": 71.73004150390625,
      "learning_rate": 5e-06,
      "loss": 1.0502,
      "num_input_tokens_seen": 229939360,
      "step": 1820
    },
    {
      "epoch": 0.4668761623805554,
      "loss": 0.9030512571334839,
      "loss_ce": 0.003148975083604455,
      "loss_iou": 0.427734375,
      "loss_num": 0.0087890625,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 229939360,
      "step": 1820
    },
    {
      "epoch": 0.46713268774450073,
      "grad_norm": 50.68292236328125,
      "learning_rate": 5e-06,
      "loss": 1.1393,
      "num_input_tokens_seen": 230065904,
      "step": 1821
    },
    {
      "epoch": 0.46713268774450073,
      "loss": 1.1499302387237549,
      "loss_ce": 0.0005162759916856885,
      "loss_iou": 0.546875,
      "loss_num": 0.01141357421875,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 230065904,
      "step": 1821
    },
    {
      "epoch": 0.4673892131084461,
      "grad_norm": 25.59304428100586,
      "learning_rate": 5e-06,
      "loss": 1.0622,
      "num_input_tokens_seen": 230192408,
      "step": 1822
    },
    {
      "epoch": 0.4673892131084461,
      "loss": 1.0051422119140625,
      "loss_ce": 0.00025939734769053757,
      "loss_iou": 0.466796875,
      "loss_num": 0.01458740234375,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 230192408,
      "step": 1822
    },
    {
      "epoch": 0.46764573847239144,
      "grad_norm": 44.37813186645508,
      "learning_rate": 5e-06,
      "loss": 1.0218,
      "num_input_tokens_seen": 230318620,
      "step": 1823
    },
    {
      "epoch": 0.46764573847239144,
      "loss": 0.9911173582077026,
      "loss_ce": 0.0013712949585169554,
      "loss_iou": 0.474609375,
      "loss_num": 0.00830078125,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 230318620,
      "step": 1823
    },
    {
      "epoch": 0.4679022638363368,
      "grad_norm": 61.45755386352539,
      "learning_rate": 5e-06,
      "loss": 1.0956,
      "num_input_tokens_seen": 230444432,
      "step": 1824
    },
    {
      "epoch": 0.4679022638363368,
      "loss": 0.9432532787322998,
      "loss_ce": 0.0003821811988018453,
      "loss_iou": 0.447265625,
      "loss_num": 0.009765625,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 230444432,
      "step": 1824
    },
    {
      "epoch": 0.4681587892002822,
      "grad_norm": 58.02901077270508,
      "learning_rate": 5e-06,
      "loss": 1.0768,
      "num_input_tokens_seen": 230570904,
      "step": 1825
    },
    {
      "epoch": 0.4681587892002822,
      "loss": 1.2288751602172852,
      "loss_ce": 0.0018243174999952316,
      "loss_iou": 0.546875,
      "loss_num": 0.0263671875,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 230570904,
      "step": 1825
    },
    {
      "epoch": 0.4684153145642275,
      "grad_norm": 75.79741668701172,
      "learning_rate": 5e-06,
      "loss": 0.9345,
      "num_input_tokens_seen": 230696964,
      "step": 1826
    },
    {
      "epoch": 0.4684153145642275,
      "loss": 0.9910364151000977,
      "loss_ce": 0.0012903306633234024,
      "loss_iou": 0.46484375,
      "loss_num": 0.01220703125,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 230696964,
      "step": 1826
    },
    {
      "epoch": 0.4686718399281729,
      "grad_norm": 54.42466354370117,
      "learning_rate": 5e-06,
      "loss": 1.1802,
      "num_input_tokens_seen": 230823120,
      "step": 1827
    },
    {
      "epoch": 0.4686718399281729,
      "loss": 1.226477026939392,
      "loss_ce": 0.008215289562940598,
      "loss_iou": 0.5546875,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 230823120,
      "step": 1827
    },
    {
      "epoch": 0.46892836529211823,
      "grad_norm": 30.82295036315918,
      "learning_rate": 5e-06,
      "loss": 0.9543,
      "num_input_tokens_seen": 230949708,
      "step": 1828
    },
    {
      "epoch": 0.46892836529211823,
      "loss": 1.1079235076904297,
      "loss_ce": 0.003919580020010471,
      "loss_iou": 0.515625,
      "loss_num": 0.01446533203125,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 230949708,
      "step": 1828
    },
    {
      "epoch": 0.4691848906560636,
      "grad_norm": 44.75107955932617,
      "learning_rate": 5e-06,
      "loss": 1.0366,
      "num_input_tokens_seen": 231075804,
      "step": 1829
    },
    {
      "epoch": 0.4691848906560636,
      "loss": 1.149052381515503,
      "loss_ce": 0.0011031217873096466,
      "loss_iou": 0.515625,
      "loss_num": 0.0228271484375,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 231075804,
      "step": 1829
    },
    {
      "epoch": 0.469441416020009,
      "grad_norm": 67.44160461425781,
      "learning_rate": 5e-06,
      "loss": 0.9795,
      "num_input_tokens_seen": 231202088,
      "step": 1830
    },
    {
      "epoch": 0.469441416020009,
      "loss": 0.9768046140670776,
      "loss_ce": 0.00024208203831221908,
      "loss_iou": 0.466796875,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 231202088,
      "step": 1830
    },
    {
      "epoch": 0.4696979413839543,
      "grad_norm": 54.214454650878906,
      "learning_rate": 5e-06,
      "loss": 1.1204,
      "num_input_tokens_seen": 231328004,
      "step": 1831
    },
    {
      "epoch": 0.4696979413839543,
      "loss": 1.2453057765960693,
      "loss_ce": 0.0050712935626506805,
      "loss_iou": 0.56640625,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 231328004,
      "step": 1831
    },
    {
      "epoch": 0.4699544667478997,
      "grad_norm": 49.22771072387695,
      "learning_rate": 5e-06,
      "loss": 1.2341,
      "num_input_tokens_seen": 231454460,
      "step": 1832
    },
    {
      "epoch": 0.4699544667478997,
      "loss": 1.3006293773651123,
      "loss_ce": 0.0047310153022408485,
      "loss_iou": 0.578125,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 231454460,
      "step": 1832
    },
    {
      "epoch": 0.4702109921118451,
      "grad_norm": 63.14383316040039,
      "learning_rate": 5e-06,
      "loss": 1.0533,
      "num_input_tokens_seen": 231581120,
      "step": 1833
    },
    {
      "epoch": 0.4702109921118451,
      "loss": 1.021841287612915,
      "loss_ce": 0.002798343077301979,
      "loss_iou": 0.4765625,
      "loss_num": 0.012939453125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 231581120,
      "step": 1833
    },
    {
      "epoch": 0.4704675174757904,
      "grad_norm": 66.81879425048828,
      "learning_rate": 5e-06,
      "loss": 1.1464,
      "num_input_tokens_seen": 231707140,
      "step": 1834
    },
    {
      "epoch": 0.4704675174757904,
      "loss": 1.1984933614730835,
      "loss_ce": 0.001227812608703971,
      "loss_iou": 0.546875,
      "loss_num": 0.019775390625,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 231707140,
      "step": 1834
    },
    {
      "epoch": 0.4707240428397358,
      "grad_norm": 51.97833251953125,
      "learning_rate": 5e-06,
      "loss": 1.0523,
      "num_input_tokens_seen": 231832556,
      "step": 1835
    },
    {
      "epoch": 0.4707240428397358,
      "loss": 0.9346357583999634,
      "loss_ce": 0.001041956478729844,
      "loss_iou": 0.44921875,
      "loss_num": 0.00750732421875,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 231832556,
      "step": 1835
    },
    {
      "epoch": 0.4709805682036811,
      "grad_norm": 43.52521896362305,
      "learning_rate": 5e-06,
      "loss": 1.2287,
      "num_input_tokens_seen": 231958360,
      "step": 1836
    },
    {
      "epoch": 0.4709805682036811,
      "loss": 1.0660685300827026,
      "loss_ce": 0.00015054289542604238,
      "loss_iou": 0.5078125,
      "loss_num": 0.01055908203125,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 231958360,
      "step": 1836
    },
    {
      "epoch": 0.4712370935676265,
      "grad_norm": 41.290470123291016,
      "learning_rate": 5e-06,
      "loss": 1.0521,
      "num_input_tokens_seen": 232084084,
      "step": 1837
    },
    {
      "epoch": 0.4712370935676265,
      "loss": 1.0947554111480713,
      "loss_ce": 0.01077099796384573,
      "loss_iou": 0.5078125,
      "loss_num": 0.01422119140625,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 232084084,
      "step": 1837
    },
    {
      "epoch": 0.4714936189315719,
      "grad_norm": 47.83306121826172,
      "learning_rate": 5e-06,
      "loss": 1.0932,
      "num_input_tokens_seen": 232211160,
      "step": 1838
    },
    {
      "epoch": 0.4714936189315719,
      "loss": 1.3389394283294678,
      "loss_ce": 0.0034902358893305063,
      "loss_iou": 0.5859375,
      "loss_num": 0.032958984375,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 232211160,
      "step": 1838
    },
    {
      "epoch": 0.4717501442955172,
      "grad_norm": 51.278358459472656,
      "learning_rate": 5e-06,
      "loss": 1.0171,
      "num_input_tokens_seen": 232337616,
      "step": 1839
    },
    {
      "epoch": 0.4717501442955172,
      "loss": 1.1149177551269531,
      "loss_ce": 0.007495948113501072,
      "loss_iou": 0.51171875,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 232337616,
      "step": 1839
    },
    {
      "epoch": 0.4720066696594626,
      "grad_norm": 55.204227447509766,
      "learning_rate": 5e-06,
      "loss": 0.9838,
      "num_input_tokens_seen": 232463500,
      "step": 1840
    },
    {
      "epoch": 0.4720066696594626,
      "loss": 0.958401083946228,
      "loss_ce": 0.005764373578131199,
      "loss_iou": 0.44921875,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 232463500,
      "step": 1840
    },
    {
      "epoch": 0.47226319502340797,
      "grad_norm": 59.67417526245117,
      "learning_rate": 5e-06,
      "loss": 1.0707,
      "num_input_tokens_seen": 232589756,
      "step": 1841
    },
    {
      "epoch": 0.47226319502340797,
      "loss": 0.9808272123336792,
      "loss_ce": 0.00035839201882481575,
      "loss_iou": 0.45703125,
      "loss_num": 0.01275634765625,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 232589756,
      "step": 1841
    },
    {
      "epoch": 0.4725197203873533,
      "grad_norm": 62.38352966308594,
      "learning_rate": 5e-06,
      "loss": 1.1771,
      "num_input_tokens_seen": 232716344,
      "step": 1842
    },
    {
      "epoch": 0.4725197203873533,
      "loss": 1.3608180284500122,
      "loss_ce": 0.0029079453088343143,
      "loss_iou": 0.62890625,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 232716344,
      "step": 1842
    },
    {
      "epoch": 0.4727762457512987,
      "grad_norm": 41.38759231567383,
      "learning_rate": 5e-06,
      "loss": 1.153,
      "num_input_tokens_seen": 232842324,
      "step": 1843
    },
    {
      "epoch": 0.4727762457512987,
      "loss": 1.125563621520996,
      "loss_ce": 0.0030050266068428755,
      "loss_iou": 0.51953125,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 232842324,
      "step": 1843
    },
    {
      "epoch": 0.473032771115244,
      "grad_norm": 46.98886489868164,
      "learning_rate": 5e-06,
      "loss": 1.0847,
      "num_input_tokens_seen": 232969524,
      "step": 1844
    },
    {
      "epoch": 0.473032771115244,
      "loss": 1.0844138860702515,
      "loss_ce": 0.0009177774772979319,
      "loss_iou": 0.51171875,
      "loss_num": 0.01239013671875,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 232969524,
      "step": 1844
    },
    {
      "epoch": 0.4732892964791894,
      "grad_norm": 51.617313385009766,
      "learning_rate": 5e-06,
      "loss": 1.1123,
      "num_input_tokens_seen": 233095848,
      "step": 1845
    },
    {
      "epoch": 0.4732892964791894,
      "loss": 1.156531572341919,
      "loss_ce": 0.003211225150153041,
      "loss_iou": 0.5078125,
      "loss_num": 0.0274658203125,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 233095848,
      "step": 1845
    },
    {
      "epoch": 0.47354582184313476,
      "grad_norm": 42.13440704345703,
      "learning_rate": 5e-06,
      "loss": 1.009,
      "num_input_tokens_seen": 233221696,
      "step": 1846
    },
    {
      "epoch": 0.47354582184313476,
      "loss": 1.0593225955963135,
      "loss_ce": 0.0012170892441645265,
      "loss_iou": 0.482421875,
      "loss_num": 0.0184326171875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 233221696,
      "step": 1846
    },
    {
      "epoch": 0.4738023472070801,
      "grad_norm": 41.52468490600586,
      "learning_rate": 5e-06,
      "loss": 1.1316,
      "num_input_tokens_seen": 233347744,
      "step": 1847
    },
    {
      "epoch": 0.4738023472070801,
      "loss": 1.277927279472351,
      "loss_ce": 0.000583487271796912,
      "loss_iou": 0.55859375,
      "loss_num": 0.031494140625,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 233347744,
      "step": 1847
    },
    {
      "epoch": 0.47405887257102547,
      "grad_norm": 61.751182556152344,
      "learning_rate": 5e-06,
      "loss": 1.1525,
      "num_input_tokens_seen": 233474124,
      "step": 1848
    },
    {
      "epoch": 0.47405887257102547,
      "loss": 1.232661485671997,
      "loss_ce": 0.0007280077552422881,
      "loss_iou": 0.53125,
      "loss_num": 0.033203125,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 233474124,
      "step": 1848
    },
    {
      "epoch": 0.4743153979349708,
      "grad_norm": 49.26096725463867,
      "learning_rate": 5e-06,
      "loss": 1.0396,
      "num_input_tokens_seen": 233599284,
      "step": 1849
    },
    {
      "epoch": 0.4743153979349708,
      "loss": 0.8932523727416992,
      "loss_ce": 0.003115639090538025,
      "loss_iou": 0.419921875,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 233599284,
      "step": 1849
    },
    {
      "epoch": 0.4745719232989162,
      "grad_norm": 54.866111755371094,
      "learning_rate": 5e-06,
      "loss": 0.9719,
      "num_input_tokens_seen": 233725764,
      "step": 1850
    },
    {
      "epoch": 0.4745719232989162,
      "loss": 1.1756889820098877,
      "loss_ce": 0.00039602600736543536,
      "loss_iou": 0.53125,
      "loss_num": 0.023193359375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 233725764,
      "step": 1850
    },
    {
      "epoch": 0.47482844866286156,
      "grad_norm": 55.81576156616211,
      "learning_rate": 5e-06,
      "loss": 1.0897,
      "num_input_tokens_seen": 233851700,
      "step": 1851
    },
    {
      "epoch": 0.47482844866286156,
      "loss": 1.1065967082977295,
      "loss_ce": 0.0030810441821813583,
      "loss_iou": 0.5,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 233851700,
      "step": 1851
    },
    {
      "epoch": 0.4750849740268069,
      "grad_norm": 53.458316802978516,
      "learning_rate": 5e-06,
      "loss": 1.0422,
      "num_input_tokens_seen": 233976692,
      "step": 1852
    },
    {
      "epoch": 0.4750849740268069,
      "loss": 1.0994961261749268,
      "loss_ce": 0.0008633886463940144,
      "loss_iou": 0.50390625,
      "loss_num": 0.01806640625,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 233976692,
      "step": 1852
    },
    {
      "epoch": 0.47534149939075226,
      "grad_norm": 60.9434700012207,
      "learning_rate": 5e-06,
      "loss": 1.0962,
      "num_input_tokens_seen": 234104036,
      "step": 1853
    },
    {
      "epoch": 0.47534149939075226,
      "loss": 0.759556233882904,
      "loss_ce": 0.0002788786659948528,
      "loss_iou": 0.36328125,
      "loss_num": 0.0064697265625,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 234104036,
      "step": 1853
    },
    {
      "epoch": 0.47559802475469765,
      "grad_norm": 79.00504302978516,
      "learning_rate": 5e-06,
      "loss": 1.0278,
      "num_input_tokens_seen": 234231608,
      "step": 1854
    },
    {
      "epoch": 0.47559802475469765,
      "loss": 0.9622482657432556,
      "loss_ce": 0.0008225020137615502,
      "loss_iou": 0.462890625,
      "loss_num": 0.0072021484375,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 234231608,
      "step": 1854
    },
    {
      "epoch": 0.47585455011864297,
      "grad_norm": 52.6122932434082,
      "learning_rate": 5e-06,
      "loss": 1.2521,
      "num_input_tokens_seen": 234358460,
      "step": 1855
    },
    {
      "epoch": 0.47585455011864297,
      "loss": 1.176763892173767,
      "loss_ce": 0.00293576717376709,
      "loss_iou": 0.546875,
      "loss_num": 0.0166015625,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 234358460,
      "step": 1855
    },
    {
      "epoch": 0.47611107548258835,
      "grad_norm": 38.009159088134766,
      "learning_rate": 5e-06,
      "loss": 0.9668,
      "num_input_tokens_seen": 234483944,
      "step": 1856
    },
    {
      "epoch": 0.47611107548258835,
      "loss": 0.9314765930175781,
      "loss_ce": 0.0032539386302232742,
      "loss_iou": 0.44140625,
      "loss_num": 0.00927734375,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 234483944,
      "step": 1856
    },
    {
      "epoch": 0.4763676008465337,
      "grad_norm": 22.449817657470703,
      "learning_rate": 5e-06,
      "loss": 1.0164,
      "num_input_tokens_seen": 234609360,
      "step": 1857
    },
    {
      "epoch": 0.4763676008465337,
      "loss": 1.0683443546295166,
      "loss_ce": 0.0024264566600322723,
      "loss_iou": 0.48046875,
      "loss_num": 0.021240234375,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 234609360,
      "step": 1857
    },
    {
      "epoch": 0.47662412621047906,
      "grad_norm": 27.350948333740234,
      "learning_rate": 5e-06,
      "loss": 0.9773,
      "num_input_tokens_seen": 234735864,
      "step": 1858
    },
    {
      "epoch": 0.47662412621047906,
      "loss": 0.936783492565155,
      "loss_ce": 0.001236609765328467,
      "loss_iou": 0.435546875,
      "loss_num": 0.01312255859375,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 234735864,
      "step": 1858
    },
    {
      "epoch": 0.47688065157442444,
      "grad_norm": 44.44437026977539,
      "learning_rate": 5e-06,
      "loss": 1.0785,
      "num_input_tokens_seen": 234862092,
      "step": 1859
    },
    {
      "epoch": 0.47688065157442444,
      "loss": 1.0489864349365234,
      "loss_ce": 0.00015830481424927711,
      "loss_iou": 0.5,
      "loss_num": 0.009765625,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 234862092,
      "step": 1859
    },
    {
      "epoch": 0.47713717693836977,
      "grad_norm": 56.8334846496582,
      "learning_rate": 5e-06,
      "loss": 0.992,
      "num_input_tokens_seen": 234988180,
      "step": 1860
    },
    {
      "epoch": 0.47713717693836977,
      "loss": 0.7944924235343933,
      "loss_ce": 0.0015236863400787115,
      "loss_iou": 0.37890625,
      "loss_num": 0.00653076171875,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 234988180,
      "step": 1860
    },
    {
      "epoch": 0.47739370230231515,
      "grad_norm": 53.719661712646484,
      "learning_rate": 5e-06,
      "loss": 1.0994,
      "num_input_tokens_seen": 235114612,
      "step": 1861
    },
    {
      "epoch": 0.47739370230231515,
      "loss": 1.049461007118225,
      "loss_ce": 0.003074211999773979,
      "loss_iou": 0.4765625,
      "loss_num": 0.0184326171875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 235114612,
      "step": 1861
    },
    {
      "epoch": 0.4776502276662605,
      "grad_norm": 53.761531829833984,
      "learning_rate": 5e-06,
      "loss": 1.1625,
      "num_input_tokens_seen": 235241120,
      "step": 1862
    },
    {
      "epoch": 0.4776502276662605,
      "loss": 1.1055303812026978,
      "loss_ce": 0.000549982360098511,
      "loss_iou": 0.5234375,
      "loss_num": 0.01226806640625,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 235241120,
      "step": 1862
    },
    {
      "epoch": 0.47790675303020586,
      "grad_norm": 44.110374450683594,
      "learning_rate": 5e-06,
      "loss": 1.0769,
      "num_input_tokens_seen": 235366052,
      "step": 1863
    },
    {
      "epoch": 0.47790675303020586,
      "loss": 1.1106672286987305,
      "loss_ce": 0.002268758602440357,
      "loss_iou": 0.50390625,
      "loss_num": 0.019775390625,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 235366052,
      "step": 1863
    },
    {
      "epoch": 0.47816327839415124,
      "grad_norm": 82.33657836914062,
      "learning_rate": 5e-06,
      "loss": 1.1181,
      "num_input_tokens_seen": 235493580,
      "step": 1864
    },
    {
      "epoch": 0.47816327839415124,
      "loss": 1.0870929956436157,
      "loss_ce": 0.0026203382294625044,
      "loss_iou": 0.498046875,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 235493580,
      "step": 1864
    },
    {
      "epoch": 0.47841980375809656,
      "grad_norm": 55.99766159057617,
      "learning_rate": 5e-06,
      "loss": 1.2019,
      "num_input_tokens_seen": 235620068,
      "step": 1865
    },
    {
      "epoch": 0.47841980375809656,
      "loss": 1.2227039337158203,
      "loss_ce": 0.0005359695060178638,
      "loss_iou": 0.55859375,
      "loss_num": 0.0205078125,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 235620068,
      "step": 1865
    },
    {
      "epoch": 0.47867632912204194,
      "grad_norm": 35.03327941894531,
      "learning_rate": 5e-06,
      "loss": 0.965,
      "num_input_tokens_seen": 235746940,
      "step": 1866
    },
    {
      "epoch": 0.47867632912204194,
      "loss": 0.976115882396698,
      "loss_ce": 0.0005299156182445586,
      "loss_iou": 0.45703125,
      "loss_num": 0.0123291015625,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 235746940,
      "step": 1866
    },
    {
      "epoch": 0.4789328544859873,
      "grad_norm": 55.970909118652344,
      "learning_rate": 5e-06,
      "loss": 1.1718,
      "num_input_tokens_seen": 235871804,
      "step": 1867
    },
    {
      "epoch": 0.4789328544859873,
      "loss": 1.2108590602874756,
      "loss_ce": 0.005292641930282116,
      "loss_iou": 0.53125,
      "loss_num": 0.028076171875,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 235871804,
      "step": 1867
    },
    {
      "epoch": 0.47918937984993265,
      "grad_norm": 53.1323127746582,
      "learning_rate": 5e-06,
      "loss": 1.1684,
      "num_input_tokens_seen": 235998332,
      "step": 1868
    },
    {
      "epoch": 0.47918937984993265,
      "loss": 1.0838267803192139,
      "loss_ce": 0.00033065187744796276,
      "loss_iou": 0.51171875,
      "loss_num": 0.01251220703125,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 235998332,
      "step": 1868
    },
    {
      "epoch": 0.47944590521387803,
      "grad_norm": 59.278907775878906,
      "learning_rate": 5e-06,
      "loss": 1.1133,
      "num_input_tokens_seen": 236124304,
      "step": 1869
    },
    {
      "epoch": 0.47944590521387803,
      "loss": 1.0977363586425781,
      "loss_ce": 0.0015449493657797575,
      "loss_iou": 0.515625,
      "loss_num": 0.01214599609375,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 236124304,
      "step": 1869
    },
    {
      "epoch": 0.47970243057782336,
      "grad_norm": 60.19270324707031,
      "learning_rate": 5e-06,
      "loss": 1.0155,
      "num_input_tokens_seen": 236250676,
      "step": 1870
    },
    {
      "epoch": 0.47970243057782336,
      "loss": 0.9597852230072021,
      "loss_ce": 0.00031253372435458004,
      "loss_iou": 0.453125,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 236250676,
      "step": 1870
    },
    {
      "epoch": 0.47995895594176874,
      "grad_norm": 64.63227081298828,
      "learning_rate": 5e-06,
      "loss": 0.9604,
      "num_input_tokens_seen": 236377044,
      "step": 1871
    },
    {
      "epoch": 0.47995895594176874,
      "loss": 0.976029634475708,
      "loss_ce": 0.001908586942590773,
      "loss_iou": 0.4609375,
      "loss_num": 0.01092529296875,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 236377044,
      "step": 1871
    },
    {
      "epoch": 0.4802154813057141,
      "grad_norm": 51.903472900390625,
      "learning_rate": 5e-06,
      "loss": 1.2089,
      "num_input_tokens_seen": 236503152,
      "step": 1872
    },
    {
      "epoch": 0.4802154813057141,
      "loss": 1.1109833717346191,
      "loss_ce": 0.001120112370699644,
      "loss_iou": 0.51171875,
      "loss_num": 0.017578125,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 236503152,
      "step": 1872
    },
    {
      "epoch": 0.48047200666965945,
      "grad_norm": 25.02709197998047,
      "learning_rate": 5e-06,
      "loss": 1.1047,
      "num_input_tokens_seen": 236629256,
      "step": 1873
    },
    {
      "epoch": 0.48047200666965945,
      "loss": 1.372812271118164,
      "loss_ce": 0.002206725999712944,
      "loss_iou": 0.59375,
      "loss_num": 0.0361328125,
      "loss_xval": 1.3671875,
      "num_input_tokens_seen": 236629256,
      "step": 1873
    },
    {
      "epoch": 0.4807285320336048,
      "grad_norm": 48.01439666748047,
      "learning_rate": 5e-06,
      "loss": 1.068,
      "num_input_tokens_seen": 236756556,
      "step": 1874
    },
    {
      "epoch": 0.4807285320336048,
      "loss": 0.8949036002159119,
      "loss_ce": 0.0015931021189317107,
      "loss_iou": 0.40625,
      "loss_num": 0.0164794921875,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 236756556,
      "step": 1874
    },
    {
      "epoch": 0.4809850573975502,
      "grad_norm": 71.54195404052734,
      "learning_rate": 5e-06,
      "loss": 1.2173,
      "num_input_tokens_seen": 236882456,
      "step": 1875
    },
    {
      "epoch": 0.4809850573975502,
      "loss": 1.2417643070220947,
      "loss_ce": 0.0005534248193725944,
      "loss_iou": 0.57421875,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 236882456,
      "step": 1875
    },
    {
      "epoch": 0.48124158276149553,
      "grad_norm": 52.565513610839844,
      "learning_rate": 5e-06,
      "loss": 1.0693,
      "num_input_tokens_seen": 237009136,
      "step": 1876
    },
    {
      "epoch": 0.48124158276149553,
      "loss": 1.1341297626495361,
      "loss_ce": 0.0008288930985145271,
      "loss_iou": 0.5234375,
      "loss_num": 0.0167236328125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 237009136,
      "step": 1876
    },
    {
      "epoch": 0.4814981081254409,
      "grad_norm": 60.84006881713867,
      "learning_rate": 5e-06,
      "loss": 1.0085,
      "num_input_tokens_seen": 237134704,
      "step": 1877
    },
    {
      "epoch": 0.4814981081254409,
      "loss": 1.101927638053894,
      "loss_ce": 0.001341680996119976,
      "loss_iou": 0.51953125,
      "loss_num": 0.01239013671875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 237134704,
      "step": 1877
    },
    {
      "epoch": 0.48175463348938624,
      "grad_norm": 70.73104095458984,
      "learning_rate": 5e-06,
      "loss": 1.1226,
      "num_input_tokens_seen": 237261744,
      "step": 1878
    },
    {
      "epoch": 0.48175463348938624,
      "loss": 1.0556471347808838,
      "loss_ce": 0.0009597218595445156,
      "loss_iou": 0.48046875,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 237261744,
      "step": 1878
    },
    {
      "epoch": 0.4820111588533316,
      "grad_norm": 139.2970428466797,
      "learning_rate": 5e-06,
      "loss": 1.118,
      "num_input_tokens_seen": 237387336,
      "step": 1879
    },
    {
      "epoch": 0.4820111588533316,
      "loss": 0.9689565896987915,
      "loss_ce": 0.0011831226292997599,
      "loss_iou": 0.4453125,
      "loss_num": 0.0155029296875,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 237387336,
      "step": 1879
    },
    {
      "epoch": 0.482267684217277,
      "grad_norm": 58.858097076416016,
      "learning_rate": 5e-06,
      "loss": 1.0366,
      "num_input_tokens_seen": 237514116,
      "step": 1880
    },
    {
      "epoch": 0.482267684217277,
      "loss": 1.0484997034072876,
      "loss_ce": 0.0011364114470779896,
      "loss_iou": 0.498046875,
      "loss_num": 0.01055908203125,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 237514116,
      "step": 1880
    },
    {
      "epoch": 0.48252420958122233,
      "grad_norm": 66.9983139038086,
      "learning_rate": 5e-06,
      "loss": 1.0154,
      "num_input_tokens_seen": 237640164,
      "step": 1881
    },
    {
      "epoch": 0.48252420958122233,
      "loss": 1.135200023651123,
      "loss_ce": 0.004340624436736107,
      "loss_iou": 0.51171875,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 237640164,
      "step": 1881
    },
    {
      "epoch": 0.4827807349451677,
      "grad_norm": 59.058406829833984,
      "learning_rate": 5e-06,
      "loss": 1.0876,
      "num_input_tokens_seen": 237767264,
      "step": 1882
    },
    {
      "epoch": 0.4827807349451677,
      "loss": 1.0047439336776733,
      "loss_ce": 0.00034939180477522314,
      "loss_iou": 0.462890625,
      "loss_num": 0.01611328125,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 237767264,
      "step": 1882
    },
    {
      "epoch": 0.48303726030911304,
      "grad_norm": 52.37096405029297,
      "learning_rate": 5e-06,
      "loss": 1.0031,
      "num_input_tokens_seen": 237893136,
      "step": 1883
    },
    {
      "epoch": 0.48303726030911304,
      "loss": 0.8908854722976685,
      "loss_ce": 0.0007487627444788814,
      "loss_iou": 0.416015625,
      "loss_num": 0.01141357421875,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 237893136,
      "step": 1883
    },
    {
      "epoch": 0.4832937856730584,
      "grad_norm": 38.4356803894043,
      "learning_rate": 5e-06,
      "loss": 1.0872,
      "num_input_tokens_seen": 238019616,
      "step": 1884
    },
    {
      "epoch": 0.4832937856730584,
      "loss": 0.9420380592346191,
      "loss_ce": 0.00014353601727634668,
      "loss_iou": 0.4453125,
      "loss_num": 0.00982666015625,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 238019616,
      "step": 1884
    },
    {
      "epoch": 0.4835503110370038,
      "grad_norm": 29.950969696044922,
      "learning_rate": 5e-06,
      "loss": 1.0012,
      "num_input_tokens_seen": 238146228,
      "step": 1885
    },
    {
      "epoch": 0.4835503110370038,
      "loss": 1.106387972831726,
      "loss_ce": 0.0023840484209358692,
      "loss_iou": 0.5,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 238146228,
      "step": 1885
    },
    {
      "epoch": 0.4838068364009491,
      "grad_norm": 30.36648941040039,
      "learning_rate": 5e-06,
      "loss": 1.0,
      "num_input_tokens_seen": 238273048,
      "step": 1886
    },
    {
      "epoch": 0.4838068364009491,
      "loss": 1.0306766033172607,
      "loss_ce": 0.0008914822246879339,
      "loss_iou": 0.4765625,
      "loss_num": 0.0155029296875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 238273048,
      "step": 1886
    },
    {
      "epoch": 0.4840633617648945,
      "grad_norm": 32.554683685302734,
      "learning_rate": 5e-06,
      "loss": 0.96,
      "num_input_tokens_seen": 238399432,
      "step": 1887
    },
    {
      "epoch": 0.4840633617648945,
      "loss": 0.997307538986206,
      "loss_ce": 0.0002372346498304978,
      "loss_iou": 0.451171875,
      "loss_num": 0.0189208984375,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 238399432,
      "step": 1887
    },
    {
      "epoch": 0.4843198871288399,
      "grad_norm": 46.41300964355469,
      "learning_rate": 5e-06,
      "loss": 1.038,
      "num_input_tokens_seen": 238526732,
      "step": 1888
    },
    {
      "epoch": 0.4843198871288399,
      "loss": 0.9699275493621826,
      "loss_ce": 0.000689274980686605,
      "loss_iou": 0.458984375,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 238526732,
      "step": 1888
    },
    {
      "epoch": 0.4845764124927852,
      "grad_norm": 47.23472213745117,
      "learning_rate": 5e-06,
      "loss": 1.1663,
      "num_input_tokens_seen": 238652980,
      "step": 1889
    },
    {
      "epoch": 0.4845764124927852,
      "loss": 1.067474603652954,
      "loss_ce": 0.0005800873041152954,
      "loss_iou": 0.50390625,
      "loss_num": 0.01123046875,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 238652980,
      "step": 1889
    },
    {
      "epoch": 0.4848329378567306,
      "grad_norm": 46.800758361816406,
      "learning_rate": 5e-06,
      "loss": 1.0193,
      "num_input_tokens_seen": 238780120,
      "step": 1890
    },
    {
      "epoch": 0.4848329378567306,
      "loss": 1.0568170547485352,
      "loss_ce": 0.0060357749462127686,
      "loss_iou": 0.455078125,
      "loss_num": 0.02783203125,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 238780120,
      "step": 1890
    },
    {
      "epoch": 0.4850894632206759,
      "grad_norm": 168.80784606933594,
      "learning_rate": 5e-06,
      "loss": 1.1761,
      "num_input_tokens_seen": 238906264,
      "step": 1891
    },
    {
      "epoch": 0.4850894632206759,
      "loss": 1.2922592163085938,
      "loss_ce": 0.0007554080802947283,
      "loss_iou": 0.57421875,
      "loss_num": 0.029052734375,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 238906264,
      "step": 1891
    },
    {
      "epoch": 0.4853459885846213,
      "grad_norm": 48.32796859741211,
      "learning_rate": 5e-06,
      "loss": 1.0965,
      "num_input_tokens_seen": 239032492,
      "step": 1892
    },
    {
      "epoch": 0.4853459885846213,
      "loss": 0.9718291759490967,
      "loss_ce": 0.001614385168068111,
      "loss_iou": 0.4453125,
      "loss_num": 0.01556396484375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 239032492,
      "step": 1892
    },
    {
      "epoch": 0.4856025139485667,
      "grad_norm": 61.12211608886719,
      "learning_rate": 5e-06,
      "loss": 1.2033,
      "num_input_tokens_seen": 239160696,
      "step": 1893
    },
    {
      "epoch": 0.4856025139485667,
      "loss": 1.3243489265441895,
      "loss_ce": 0.0011068286839872599,
      "loss_iou": 0.6015625,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 239160696,
      "step": 1893
    },
    {
      "epoch": 0.485859039312512,
      "grad_norm": 45.77940368652344,
      "learning_rate": 5e-06,
      "loss": 1.1886,
      "num_input_tokens_seen": 239287788,
      "step": 1894
    },
    {
      "epoch": 0.485859039312512,
      "loss": 1.2442501783370972,
      "loss_ce": 0.002550952835008502,
      "loss_iou": 0.53515625,
      "loss_num": 0.0341796875,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 239287788,
      "step": 1894
    },
    {
      "epoch": 0.4861155646764574,
      "grad_norm": 51.95181655883789,
      "learning_rate": 5e-06,
      "loss": 1.0302,
      "num_input_tokens_seen": 239413596,
      "step": 1895
    },
    {
      "epoch": 0.4861155646764574,
      "loss": 0.7887698411941528,
      "loss_ce": 0.00019564021204132587,
      "loss_iou": 0.373046875,
      "loss_num": 0.0087890625,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 239413596,
      "step": 1895
    },
    {
      "epoch": 0.48637209004040277,
      "grad_norm": 43.61397933959961,
      "learning_rate": 5e-06,
      "loss": 1.007,
      "num_input_tokens_seen": 239540156,
      "step": 1896
    },
    {
      "epoch": 0.48637209004040277,
      "loss": 1.2286834716796875,
      "loss_ce": 0.0030975178815424442,
      "loss_iou": 0.546875,
      "loss_num": 0.02685546875,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 239540156,
      "step": 1896
    },
    {
      "epoch": 0.4866286154043481,
      "grad_norm": 52.75824737548828,
      "learning_rate": 5e-06,
      "loss": 1.1015,
      "num_input_tokens_seen": 239666032,
      "step": 1897
    },
    {
      "epoch": 0.4866286154043481,
      "loss": 1.1054308414459229,
      "loss_ce": 0.002403511665761471,
      "loss_iou": 0.50390625,
      "loss_num": 0.019287109375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 239666032,
      "step": 1897
    },
    {
      "epoch": 0.4868851407682935,
      "grad_norm": 57.324928283691406,
      "learning_rate": 5e-06,
      "loss": 1.062,
      "num_input_tokens_seen": 239792308,
      "step": 1898
    },
    {
      "epoch": 0.4868851407682935,
      "loss": 1.2887264490127563,
      "loss_ce": 0.0006405143649317324,
      "loss_iou": 0.5859375,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 239792308,
      "step": 1898
    },
    {
      "epoch": 0.4871416661322388,
      "grad_norm": 77.41126251220703,
      "learning_rate": 5e-06,
      "loss": 0.9484,
      "num_input_tokens_seen": 239916732,
      "step": 1899
    },
    {
      "epoch": 0.4871416661322388,
      "loss": 0.9497479200363159,
      "loss_ce": 0.001017415663227439,
      "loss_iou": 0.4453125,
      "loss_num": 0.01214599609375,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 239916732,
      "step": 1899
    },
    {
      "epoch": 0.4873981914961842,
      "grad_norm": 58.17295837402344,
      "learning_rate": 5e-06,
      "loss": 1.0024,
      "num_input_tokens_seen": 240045076,
      "step": 1900
    },
    {
      "epoch": 0.4873981914961842,
      "loss": 1.1280183792114258,
      "loss_ce": 8.872879698174074e-05,
      "loss_iou": 0.5234375,
      "loss_num": 0.015380859375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 240045076,
      "step": 1900
    },
    {
      "epoch": 0.48765471686012957,
      "grad_norm": 72.91365814208984,
      "learning_rate": 5e-06,
      "loss": 1.1073,
      "num_input_tokens_seen": 240172200,
      "step": 1901
    },
    {
      "epoch": 0.48765471686012957,
      "loss": 1.1327826976776123,
      "loss_ce": 0.0009467414347454906,
      "loss_iou": 0.51953125,
      "loss_num": 0.017822265625,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 240172200,
      "step": 1901
    },
    {
      "epoch": 0.4879112422240749,
      "grad_norm": 75.48278045654297,
      "learning_rate": 5e-06,
      "loss": 1.1224,
      "num_input_tokens_seen": 240299100,
      "step": 1902
    },
    {
      "epoch": 0.4879112422240749,
      "loss": 1.176438808441162,
      "loss_ce": 0.0021223644725978374,
      "loss_iou": 0.52734375,
      "loss_num": 0.023681640625,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 240299100,
      "step": 1902
    },
    {
      "epoch": 0.4881677675880203,
      "grad_norm": 58.2747917175293,
      "learning_rate": 5e-06,
      "loss": 1.0731,
      "num_input_tokens_seen": 240425316,
      "step": 1903
    },
    {
      "epoch": 0.4881677675880203,
      "loss": 1.0705647468566895,
      "loss_ce": 0.0017169974744319916,
      "loss_iou": 0.490234375,
      "loss_num": 0.017822265625,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 240425316,
      "step": 1903
    },
    {
      "epoch": 0.4884242929519656,
      "grad_norm": 60.074546813964844,
      "learning_rate": 5e-06,
      "loss": 1.1667,
      "num_input_tokens_seen": 240551224,
      "step": 1904
    },
    {
      "epoch": 0.4884242929519656,
      "loss": 1.3216359615325928,
      "loss_ce": 0.0037648866418749094,
      "loss_iou": 0.609375,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 240551224,
      "step": 1904
    },
    {
      "epoch": 0.488680818315911,
      "grad_norm": 52.134796142578125,
      "learning_rate": 5e-06,
      "loss": 1.108,
      "num_input_tokens_seen": 240677508,
      "step": 1905
    },
    {
      "epoch": 0.488680818315911,
      "loss": 1.3853974342346191,
      "loss_ce": 0.003073247615247965,
      "loss_iou": 0.609375,
      "loss_num": 0.0322265625,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 240677508,
      "step": 1905
    },
    {
      "epoch": 0.48893734367985636,
      "grad_norm": 50.12730026245117,
      "learning_rate": 5e-06,
      "loss": 1.1389,
      "num_input_tokens_seen": 240803884,
      "step": 1906
    },
    {
      "epoch": 0.48893734367985636,
      "loss": 1.1074507236480713,
      "loss_ce": 0.001005438156425953,
      "loss_iou": 0.5078125,
      "loss_num": 0.0177001953125,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 240803884,
      "step": 1906
    },
    {
      "epoch": 0.4891938690438017,
      "grad_norm": 51.152069091796875,
      "learning_rate": 5e-06,
      "loss": 0.9208,
      "num_input_tokens_seen": 240929660,
      "step": 1907
    },
    {
      "epoch": 0.4891938690438017,
      "loss": 0.9798082113265991,
      "loss_ce": 0.0027573721017688513,
      "loss_iou": 0.4453125,
      "loss_num": 0.017333984375,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 240929660,
      "step": 1907
    },
    {
      "epoch": 0.48945039440774707,
      "grad_norm": 66.84367370605469,
      "learning_rate": 5e-06,
      "loss": 0.9741,
      "num_input_tokens_seen": 241057232,
      "step": 1908
    },
    {
      "epoch": 0.48945039440774707,
      "loss": 0.9712358117103577,
      "loss_ce": 0.0005326881073415279,
      "loss_iou": 0.462890625,
      "loss_num": 0.0086669921875,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 241057232,
      "step": 1908
    },
    {
      "epoch": 0.48970691977169245,
      "grad_norm": 68.10382843017578,
      "learning_rate": 5e-06,
      "loss": 1.1106,
      "num_input_tokens_seen": 241184000,
      "step": 1909
    },
    {
      "epoch": 0.48970691977169245,
      "loss": 1.1017725467681885,
      "loss_ce": 0.0006984078790992498,
      "loss_iou": 0.5078125,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 241184000,
      "step": 1909
    },
    {
      "epoch": 0.4899634451356378,
      "grad_norm": 63.288082122802734,
      "learning_rate": 5e-06,
      "loss": 1.0852,
      "num_input_tokens_seen": 241310628,
      "step": 1910
    },
    {
      "epoch": 0.4899634451356378,
      "loss": 0.9879711866378784,
      "loss_ce": 0.0031079333275556564,
      "loss_iou": 0.44921875,
      "loss_num": 0.017333984375,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 241310628,
      "step": 1910
    },
    {
      "epoch": 0.49021997049958316,
      "grad_norm": 57.59235382080078,
      "learning_rate": 5e-06,
      "loss": 1.0478,
      "num_input_tokens_seen": 241437444,
      "step": 1911
    },
    {
      "epoch": 0.49021997049958316,
      "loss": 1.233176827430725,
      "loss_ce": 0.003684642491862178,
      "loss_iou": 0.56640625,
      "loss_num": 0.018798828125,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 241437444,
      "step": 1911
    },
    {
      "epoch": 0.4904764958635285,
      "grad_norm": 45.789493560791016,
      "learning_rate": 5e-06,
      "loss": 0.967,
      "num_input_tokens_seen": 241563168,
      "step": 1912
    },
    {
      "epoch": 0.4904764958635285,
      "loss": 0.9186408519744873,
      "loss_ce": 0.0011604165192693472,
      "loss_iou": 0.43359375,
      "loss_num": 0.01025390625,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 241563168,
      "step": 1912
    },
    {
      "epoch": 0.49073302122747386,
      "grad_norm": 19.271467208862305,
      "learning_rate": 5e-06,
      "loss": 0.986,
      "num_input_tokens_seen": 241689256,
      "step": 1913
    },
    {
      "epoch": 0.49073302122747386,
      "loss": 0.9275004863739014,
      "loss_ce": 0.000254409562330693,
      "loss_iou": 0.4453125,
      "loss_num": 0.00726318359375,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 241689256,
      "step": 1913
    },
    {
      "epoch": 0.49098954659141925,
      "grad_norm": 38.08987045288086,
      "learning_rate": 5e-06,
      "loss": 1.0499,
      "num_input_tokens_seen": 241815580,
      "step": 1914
    },
    {
      "epoch": 0.49098954659141925,
      "loss": 1.1820391416549683,
      "loss_ce": 0.00039859546814113855,
      "loss_iou": 0.53125,
      "loss_num": 0.02392578125,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 241815580,
      "step": 1914
    },
    {
      "epoch": 0.49124607195536457,
      "grad_norm": 38.861270904541016,
      "learning_rate": 5e-06,
      "loss": 0.9547,
      "num_input_tokens_seen": 241942024,
      "step": 1915
    },
    {
      "epoch": 0.49124607195536457,
      "loss": 0.9469727873802185,
      "loss_ce": 0.0006837384426034987,
      "loss_iou": 0.44140625,
      "loss_num": 0.0126953125,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 241942024,
      "step": 1915
    },
    {
      "epoch": 0.49150259731930995,
      "grad_norm": 51.583961486816406,
      "learning_rate": 5e-06,
      "loss": 1.0277,
      "num_input_tokens_seen": 242068244,
      "step": 1916
    },
    {
      "epoch": 0.49150259731930995,
      "loss": 0.9519945979118347,
      "loss_ce": 0.001310988562181592,
      "loss_iou": 0.43359375,
      "loss_num": 0.0169677734375,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 242068244,
      "step": 1916
    },
    {
      "epoch": 0.49175912268325533,
      "grad_norm": 49.44455337524414,
      "learning_rate": 5e-06,
      "loss": 1.0902,
      "num_input_tokens_seen": 242195124,
      "step": 1917
    },
    {
      "epoch": 0.49175912268325533,
      "loss": 1.2363417148590088,
      "loss_ce": 0.0014783935621380806,
      "loss_iou": 0.5546875,
      "loss_num": 0.025390625,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 242195124,
      "step": 1917
    },
    {
      "epoch": 0.49201564804720066,
      "grad_norm": 61.73346710205078,
      "learning_rate": 5e-06,
      "loss": 1.0024,
      "num_input_tokens_seen": 242322144,
      "step": 1918
    },
    {
      "epoch": 0.49201564804720066,
      "loss": 1.0276238918304443,
      "loss_ce": 0.002721537835896015,
      "loss_iou": 0.48046875,
      "loss_num": 0.01239013671875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 242322144,
      "step": 1918
    },
    {
      "epoch": 0.49227217341114604,
      "grad_norm": 54.37204360961914,
      "learning_rate": 5e-06,
      "loss": 1.0893,
      "num_input_tokens_seen": 242449096,
      "step": 1919
    },
    {
      "epoch": 0.49227217341114604,
      "loss": 1.2892987728118896,
      "loss_ce": 0.0021894387900829315,
      "loss_iou": 0.59375,
      "loss_num": 0.019775390625,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 242449096,
      "step": 1919
    },
    {
      "epoch": 0.49252869877509137,
      "grad_norm": 39.87238311767578,
      "learning_rate": 5e-06,
      "loss": 1.0461,
      "num_input_tokens_seen": 242576124,
      "step": 1920
    },
    {
      "epoch": 0.49252869877509137,
      "loss": 1.0162527561187744,
      "loss_ce": 0.0016043331706896424,
      "loss_iou": 0.474609375,
      "loss_num": 0.0130615234375,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 242576124,
      "step": 1920
    },
    {
      "epoch": 0.49278522413903675,
      "grad_norm": 55.316551208496094,
      "learning_rate": 5e-06,
      "loss": 0.9979,
      "num_input_tokens_seen": 242702372,
      "step": 1921
    },
    {
      "epoch": 0.49278522413903675,
      "loss": 1.0177385807037354,
      "loss_ce": 0.0011371177388355136,
      "loss_iou": 0.4765625,
      "loss_num": 0.0130615234375,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 242702372,
      "step": 1921
    },
    {
      "epoch": 0.49304174950298213,
      "grad_norm": 79.78050231933594,
      "learning_rate": 5e-06,
      "loss": 1.1642,
      "num_input_tokens_seen": 242827564,
      "step": 1922
    },
    {
      "epoch": 0.49304174950298213,
      "loss": 1.2796180248260498,
      "loss_ce": 0.0008093510987237096,
      "loss_iou": 0.5625,
      "loss_num": 0.0302734375,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 242827564,
      "step": 1922
    },
    {
      "epoch": 0.49329827486692746,
      "grad_norm": 54.527462005615234,
      "learning_rate": 5e-06,
      "loss": 1.0974,
      "num_input_tokens_seen": 242953688,
      "step": 1923
    },
    {
      "epoch": 0.49329827486692746,
      "loss": 1.0572283267974854,
      "loss_ce": 9.932818647939712e-05,
      "loss_iou": 0.50390625,
      "loss_num": 0.01055908203125,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 242953688,
      "step": 1923
    },
    {
      "epoch": 0.49355480023087284,
      "grad_norm": 54.472049713134766,
      "learning_rate": 5e-06,
      "loss": 0.9799,
      "num_input_tokens_seen": 243079736,
      "step": 1924
    },
    {
      "epoch": 0.49355480023087284,
      "loss": 1.0056657791137695,
      "loss_ce": 0.0002946704626083374,
      "loss_iou": 0.46484375,
      "loss_num": 0.01458740234375,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 243079736,
      "step": 1924
    },
    {
      "epoch": 0.49381132559481816,
      "grad_norm": 58.619808197021484,
      "learning_rate": 5e-06,
      "loss": 1.1223,
      "num_input_tokens_seen": 243206792,
      "step": 1925
    },
    {
      "epoch": 0.49381132559481816,
      "loss": 1.0290852785110474,
      "loss_ce": 0.0002766991383396089,
      "loss_iou": 0.4765625,
      "loss_num": 0.0146484375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 243206792,
      "step": 1925
    },
    {
      "epoch": 0.49406785095876354,
      "grad_norm": 60.52656555175781,
      "learning_rate": 5e-06,
      "loss": 1.116,
      "num_input_tokens_seen": 243332240,
      "step": 1926
    },
    {
      "epoch": 0.49406785095876354,
      "loss": 1.2176557779312134,
      "loss_ce": 0.0003705949930008501,
      "loss_iou": 0.546875,
      "loss_num": 0.024658203125,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 243332240,
      "step": 1926
    },
    {
      "epoch": 0.4943243763227089,
      "grad_norm": 54.53802490234375,
      "learning_rate": 5e-06,
      "loss": 0.9904,
      "num_input_tokens_seen": 243458792,
      "step": 1927
    },
    {
      "epoch": 0.4943243763227089,
      "loss": 1.0238008499145508,
      "loss_ce": 0.0013399901799857616,
      "loss_iou": 0.48828125,
      "loss_num": 0.00933837890625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 243458792,
      "step": 1927
    },
    {
      "epoch": 0.49458090168665425,
      "grad_norm": 64.47735595703125,
      "learning_rate": 5e-06,
      "loss": 1.1346,
      "num_input_tokens_seen": 243584560,
      "step": 1928
    },
    {
      "epoch": 0.49458090168665425,
      "loss": 1.1117148399353027,
      "loss_ce": 0.0013632903574034572,
      "loss_iou": 0.51171875,
      "loss_num": 0.017822265625,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 243584560,
      "step": 1928
    },
    {
      "epoch": 0.49483742705059963,
      "grad_norm": 60.638912200927734,
      "learning_rate": 5e-06,
      "loss": 1.1502,
      "num_input_tokens_seen": 243712372,
      "step": 1929
    },
    {
      "epoch": 0.49483742705059963,
      "loss": 1.1220852136611938,
      "loss_ce": 0.000991495093330741,
      "loss_iou": 0.51171875,
      "loss_num": 0.02001953125,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 243712372,
      "step": 1929
    },
    {
      "epoch": 0.495093952414545,
      "grad_norm": 61.18042755126953,
      "learning_rate": 5e-06,
      "loss": 1.0612,
      "num_input_tokens_seen": 243837876,
      "step": 1930
    },
    {
      "epoch": 0.495093952414545,
      "loss": 1.0717285871505737,
      "loss_ce": 0.0019043156644329429,
      "loss_iou": 0.4921875,
      "loss_num": 0.0167236328125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 243837876,
      "step": 1930
    },
    {
      "epoch": 0.49535047777849034,
      "grad_norm": 70.23001098632812,
      "learning_rate": 5e-06,
      "loss": 1.2237,
      "num_input_tokens_seen": 243964604,
      "step": 1931
    },
    {
      "epoch": 0.49535047777849034,
      "loss": 1.2345119714736938,
      "loss_ce": 0.001601781346835196,
      "loss_iou": 0.58203125,
      "loss_num": 0.013671875,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 243964604,
      "step": 1931
    },
    {
      "epoch": 0.4956070031424357,
      "grad_norm": 60.20863723754883,
      "learning_rate": 5e-06,
      "loss": 1.0879,
      "num_input_tokens_seen": 244092140,
      "step": 1932
    },
    {
      "epoch": 0.4956070031424357,
      "loss": 0.8927797079086304,
      "loss_ce": 0.00020157046674285084,
      "loss_iou": 0.419921875,
      "loss_num": 0.0106201171875,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 244092140,
      "step": 1932
    },
    {
      "epoch": 0.49586352850638105,
      "grad_norm": 52.12117385864258,
      "learning_rate": 5e-06,
      "loss": 1.081,
      "num_input_tokens_seen": 244217368,
      "step": 1933
    },
    {
      "epoch": 0.49586352850638105,
      "loss": 1.0752372741699219,
      "loss_ce": 0.0019950554706156254,
      "loss_iou": 0.4921875,
      "loss_num": 0.017822265625,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 244217368,
      "step": 1933
    },
    {
      "epoch": 0.4961200538703264,
      "grad_norm": 46.27729415893555,
      "learning_rate": 5e-06,
      "loss": 1.1122,
      "num_input_tokens_seen": 244342860,
      "step": 1934
    },
    {
      "epoch": 0.4961200538703264,
      "loss": 1.1768549680709839,
      "loss_ce": 0.004491744097322226,
      "loss_iou": 0.5234375,
      "loss_num": 0.0257568359375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 244342860,
      "step": 1934
    },
    {
      "epoch": 0.4963765792342718,
      "grad_norm": 59.024173736572266,
      "learning_rate": 5e-06,
      "loss": 1.0329,
      "num_input_tokens_seen": 244469344,
      "step": 1935
    },
    {
      "epoch": 0.4963765792342718,
      "loss": 0.9137611389160156,
      "loss_ce": 0.0016517710173502564,
      "loss_iou": 0.423828125,
      "loss_num": 0.01275634765625,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 244469344,
      "step": 1935
    },
    {
      "epoch": 0.49663310459821713,
      "grad_norm": 91.14009094238281,
      "learning_rate": 5e-06,
      "loss": 1.1798,
      "num_input_tokens_seen": 244596636,
      "step": 1936
    },
    {
      "epoch": 0.49663310459821713,
      "loss": 1.2700226306915283,
      "loss_ce": 0.0004914518794976175,
      "loss_iou": 0.5703125,
      "loss_num": 0.0263671875,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 244596636,
      "step": 1936
    },
    {
      "epoch": 0.4968896299621625,
      "grad_norm": 56.09843826293945,
      "learning_rate": 5e-06,
      "loss": 1.1193,
      "num_input_tokens_seen": 244724028,
      "step": 1937
    },
    {
      "epoch": 0.4968896299621625,
      "loss": 1.201474905014038,
      "loss_ce": 0.0012796757509931922,
      "loss_iou": 0.55859375,
      "loss_num": 0.01611328125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 244724028,
      "step": 1937
    },
    {
      "epoch": 0.49714615532610784,
      "grad_norm": 29.887001037597656,
      "learning_rate": 5e-06,
      "loss": 1.0349,
      "num_input_tokens_seen": 244850608,
      "step": 1938
    },
    {
      "epoch": 0.49714615532610784,
      "loss": 1.0147888660430908,
      "loss_ce": 0.005511517636477947,
      "loss_iou": 0.466796875,
      "loss_num": 0.01519775390625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 244850608,
      "step": 1938
    },
    {
      "epoch": 0.4974026806900532,
      "grad_norm": 37.54344940185547,
      "learning_rate": 5e-06,
      "loss": 1.2049,
      "num_input_tokens_seen": 244976636,
      "step": 1939
    },
    {
      "epoch": 0.4974026806900532,
      "loss": 1.0757300853729248,
      "loss_ce": 0.0019996582996100187,
      "loss_iou": 0.478515625,
      "loss_num": 0.0234375,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 244976636,
      "step": 1939
    },
    {
      "epoch": 0.4976592060539986,
      "grad_norm": 50.91771697998047,
      "learning_rate": 5e-06,
      "loss": 1.1476,
      "num_input_tokens_seen": 245103236,
      "step": 1940
    },
    {
      "epoch": 0.4976592060539986,
      "loss": 0.9971590638160706,
      "loss_ce": 0.0005770362331531942,
      "loss_iou": 0.46484375,
      "loss_num": 0.013427734375,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 245103236,
      "step": 1940
    },
    {
      "epoch": 0.49791573141794393,
      "grad_norm": 41.448246002197266,
      "learning_rate": 5e-06,
      "loss": 0.9929,
      "num_input_tokens_seen": 245230184,
      "step": 1941
    },
    {
      "epoch": 0.49791573141794393,
      "loss": 0.9098992347717285,
      "loss_ce": 0.0014519400428980589,
      "loss_iou": 0.42578125,
      "loss_num": 0.01141357421875,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 245230184,
      "step": 1941
    },
    {
      "epoch": 0.4981722567818893,
      "grad_norm": 53.021358489990234,
      "learning_rate": 5e-06,
      "loss": 0.9471,
      "num_input_tokens_seen": 245355484,
      "step": 1942
    },
    {
      "epoch": 0.4981722567818893,
      "loss": 0.9286558032035828,
      "loss_ce": 0.0004331194795668125,
      "loss_iou": 0.44140625,
      "loss_num": 0.009033203125,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 245355484,
      "step": 1942
    },
    {
      "epoch": 0.4984287821458347,
      "grad_norm": 63.41948318481445,
      "learning_rate": 5e-06,
      "loss": 0.9912,
      "num_input_tokens_seen": 245482692,
      "step": 1943
    },
    {
      "epoch": 0.4984287821458347,
      "loss": 1.0374295711517334,
      "loss_ce": 0.00032016431214287877,
      "loss_iou": 0.5,
      "loss_num": 0.007476806640625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 245482692,
      "step": 1943
    },
    {
      "epoch": 0.49868530750978,
      "grad_norm": 56.867366790771484,
      "learning_rate": 5e-06,
      "loss": 0.9644,
      "num_input_tokens_seen": 245609504,
      "step": 1944
    },
    {
      "epoch": 0.49868530750978,
      "loss": 1.0545978546142578,
      "loss_ce": 0.00039873310015536845,
      "loss_iou": 0.48046875,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 245609504,
      "step": 1944
    },
    {
      "epoch": 0.4989418328737254,
      "grad_norm": 51.33348846435547,
      "learning_rate": 5e-06,
      "loss": 1.1593,
      "num_input_tokens_seen": 245735616,
      "step": 1945
    },
    {
      "epoch": 0.4989418328737254,
      "loss": 1.1304134130477905,
      "loss_ce": 0.003948523662984371,
      "loss_iou": 0.515625,
      "loss_num": 0.01953125,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 245735616,
      "step": 1945
    },
    {
      "epoch": 0.4991983582376707,
      "grad_norm": 69.12086486816406,
      "learning_rate": 5e-06,
      "loss": 1.0694,
      "num_input_tokens_seen": 245861240,
      "step": 1946
    },
    {
      "epoch": 0.4991983582376707,
      "loss": 0.9726510047912598,
      "loss_ce": 0.00048304349184036255,
      "loss_iou": 0.4609375,
      "loss_num": 0.01007080078125,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 245861240,
      "step": 1946
    },
    {
      "epoch": 0.4994548836016161,
      "grad_norm": 50.16570281982422,
      "learning_rate": 5e-06,
      "loss": 1.111,
      "num_input_tokens_seen": 245987520,
      "step": 1947
    },
    {
      "epoch": 0.4994548836016161,
      "loss": 1.1666797399520874,
      "loss_ce": 0.0011523929424583912,
      "loss_iou": 0.5390625,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 245987520,
      "step": 1947
    },
    {
      "epoch": 0.4997114089655615,
      "grad_norm": 28.66356658935547,
      "learning_rate": 5e-06,
      "loss": 0.9775,
      "num_input_tokens_seen": 246113292,
      "step": 1948
    },
    {
      "epoch": 0.4997114089655615,
      "loss": 0.9311819672584534,
      "loss_ce": 0.0014944535214453936,
      "loss_iou": 0.41796875,
      "loss_num": 0.0185546875,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 246113292,
      "step": 1948
    },
    {
      "epoch": 0.4999679343295068,
      "grad_norm": 48.403282165527344,
      "learning_rate": 5e-06,
      "loss": 0.982,
      "num_input_tokens_seen": 246239848,
      "step": 1949
    },
    {
      "epoch": 0.4999679343295068,
      "loss": 1.0772569179534912,
      "loss_ce": 0.0032824124209582806,
      "loss_iou": 0.484375,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 246239848,
      "step": 1949
    },
    {
      "epoch": 0.5002244596934522,
      "grad_norm": 49.93346405029297,
      "learning_rate": 5e-06,
      "loss": 1.0219,
      "num_input_tokens_seen": 246366468,
      "step": 1950
    },
    {
      "epoch": 0.5002244596934522,
      "loss": 1.0052132606506348,
      "loss_ce": 0.0003304735291749239,
      "loss_iou": 0.46875,
      "loss_num": 0.0133056640625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 246366468,
      "step": 1950
    },
    {
      "epoch": 0.5004809850573976,
      "grad_norm": 42.63022994995117,
      "learning_rate": 5e-06,
      "loss": 1.0861,
      "num_input_tokens_seen": 246492332,
      "step": 1951
    },
    {
      "epoch": 0.5004809850573976,
      "loss": 1.0916639566421509,
      "loss_ce": 0.003773325588554144,
      "loss_iou": 0.5,
      "loss_num": 0.017333984375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 246492332,
      "step": 1951
    },
    {
      "epoch": 0.500737510421343,
      "grad_norm": 61.87216567993164,
      "learning_rate": 5e-06,
      "loss": 1.0761,
      "num_input_tokens_seen": 246619012,
      "step": 1952
    },
    {
      "epoch": 0.500737510421343,
      "loss": 1.1181005239486694,
      "loss_ce": 0.001401299610733986,
      "loss_iou": 0.515625,
      "loss_num": 0.0167236328125,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 246619012,
      "step": 1952
    },
    {
      "epoch": 0.5009940357852882,
      "grad_norm": 52.38215637207031,
      "learning_rate": 5e-06,
      "loss": 1.0396,
      "num_input_tokens_seen": 246745432,
      "step": 1953
    },
    {
      "epoch": 0.5009940357852882,
      "loss": 0.975311279296875,
      "loss_ce": 0.0011901702964678407,
      "loss_iou": 0.453125,
      "loss_num": 0.01348876953125,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 246745432,
      "step": 1953
    },
    {
      "epoch": 0.5012505611492336,
      "grad_norm": 40.68037033081055,
      "learning_rate": 5e-06,
      "loss": 1.0924,
      "num_input_tokens_seen": 246869732,
      "step": 1954
    },
    {
      "epoch": 0.5012505611492336,
      "loss": 1.013520359992981,
      "loss_ce": 0.00033668422838672996,
      "loss_iou": 0.466796875,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 246869732,
      "step": 1954
    },
    {
      "epoch": 0.501507086513179,
      "grad_norm": 48.43160629272461,
      "learning_rate": 5e-06,
      "loss": 1.0979,
      "num_input_tokens_seen": 246995280,
      "step": 1955
    },
    {
      "epoch": 0.501507086513179,
      "loss": 1.053154706954956,
      "loss_ce": 0.0009085642523132265,
      "loss_iou": 0.490234375,
      "loss_num": 0.01434326171875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 246995280,
      "step": 1955
    },
    {
      "epoch": 0.5017636118771244,
      "grad_norm": 39.772708892822266,
      "learning_rate": 5e-06,
      "loss": 1.1107,
      "num_input_tokens_seen": 247121336,
      "step": 1956
    },
    {
      "epoch": 0.5017636118771244,
      "loss": 1.1274282932281494,
      "loss_ce": 0.0009635047172196209,
      "loss_iou": 0.5,
      "loss_num": 0.0247802734375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 247121336,
      "step": 1956
    },
    {
      "epoch": 0.5020201372410698,
      "grad_norm": 52.89803695678711,
      "learning_rate": 5e-06,
      "loss": 1.1745,
      "num_input_tokens_seen": 247247912,
      "step": 1957
    },
    {
      "epoch": 0.5020201372410698,
      "loss": 1.1431041955947876,
      "loss_ce": 0.0005260383477434516,
      "loss_iou": 0.51953125,
      "loss_num": 0.02001953125,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 247247912,
      "step": 1957
    },
    {
      "epoch": 0.502276662605015,
      "grad_norm": 88.6466293334961,
      "learning_rate": 5e-06,
      "loss": 1.1005,
      "num_input_tokens_seen": 247374980,
      "step": 1958
    },
    {
      "epoch": 0.502276662605015,
      "loss": 1.0535577535629272,
      "loss_ce": 0.0017999352421611547,
      "loss_iou": 0.47265625,
      "loss_num": 0.02099609375,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 247374980,
      "step": 1958
    },
    {
      "epoch": 0.5025331879689604,
      "grad_norm": 46.7523078918457,
      "learning_rate": 5e-06,
      "loss": 1.2314,
      "num_input_tokens_seen": 247500752,
      "step": 1959
    },
    {
      "epoch": 0.5025331879689604,
      "loss": 1.103193759918213,
      "loss_ce": 0.0030960242729634047,
      "loss_iou": 0.5,
      "loss_num": 0.0198974609375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 247500752,
      "step": 1959
    },
    {
      "epoch": 0.5027897133329058,
      "grad_norm": 31.266008377075195,
      "learning_rate": 5e-06,
      "loss": 1.0209,
      "num_input_tokens_seen": 247628084,
      "step": 1960
    },
    {
      "epoch": 0.5027897133329058,
      "loss": 0.9163991808891296,
      "loss_ce": 0.0006276534404605627,
      "loss_iou": 0.431640625,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 247628084,
      "step": 1960
    },
    {
      "epoch": 0.5030462386968512,
      "grad_norm": 43.27685546875,
      "learning_rate": 5e-06,
      "loss": 1.025,
      "num_input_tokens_seen": 247754168,
      "step": 1961
    },
    {
      "epoch": 0.5030462386968512,
      "loss": 0.9553647041320801,
      "loss_ce": 0.0012631658464670181,
      "loss_iou": 0.421875,
      "loss_num": 0.0218505859375,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 247754168,
      "step": 1961
    },
    {
      "epoch": 0.5033027640607965,
      "grad_norm": 53.06964874267578,
      "learning_rate": 5e-06,
      "loss": 0.9973,
      "num_input_tokens_seen": 247880588,
      "step": 1962
    },
    {
      "epoch": 0.5033027640607965,
      "loss": 1.1187806129455566,
      "loss_ce": 0.0015931295929476619,
      "loss_iou": 0.51953125,
      "loss_num": 0.01507568359375,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 247880588,
      "step": 1962
    },
    {
      "epoch": 0.5035592894247418,
      "grad_norm": 80.0895767211914,
      "learning_rate": 5e-06,
      "loss": 1.0593,
      "num_input_tokens_seen": 248006464,
      "step": 1963
    },
    {
      "epoch": 0.5035592894247418,
      "loss": 1.1478772163391113,
      "loss_ce": 0.00041630020132288337,
      "loss_iou": 0.5390625,
      "loss_num": 0.014404296875,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 248006464,
      "step": 1963
    },
    {
      "epoch": 0.5038158147886872,
      "grad_norm": 46.15283203125,
      "learning_rate": 5e-06,
      "loss": 1.156,
      "num_input_tokens_seen": 248132392,
      "step": 1964
    },
    {
      "epoch": 0.5038158147886872,
      "loss": 1.1452829837799072,
      "loss_ce": 0.0002634258707985282,
      "loss_iou": 0.53515625,
      "loss_num": 0.01434326171875,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 248132392,
      "step": 1964
    },
    {
      "epoch": 0.5040723401526326,
      "grad_norm": 26.691389083862305,
      "learning_rate": 5e-06,
      "loss": 0.9927,
      "num_input_tokens_seen": 248259488,
      "step": 1965
    },
    {
      "epoch": 0.5040723401526326,
      "loss": 0.9330199360847473,
      "loss_ce": 0.0006468782667070627,
      "loss_iou": 0.43359375,
      "loss_num": 0.0128173828125,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 248259488,
      "step": 1965
    },
    {
      "epoch": 0.504328865516578,
      "grad_norm": 30.740751266479492,
      "learning_rate": 5e-06,
      "loss": 0.8862,
      "num_input_tokens_seen": 248386300,
      "step": 1966
    },
    {
      "epoch": 0.504328865516578,
      "loss": 0.757299542427063,
      "loss_ce": 0.0004636160738300532,
      "loss_iou": 0.36328125,
      "loss_num": 0.006103515625,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 248386300,
      "step": 1966
    },
    {
      "epoch": 0.5045853908805233,
      "grad_norm": 31.324859619140625,
      "learning_rate": 5e-06,
      "loss": 0.985,
      "num_input_tokens_seen": 248511552,
      "step": 1967
    },
    {
      "epoch": 0.5045853908805233,
      "loss": 1.0081883668899536,
      "loss_ce": 0.0033055779058486223,
      "loss_iou": 0.4296875,
      "loss_num": 0.0289306640625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 248511552,
      "step": 1967
    },
    {
      "epoch": 0.5048419162444687,
      "grad_norm": 34.80128479003906,
      "learning_rate": 5e-06,
      "loss": 1.0956,
      "num_input_tokens_seen": 248636796,
      "step": 1968
    },
    {
      "epoch": 0.5048419162444687,
      "loss": 1.0826632976531982,
      "loss_ce": 0.001608680235221982,
      "loss_iou": 0.50390625,
      "loss_num": 0.0142822265625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 248636796,
      "step": 1968
    },
    {
      "epoch": 0.505098441608414,
      "grad_norm": 60.90861511230469,
      "learning_rate": 5e-06,
      "loss": 1.0269,
      "num_input_tokens_seen": 248763152,
      "step": 1969
    },
    {
      "epoch": 0.505098441608414,
      "loss": 1.2116063833236694,
      "loss_ce": 0.0006688160356134176,
      "loss_iou": 0.5625,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 248763152,
      "step": 1969
    },
    {
      "epoch": 0.5053549669723594,
      "grad_norm": 54.52490997314453,
      "learning_rate": 5e-06,
      "loss": 1.0443,
      "num_input_tokens_seen": 248889360,
      "step": 1970
    },
    {
      "epoch": 0.5053549669723594,
      "loss": 1.0789786577224731,
      "loss_ce": 0.0008537425310350955,
      "loss_iou": 0.5078125,
      "loss_num": 0.01177978515625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 248889360,
      "step": 1970
    },
    {
      "epoch": 0.5056114923363048,
      "grad_norm": 44.14472579956055,
      "learning_rate": 5e-06,
      "loss": 1.119,
      "num_input_tokens_seen": 249016180,
      "step": 1971
    },
    {
      "epoch": 0.5056114923363048,
      "loss": 1.0135817527770996,
      "loss_ce": 0.005280913319438696,
      "loss_iou": 0.4609375,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 249016180,
      "step": 1971
    },
    {
      "epoch": 0.5058680177002501,
      "grad_norm": 43.29777145385742,
      "learning_rate": 5e-06,
      "loss": 1.0543,
      "num_input_tokens_seen": 249141788,
      "step": 1972
    },
    {
      "epoch": 0.5058680177002501,
      "loss": 1.0376993417739868,
      "loss_ce": 0.001078238827176392,
      "loss_iou": 0.478515625,
      "loss_num": 0.01611328125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 249141788,
      "step": 1972
    },
    {
      "epoch": 0.5061245430641955,
      "grad_norm": 60.015464782714844,
      "learning_rate": 5e-06,
      "loss": 1.0604,
      "num_input_tokens_seen": 249267964,
      "step": 1973
    },
    {
      "epoch": 0.5061245430641955,
      "loss": 0.9710097312927246,
      "loss_ce": 0.00030658955802209675,
      "loss_iou": 0.443359375,
      "loss_num": 0.016357421875,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 249267964,
      "step": 1973
    },
    {
      "epoch": 0.5063810684281408,
      "grad_norm": 51.441287994384766,
      "learning_rate": 5e-06,
      "loss": 1.3333,
      "num_input_tokens_seen": 249393732,
      "step": 1974
    },
    {
      "epoch": 0.5063810684281408,
      "loss": 1.1207516193389893,
      "loss_ce": 0.0006344185094349086,
      "loss_iou": 0.52734375,
      "loss_num": 0.01361083984375,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 249393732,
      "step": 1974
    },
    {
      "epoch": 0.5066375937920862,
      "grad_norm": 35.239501953125,
      "learning_rate": 5e-06,
      "loss": 1.0083,
      "num_input_tokens_seen": 249519996,
      "step": 1975
    },
    {
      "epoch": 0.5066375937920862,
      "loss": 1.1433062553405762,
      "loss_ce": 0.0012164422078058124,
      "loss_iou": 0.52734375,
      "loss_num": 0.0177001953125,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 249519996,
      "step": 1975
    },
    {
      "epoch": 0.5068941191560316,
      "grad_norm": 49.210357666015625,
      "learning_rate": 5e-06,
      "loss": 1.045,
      "num_input_tokens_seen": 249645888,
      "step": 1976
    },
    {
      "epoch": 0.5068941191560316,
      "loss": 1.0820924043655396,
      "loss_ce": 0.0010376889258623123,
      "loss_iou": 0.484375,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 249645888,
      "step": 1976
    },
    {
      "epoch": 0.5071506445199769,
      "grad_norm": 47.27915573120117,
      "learning_rate": 5e-06,
      "loss": 0.8378,
      "num_input_tokens_seen": 249772304,
      "step": 1977
    },
    {
      "epoch": 0.5071506445199769,
      "loss": 0.8184223771095276,
      "loss_ce": 0.0005512924981303513,
      "loss_iou": 0.392578125,
      "loss_num": 0.006988525390625,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 249772304,
      "step": 1977
    },
    {
      "epoch": 0.5074071698839223,
      "grad_norm": 58.044532775878906,
      "learning_rate": 5e-06,
      "loss": 1.0967,
      "num_input_tokens_seen": 249898388,
      "step": 1978
    },
    {
      "epoch": 0.5074071698839223,
      "loss": 1.058220624923706,
      "loss_ce": 0.0010916382307186723,
      "loss_iou": 0.474609375,
      "loss_num": 0.021728515625,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 249898388,
      "step": 1978
    },
    {
      "epoch": 0.5076636952478676,
      "grad_norm": 77.34203338623047,
      "learning_rate": 5e-06,
      "loss": 1.0342,
      "num_input_tokens_seen": 250024756,
      "step": 1979
    },
    {
      "epoch": 0.5076636952478676,
      "loss": 1.0256783962249756,
      "loss_ce": 0.005170594435185194,
      "loss_iou": 0.4765625,
      "loss_num": 0.013427734375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 250024756,
      "step": 1979
    },
    {
      "epoch": 0.507920220611813,
      "grad_norm": 70.75835418701172,
      "learning_rate": 5e-06,
      "loss": 1.0178,
      "num_input_tokens_seen": 250149928,
      "step": 1980
    },
    {
      "epoch": 0.507920220611813,
      "loss": 1.0374345779418945,
      "loss_ce": 0.0017900425009429455,
      "loss_iou": 0.478515625,
      "loss_num": 0.01544189453125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 250149928,
      "step": 1980
    },
    {
      "epoch": 0.5081767459757583,
      "grad_norm": 37.257301330566406,
      "learning_rate": 5e-06,
      "loss": 0.9649,
      "num_input_tokens_seen": 250276676,
      "step": 1981
    },
    {
      "epoch": 0.5081767459757583,
      "loss": 0.9519698619842529,
      "loss_ce": 0.0007979950751177967,
      "loss_iou": 0.447265625,
      "loss_num": 0.01123046875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 250276676,
      "step": 1981
    },
    {
      "epoch": 0.5084332713397037,
      "grad_norm": 56.55401611328125,
      "learning_rate": 5e-06,
      "loss": 1.028,
      "num_input_tokens_seen": 250403840,
      "step": 1982
    },
    {
      "epoch": 0.5084332713397037,
      "loss": 1.0567615032196045,
      "loss_ce": 0.0010973232565447688,
      "loss_iou": 0.484375,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 250403840,
      "step": 1982
    },
    {
      "epoch": 0.5086897967036491,
      "grad_norm": 60.8635139465332,
      "learning_rate": 5e-06,
      "loss": 0.9688,
      "num_input_tokens_seen": 250531108,
      "step": 1983
    },
    {
      "epoch": 0.5086897967036491,
      "loss": 0.7423478364944458,
      "loss_ce": 0.0006485896301455796,
      "loss_iou": 0.35546875,
      "loss_num": 0.006561279296875,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 250531108,
      "step": 1983
    },
    {
      "epoch": 0.5089463220675944,
      "grad_norm": 75.34029388427734,
      "learning_rate": 5e-06,
      "loss": 1.1086,
      "num_input_tokens_seen": 250657688,
      "step": 1984
    },
    {
      "epoch": 0.5089463220675944,
      "loss": 0.9669362306594849,
      "loss_ce": 0.0020924555137753487,
      "loss_iou": 0.451171875,
      "loss_num": 0.01226806640625,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 250657688,
      "step": 1984
    },
    {
      "epoch": 0.5092028474315398,
      "grad_norm": 52.740699768066406,
      "learning_rate": 5e-06,
      "loss": 1.2747,
      "num_input_tokens_seen": 250784564,
      "step": 1985
    },
    {
      "epoch": 0.5092028474315398,
      "loss": 1.2550649642944336,
      "loss_ce": 0.0021352036856114864,
      "loss_iou": 0.58203125,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 250784564,
      "step": 1985
    },
    {
      "epoch": 0.5094593727954851,
      "grad_norm": 75.71601867675781,
      "learning_rate": 5e-06,
      "loss": 1.049,
      "num_input_tokens_seen": 250910336,
      "step": 1986
    },
    {
      "epoch": 0.5094593727954851,
      "loss": 1.1344959735870361,
      "loss_ce": 0.0011952494969591498,
      "loss_iou": 0.51171875,
      "loss_num": 0.0224609375,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 250910336,
      "step": 1986
    },
    {
      "epoch": 0.5097158981594305,
      "grad_norm": 48.29861068725586,
      "learning_rate": 5e-06,
      "loss": 1.0019,
      "num_input_tokens_seen": 251036144,
      "step": 1987
    },
    {
      "epoch": 0.5097158981594305,
      "loss": 1.1514601707458496,
      "loss_ce": 0.0015577529557049274,
      "loss_iou": 0.515625,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 251036144,
      "step": 1987
    },
    {
      "epoch": 0.5099724235233759,
      "grad_norm": 61.368141174316406,
      "learning_rate": 5e-06,
      "loss": 1.0238,
      "num_input_tokens_seen": 251161980,
      "step": 1988
    },
    {
      "epoch": 0.5099724235233759,
      "loss": 0.9719153642654419,
      "loss_ce": 0.00023571330530103296,
      "loss_iou": 0.458984375,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 251161980,
      "step": 1988
    },
    {
      "epoch": 0.5102289488873213,
      "grad_norm": 61.796295166015625,
      "learning_rate": 5e-06,
      "loss": 1.0777,
      "num_input_tokens_seen": 251288756,
      "step": 1989
    },
    {
      "epoch": 0.5102289488873213,
      "loss": 1.0182539224624634,
      "loss_ce": 0.002628915011882782,
      "loss_iou": 0.46484375,
      "loss_num": 0.01708984375,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 251288756,
      "step": 1989
    },
    {
      "epoch": 0.5104854742512666,
      "grad_norm": 65.69779968261719,
      "learning_rate": 5e-06,
      "loss": 0.9743,
      "num_input_tokens_seen": 251414672,
      "step": 1990
    },
    {
      "epoch": 0.5104854742512666,
      "loss": 1.002121925354004,
      "loss_ce": 0.0011453827610239387,
      "loss_iou": 0.482421875,
      "loss_num": 0.00714111328125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 251414672,
      "step": 1990
    },
    {
      "epoch": 0.5107419996152119,
      "grad_norm": 42.62310028076172,
      "learning_rate": 5e-06,
      "loss": 1.0512,
      "num_input_tokens_seen": 251540608,
      "step": 1991
    },
    {
      "epoch": 0.5107419996152119,
      "loss": 1.0379486083984375,
      "loss_ce": 0.0008391728042624891,
      "loss_iou": 0.486328125,
      "loss_num": 0.01263427734375,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 251540608,
      "step": 1991
    },
    {
      "epoch": 0.5109985249791573,
      "grad_norm": 43.345741271972656,
      "learning_rate": 5e-06,
      "loss": 1.0367,
      "num_input_tokens_seen": 251666524,
      "step": 1992
    },
    {
      "epoch": 0.5109985249791573,
      "loss": 1.0926636457443237,
      "loss_ce": 0.002819840796291828,
      "loss_iou": 0.470703125,
      "loss_num": 0.0294189453125,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 251666524,
      "step": 1992
    },
    {
      "epoch": 0.5112550503431027,
      "grad_norm": 34.22275924682617,
      "learning_rate": 5e-06,
      "loss": 0.9231,
      "num_input_tokens_seen": 251794112,
      "step": 1993
    },
    {
      "epoch": 0.5112550503431027,
      "loss": 0.9508673548698425,
      "loss_ce": 0.002381016733124852,
      "loss_iou": 0.431640625,
      "loss_num": 0.0172119140625,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 251794112,
      "step": 1993
    },
    {
      "epoch": 0.5115115757070481,
      "grad_norm": 38.710960388183594,
      "learning_rate": 5e-06,
      "loss": 0.9232,
      "num_input_tokens_seen": 251920564,
      "step": 1994
    },
    {
      "epoch": 0.5115115757070481,
      "loss": 1.0167114734649658,
      "loss_ce": 0.0005981270223855972,
      "loss_iou": 0.44140625,
      "loss_num": 0.0267333984375,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 251920564,
      "step": 1994
    },
    {
      "epoch": 0.5117681010709934,
      "grad_norm": 45.97953796386719,
      "learning_rate": 5e-06,
      "loss": 1.0083,
      "num_input_tokens_seen": 252046848,
      "step": 1995
    },
    {
      "epoch": 0.5117681010709934,
      "loss": 1.1631770133972168,
      "loss_ce": 0.00057939940597862,
      "loss_iou": 0.54296875,
      "loss_num": 0.01519775390625,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 252046848,
      "step": 1995
    },
    {
      "epoch": 0.5120246264349387,
      "grad_norm": 41.141563415527344,
      "learning_rate": 5e-06,
      "loss": 0.9372,
      "num_input_tokens_seen": 252173700,
      "step": 1996
    },
    {
      "epoch": 0.5120246264349387,
      "loss": 0.9254911541938782,
      "loss_ce": 0.004104464314877987,
      "loss_iou": 0.423828125,
      "loss_num": 0.0147705078125,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 252173700,
      "step": 1996
    },
    {
      "epoch": 0.5122811517988841,
      "grad_norm": 49.35930633544922,
      "learning_rate": 5e-06,
      "loss": 0.9692,
      "num_input_tokens_seen": 252299332,
      "step": 1997
    },
    {
      "epoch": 0.5122811517988841,
      "loss": 1.0402331352233887,
      "loss_ce": 0.008006537333130836,
      "loss_iou": 0.47265625,
      "loss_num": 0.016845703125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 252299332,
      "step": 1997
    },
    {
      "epoch": 0.5125376771628295,
      "grad_norm": 48.03907012939453,
      "learning_rate": 5e-06,
      "loss": 1.1805,
      "num_input_tokens_seen": 252425552,
      "step": 1998
    },
    {
      "epoch": 0.5125376771628295,
      "loss": 1.225752830505371,
      "loss_ce": 0.002608337439596653,
      "loss_iou": 0.546875,
      "loss_num": 0.0255126953125,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 252425552,
      "step": 1998
    },
    {
      "epoch": 0.5127942025267749,
      "grad_norm": 55.809364318847656,
      "learning_rate": 5e-06,
      "loss": 1.0101,
      "num_input_tokens_seen": 252552256,
      "step": 1999
    },
    {
      "epoch": 0.5127942025267749,
      "loss": 1.0398286581039429,
      "loss_ce": 0.00027791125467047095,
      "loss_iou": 0.462890625,
      "loss_num": 0.022705078125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 252552256,
      "step": 1999
    },
    {
      "epoch": 0.5130507278907201,
      "grad_norm": 49.3867073059082,
      "learning_rate": 5e-06,
      "loss": 1.1307,
      "num_input_tokens_seen": 252679016,
      "step": 2000
    },
    {
      "epoch": 0.5130507278907201,
      "eval_icons_CIoU": 0.16832323744893074,
      "eval_icons_GIoU": 0.13109151925891638,
      "eval_icons_IoU": 0.368585005402565,
      "eval_icons_MAE_all": 0.0342010073363781,
      "eval_icons_MAE_h": 0.05807036720216274,
      "eval_icons_MAE_w": 0.05678812600672245,
      "eval_icons_MAE_x_boxes": 0.056773215532302856,
      "eval_icons_MAE_y_boxes": 0.052764393389225006,
      "eval_icons_NUM_probability": 0.999769389629364,
      "eval_icons_inside_bbox": 0.5815972238779068,
      "eval_icons_loss": 1.8363127708435059,
      "eval_icons_loss_ce": 5.781662912340835e-05,
      "eval_icons_loss_iou": 0.8375244140625,
      "eval_icons_loss_num": 0.03726005554199219,
      "eval_icons_loss_xval": 1.862060546875,
      "eval_icons_runtime": 48.034,
      "eval_icons_samples_per_second": 1.041,
      "eval_icons_steps_per_second": 0.042,
      "num_input_tokens_seen": 252679016,
      "step": 2000
    },
    {
      "epoch": 0.5130507278907201,
      "eval_screenspot_CIoU": 0.1256368706623713,
      "eval_screenspot_GIoU": 0.11456992849707603,
      "eval_screenspot_IoU": 0.29288529853026074,
      "eval_screenspot_MAE_all": 0.0788506269454956,
      "eval_screenspot_MAE_h": 0.05711434533198675,
      "eval_screenspot_MAE_w": 0.13206478456656137,
      "eval_screenspot_MAE_x_boxes": 0.11205907414356868,
      "eval_screenspot_MAE_y_boxes": 0.05093859260280927,
      "eval_screenspot_NUM_probability": 0.9998437364896139,
      "eval_screenspot_inside_bbox": 0.6358333428700765,
      "eval_screenspot_loss": 2.2124693393707275,
      "eval_screenspot_loss_ce": 0.0015019784914329648,
      "eval_screenspot_loss_iou": 0.9165852864583334,
      "eval_screenspot_loss_num": 0.085205078125,
      "eval_screenspot_loss_xval": 2.259765625,
      "eval_screenspot_runtime": 109.1459,
      "eval_screenspot_samples_per_second": 0.815,
      "eval_screenspot_steps_per_second": 0.027,
      "num_input_tokens_seen": 252679016,
      "step": 2000
    },
    {
      "epoch": 0.5130507278907201,
      "loss": 2.171994686126709,
      "loss_ce": 0.001096243504434824,
      "loss_iou": 0.89453125,
      "loss_num": 0.076171875,
      "loss_xval": 2.171875,
      "num_input_tokens_seen": 252679016,
      "step": 2000
    },
    {
      "epoch": 0.5133072532546655,
      "grad_norm": 53.315330505371094,
      "learning_rate": 5e-06,
      "loss": 0.896,
      "num_input_tokens_seen": 252805816,
      "step": 2001
    },
    {
      "epoch": 0.5133072532546655,
      "loss": 1.0649224519729614,
      "loss_ce": 0.0019342233426868916,
      "loss_iou": 0.49609375,
      "loss_num": 0.0137939453125,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 252805816,
      "step": 2001
    },
    {
      "epoch": 0.5135637786186109,
      "grad_norm": 51.42131423950195,
      "learning_rate": 5e-06,
      "loss": 1.007,
      "num_input_tokens_seen": 252931044,
      "step": 2002
    },
    {
      "epoch": 0.5135637786186109,
      "loss": 1.0445877313613892,
      "loss_ce": 0.0016189826419577003,
      "loss_iou": 0.474609375,
      "loss_num": 0.0185546875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 252931044,
      "step": 2002
    },
    {
      "epoch": 0.5138203039825563,
      "grad_norm": 66.39872741699219,
      "learning_rate": 5e-06,
      "loss": 0.9869,
      "num_input_tokens_seen": 253058096,
      "step": 2003
    },
    {
      "epoch": 0.5138203039825563,
      "loss": 1.1486905813217163,
      "loss_ce": 0.004647629801183939,
      "loss_iou": 0.5078125,
      "loss_num": 0.0262451171875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 253058096,
      "step": 2003
    },
    {
      "epoch": 0.5140768293465017,
      "grad_norm": 70.35369873046875,
      "learning_rate": 5e-06,
      "loss": 1.0672,
      "num_input_tokens_seen": 253184688,
      "step": 2004
    },
    {
      "epoch": 0.5140768293465017,
      "loss": 1.1281483173370361,
      "loss_ce": 0.0016834231792017817,
      "loss_iou": 0.51171875,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 253184688,
      "step": 2004
    },
    {
      "epoch": 0.5143333547104469,
      "grad_norm": 44.32569885253906,
      "learning_rate": 5e-06,
      "loss": 0.9608,
      "num_input_tokens_seen": 253310832,
      "step": 2005
    },
    {
      "epoch": 0.5143333547104469,
      "loss": 0.796124279499054,
      "loss_ce": 0.0012023926246911287,
      "loss_iou": 0.369140625,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 253310832,
      "step": 2005
    },
    {
      "epoch": 0.5145898800743923,
      "grad_norm": 50.17256164550781,
      "learning_rate": 5e-06,
      "loss": 1.101,
      "num_input_tokens_seen": 253438044,
      "step": 2006
    },
    {
      "epoch": 0.5145898800743923,
      "loss": 0.9657532572746277,
      "loss_ce": 0.00042118330020457506,
      "loss_iou": 0.453125,
      "loss_num": 0.01226806640625,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 253438044,
      "step": 2006
    },
    {
      "epoch": 0.5148464054383377,
      "grad_norm": 79.54283142089844,
      "learning_rate": 5e-06,
      "loss": 1.0793,
      "num_input_tokens_seen": 253564572,
      "step": 2007
    },
    {
      "epoch": 0.5148464054383377,
      "loss": 1.0568351745605469,
      "loss_ce": 0.0001945913245435804,
      "loss_iou": 0.48828125,
      "loss_num": 0.0162353515625,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 253564572,
      "step": 2007
    },
    {
      "epoch": 0.5151029308022831,
      "grad_norm": 56.104915618896484,
      "learning_rate": 5e-06,
      "loss": 1.0671,
      "num_input_tokens_seen": 253691240,
      "step": 2008
    },
    {
      "epoch": 0.5151029308022831,
      "loss": 1.1161574125289917,
      "loss_ce": 0.0018995684804394841,
      "loss_iou": 0.51171875,
      "loss_num": 0.017822265625,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 253691240,
      "step": 2008
    },
    {
      "epoch": 0.5153594561662285,
      "grad_norm": 35.95633316040039,
      "learning_rate": 5e-06,
      "loss": 1.0097,
      "num_input_tokens_seen": 253817952,
      "step": 2009
    },
    {
      "epoch": 0.5153594561662285,
      "loss": 0.9539680480957031,
      "loss_ce": 0.0008430131711065769,
      "loss_iou": 0.443359375,
      "loss_num": 0.012939453125,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 253817952,
      "step": 2009
    },
    {
      "epoch": 0.5156159815301739,
      "grad_norm": 47.13933181762695,
      "learning_rate": 5e-06,
      "loss": 1.1237,
      "num_input_tokens_seen": 253944624,
      "step": 2010
    },
    {
      "epoch": 0.5156159815301739,
      "loss": 1.221038579940796,
      "loss_ce": 0.0008237491128966212,
      "loss_iou": 0.56640625,
      "loss_num": 0.016845703125,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 253944624,
      "step": 2010
    },
    {
      "epoch": 0.5158725068941191,
      "grad_norm": 93.35911560058594,
      "learning_rate": 5e-06,
      "loss": 1.0442,
      "num_input_tokens_seen": 254071168,
      "step": 2011
    },
    {
      "epoch": 0.5158725068941191,
      "loss": 1.2433799505233765,
      "loss_ce": 0.000704150297679007,
      "loss_iou": 0.5625,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 254071168,
      "step": 2011
    },
    {
      "epoch": 0.5161290322580645,
      "grad_norm": 52.84657669067383,
      "learning_rate": 5e-06,
      "loss": 1.2481,
      "num_input_tokens_seen": 254197656,
      "step": 2012
    },
    {
      "epoch": 0.5161290322580645,
      "loss": 1.2436964511871338,
      "loss_ce": 0.001508961315266788,
      "loss_iou": 0.56640625,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 254197656,
      "step": 2012
    },
    {
      "epoch": 0.5163855576220099,
      "grad_norm": 38.08906173706055,
      "learning_rate": 5e-06,
      "loss": 1.1064,
      "num_input_tokens_seen": 254323976,
      "step": 2013
    },
    {
      "epoch": 0.5163855576220099,
      "loss": 1.0199476480484009,
      "loss_ce": 0.001393006299622357,
      "loss_iou": 0.451171875,
      "loss_num": 0.022705078125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 254323976,
      "step": 2013
    },
    {
      "epoch": 0.5166420829859553,
      "grad_norm": 47.89059829711914,
      "learning_rate": 5e-06,
      "loss": 0.847,
      "num_input_tokens_seen": 254450192,
      "step": 2014
    },
    {
      "epoch": 0.5166420829859553,
      "loss": 0.7565430402755737,
      "loss_ce": 0.00019540336506906897,
      "loss_iou": 0.361328125,
      "loss_num": 0.0067138671875,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 254450192,
      "step": 2014
    },
    {
      "epoch": 0.5168986083499006,
      "grad_norm": 52.407894134521484,
      "learning_rate": 5e-06,
      "loss": 0.9314,
      "num_input_tokens_seen": 254576696,
      "step": 2015
    },
    {
      "epoch": 0.5168986083499006,
      "loss": 0.8725275993347168,
      "loss_ce": 0.0004572817706502974,
      "loss_iou": 0.40625,
      "loss_num": 0.01202392578125,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 254576696,
      "step": 2015
    },
    {
      "epoch": 0.5171551337138459,
      "grad_norm": 52.08160400390625,
      "learning_rate": 5e-06,
      "loss": 0.9975,
      "num_input_tokens_seen": 254702608,
      "step": 2016
    },
    {
      "epoch": 0.5171551337138459,
      "loss": 0.9522646069526672,
      "loss_ce": 0.001092717400752008,
      "loss_iou": 0.4375,
      "loss_num": 0.01531982421875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 254702608,
      "step": 2016
    },
    {
      "epoch": 0.5174116590777913,
      "grad_norm": 49.670387268066406,
      "learning_rate": 5e-06,
      "loss": 1.0737,
      "num_input_tokens_seen": 254828244,
      "step": 2017
    },
    {
      "epoch": 0.5174116590777913,
      "loss": 1.0801076889038086,
      "loss_ce": 0.00027374300407245755,
      "loss_iou": 0.486328125,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 254828244,
      "step": 2017
    },
    {
      "epoch": 0.5176681844417367,
      "grad_norm": 51.07948303222656,
      "learning_rate": 5e-06,
      "loss": 0.981,
      "num_input_tokens_seen": 254955456,
      "step": 2018
    },
    {
      "epoch": 0.5176681844417367,
      "loss": 1.0525212287902832,
      "loss_ce": 0.0007634421926923096,
      "loss_iou": 0.46484375,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 254955456,
      "step": 2018
    },
    {
      "epoch": 0.5179247098056821,
      "grad_norm": 48.830841064453125,
      "learning_rate": 5e-06,
      "loss": 1.0348,
      "num_input_tokens_seen": 255080444,
      "step": 2019
    },
    {
      "epoch": 0.5179247098056821,
      "loss": 1.0323619842529297,
      "loss_ce": 0.00013537262566387653,
      "loss_iou": 0.478515625,
      "loss_num": 0.0146484375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 255080444,
      "step": 2019
    },
    {
      "epoch": 0.5181812351696274,
      "grad_norm": 49.204986572265625,
      "learning_rate": 5e-06,
      "loss": 0.9025,
      "num_input_tokens_seen": 255206940,
      "step": 2020
    },
    {
      "epoch": 0.5181812351696274,
      "loss": 0.8655695915222168,
      "loss_ce": 0.0013117878697812557,
      "loss_iou": 0.408203125,
      "loss_num": 0.009521484375,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 255206940,
      "step": 2020
    },
    {
      "epoch": 0.5184377605335727,
      "grad_norm": 57.278892517089844,
      "learning_rate": 5e-06,
      "loss": 1.1594,
      "num_input_tokens_seen": 255332792,
      "step": 2021
    },
    {
      "epoch": 0.5184377605335727,
      "loss": 1.0450923442840576,
      "loss_ce": 0.0016352500533685088,
      "loss_iou": 0.466796875,
      "loss_num": 0.022216796875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 255332792,
      "step": 2021
    },
    {
      "epoch": 0.5186942858975181,
      "grad_norm": 73.57088470458984,
      "learning_rate": 5e-06,
      "loss": 1.0729,
      "num_input_tokens_seen": 255460044,
      "step": 2022
    },
    {
      "epoch": 0.5186942858975181,
      "loss": 1.0575311183929443,
      "loss_ce": 0.0008905873401090503,
      "loss_iou": 0.494140625,
      "loss_num": 0.01385498046875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 255460044,
      "step": 2022
    },
    {
      "epoch": 0.5189508112614635,
      "grad_norm": 46.59572219848633,
      "learning_rate": 5e-06,
      "loss": 1.1011,
      "num_input_tokens_seen": 255585808,
      "step": 2023
    },
    {
      "epoch": 0.5189508112614635,
      "loss": 1.0083049535751343,
      "loss_ce": 0.0009807954775169492,
      "loss_iou": 0.474609375,
      "loss_num": 0.01141357421875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 255585808,
      "step": 2023
    },
    {
      "epoch": 0.5192073366254089,
      "grad_norm": 48.697776794433594,
      "learning_rate": 5e-06,
      "loss": 0.991,
      "num_input_tokens_seen": 255711720,
      "step": 2024
    },
    {
      "epoch": 0.5192073366254089,
      "loss": 1.0130096673965454,
      "loss_ce": 0.0022674871142953634,
      "loss_iou": 0.470703125,
      "loss_num": 0.01385498046875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 255711720,
      "step": 2024
    },
    {
      "epoch": 0.5194638619893542,
      "grad_norm": 55.978389739990234,
      "learning_rate": 5e-06,
      "loss": 0.9849,
      "num_input_tokens_seen": 255837452,
      "step": 2025
    },
    {
      "epoch": 0.5194638619893542,
      "loss": 0.912277102470398,
      "loss_ce": 0.00041184999281540513,
      "loss_iou": 0.423828125,
      "loss_num": 0.01287841796875,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 255837452,
      "step": 2025
    },
    {
      "epoch": 0.5197203873532995,
      "grad_norm": 141.40829467773438,
      "learning_rate": 5e-06,
      "loss": 1.0816,
      "num_input_tokens_seen": 255965056,
      "step": 2026
    },
    {
      "epoch": 0.5197203873532995,
      "loss": 1.2914857864379883,
      "loss_ce": 0.0029116380028426647,
      "loss_iou": 0.57421875,
      "loss_num": 0.028564453125,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 255965056,
      "step": 2026
    },
    {
      "epoch": 0.5199769127172449,
      "grad_norm": 59.3145637512207,
      "learning_rate": 5e-06,
      "loss": 1.048,
      "num_input_tokens_seen": 256091300,
      "step": 2027
    },
    {
      "epoch": 0.5199769127172449,
      "loss": 1.1682484149932861,
      "loss_ce": 0.0007678656256757677,
      "loss_iou": 0.5390625,
      "loss_num": 0.018798828125,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 256091300,
      "step": 2027
    },
    {
      "epoch": 0.5202334380811903,
      "grad_norm": 57.07319641113281,
      "learning_rate": 5e-06,
      "loss": 1.1075,
      "num_input_tokens_seen": 256218600,
      "step": 2028
    },
    {
      "epoch": 0.5202334380811903,
      "loss": 1.1069482564926147,
      "loss_ce": 0.0014795939205214381,
      "loss_iou": 0.51171875,
      "loss_num": 0.0162353515625,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 256218600,
      "step": 2028
    },
    {
      "epoch": 0.5204899634451357,
      "grad_norm": 51.766685485839844,
      "learning_rate": 5e-06,
      "loss": 1.0117,
      "num_input_tokens_seen": 256344944,
      "step": 2029
    },
    {
      "epoch": 0.5204899634451357,
      "loss": 0.8272620439529419,
      "loss_ce": 0.0013343081809580326,
      "loss_iou": 0.392578125,
      "loss_num": 0.008056640625,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 256344944,
      "step": 2029
    },
    {
      "epoch": 0.520746488809081,
      "grad_norm": 85.35752868652344,
      "learning_rate": 5e-06,
      "loss": 1.1202,
      "num_input_tokens_seen": 256471548,
      "step": 2030
    },
    {
      "epoch": 0.520746488809081,
      "loss": 1.0634057521820068,
      "loss_ce": 0.0009058131254278123,
      "loss_iou": 0.478515625,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 256471548,
      "step": 2030
    },
    {
      "epoch": 0.5210030141730264,
      "grad_norm": 73.8112564086914,
      "learning_rate": 5e-06,
      "loss": 0.9844,
      "num_input_tokens_seen": 256598072,
      "step": 2031
    },
    {
      "epoch": 0.5210030141730264,
      "loss": 0.8499078750610352,
      "loss_ce": 0.00029845177778042853,
      "loss_iou": 0.40625,
      "loss_num": 0.007537841796875,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 256598072,
      "step": 2031
    },
    {
      "epoch": 0.5212595395369717,
      "grad_norm": 52.91657257080078,
      "learning_rate": 5e-06,
      "loss": 1.0901,
      "num_input_tokens_seen": 256724476,
      "step": 2032
    },
    {
      "epoch": 0.5212595395369717,
      "loss": 0.9766416549682617,
      "loss_ce": 0.0005674446583725512,
      "loss_iou": 0.4609375,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 256724476,
      "step": 2032
    },
    {
      "epoch": 0.5215160649009171,
      "grad_norm": 48.08242416381836,
      "learning_rate": 5e-06,
      "loss": 1.0007,
      "num_input_tokens_seen": 256851344,
      "step": 2033
    },
    {
      "epoch": 0.5215160649009171,
      "loss": 0.8402217626571655,
      "loss_ce": 0.0003780190891120583,
      "loss_iou": 0.40625,
      "loss_num": 0.00567626953125,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 256851344,
      "step": 2033
    },
    {
      "epoch": 0.5217725902648624,
      "grad_norm": 54.82283401489258,
      "learning_rate": 5e-06,
      "loss": 1.0981,
      "num_input_tokens_seen": 256978552,
      "step": 2034
    },
    {
      "epoch": 0.5217725902648624,
      "loss": 1.1385711431503296,
      "loss_ce": 0.00234073493629694,
      "loss_iou": 0.5234375,
      "loss_num": 0.018310546875,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 256978552,
      "step": 2034
    },
    {
      "epoch": 0.5220291156288078,
      "grad_norm": 59.975669860839844,
      "learning_rate": 5e-06,
      "loss": 1.1197,
      "num_input_tokens_seen": 257104932,
      "step": 2035
    },
    {
      "epoch": 0.5220291156288078,
      "loss": 1.1193156242370605,
      "loss_ce": 0.0016398427542299032,
      "loss_iou": 0.51171875,
      "loss_num": 0.0184326171875,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 257104932,
      "step": 2035
    },
    {
      "epoch": 0.5222856409927532,
      "grad_norm": 63.6566162109375,
      "learning_rate": 5e-06,
      "loss": 1.1048,
      "num_input_tokens_seen": 257230780,
      "step": 2036
    },
    {
      "epoch": 0.5222856409927532,
      "loss": 1.1401309967041016,
      "loss_ce": 0.0014591026119887829,
      "loss_iou": 0.51953125,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 257230780,
      "step": 2036
    },
    {
      "epoch": 0.5225421663566985,
      "grad_norm": 47.8028678894043,
      "learning_rate": 5e-06,
      "loss": 1.0493,
      "num_input_tokens_seen": 257357820,
      "step": 2037
    },
    {
      "epoch": 0.5225421663566985,
      "loss": 0.9849605560302734,
      "loss_ce": 9.72605193965137e-05,
      "loss_iou": 0.470703125,
      "loss_num": 0.00872802734375,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 257357820,
      "step": 2037
    },
    {
      "epoch": 0.5227986917206439,
      "grad_norm": 43.6710090637207,
      "learning_rate": 5e-06,
      "loss": 1.0734,
      "num_input_tokens_seen": 257483148,
      "step": 2038
    },
    {
      "epoch": 0.5227986917206439,
      "loss": 1.1903860569000244,
      "loss_ce": 0.000444635224994272,
      "loss_iou": 0.55078125,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 257483148,
      "step": 2038
    },
    {
      "epoch": 0.5230552170845892,
      "grad_norm": 54.831512451171875,
      "learning_rate": 5e-06,
      "loss": 1.0236,
      "num_input_tokens_seen": 257607924,
      "step": 2039
    },
    {
      "epoch": 0.5230552170845892,
      "loss": 1.138108491897583,
      "loss_ce": 0.0009014400420710444,
      "loss_iou": 0.51171875,
      "loss_num": 0.022705078125,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 257607924,
      "step": 2039
    },
    {
      "epoch": 0.5233117424485346,
      "grad_norm": 57.807411193847656,
      "learning_rate": 5e-06,
      "loss": 1.0037,
      "num_input_tokens_seen": 257734008,
      "step": 2040
    },
    {
      "epoch": 0.5233117424485346,
      "loss": 1.1398019790649414,
      "loss_ce": 0.004059840925037861,
      "loss_iou": 0.5078125,
      "loss_num": 0.023681640625,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 257734008,
      "step": 2040
    },
    {
      "epoch": 0.52356826781248,
      "grad_norm": 69.98892211914062,
      "learning_rate": 5e-06,
      "loss": 0.9693,
      "num_input_tokens_seen": 257860340,
      "step": 2041
    },
    {
      "epoch": 0.52356826781248,
      "loss": 0.9668854475021362,
      "loss_ce": 8.855860505718738e-05,
      "loss_iou": 0.447265625,
      "loss_num": 0.0146484375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 257860340,
      "step": 2041
    },
    {
      "epoch": 0.5238247931764253,
      "grad_norm": 61.258827209472656,
      "learning_rate": 5e-06,
      "loss": 1.0401,
      "num_input_tokens_seen": 257986784,
      "step": 2042
    },
    {
      "epoch": 0.5238247931764253,
      "loss": 1.189571499824524,
      "loss_ce": 0.0010949037969112396,
      "loss_iou": 0.5625,
      "loss_num": 0.0125732421875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 257986784,
      "step": 2042
    },
    {
      "epoch": 0.5240813185403707,
      "grad_norm": 99.4783935546875,
      "learning_rate": 5e-06,
      "loss": 1.0921,
      "num_input_tokens_seen": 258113020,
      "step": 2043
    },
    {
      "epoch": 0.5240813185403707,
      "loss": 1.2599425315856934,
      "loss_ce": 0.004083174280822277,
      "loss_iou": 0.57421875,
      "loss_num": 0.021728515625,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 258113020,
      "step": 2043
    },
    {
      "epoch": 0.524337843904316,
      "grad_norm": 54.923439025878906,
      "learning_rate": 5e-06,
      "loss": 1.1706,
      "num_input_tokens_seen": 258239404,
      "step": 2044
    },
    {
      "epoch": 0.524337843904316,
      "loss": 1.2532235383987427,
      "loss_ce": 0.000293885066639632,
      "loss_iou": 0.56640625,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 258239404,
      "step": 2044
    },
    {
      "epoch": 0.5245943692682614,
      "grad_norm": 28.975839614868164,
      "learning_rate": 5e-06,
      "loss": 1.0054,
      "num_input_tokens_seen": 258365476,
      "step": 2045
    },
    {
      "epoch": 0.5245943692682614,
      "loss": 1.03302001953125,
      "loss_ce": 0.001281818374991417,
      "loss_iou": 0.478515625,
      "loss_num": 0.01495361328125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 258365476,
      "step": 2045
    },
    {
      "epoch": 0.5248508946322068,
      "grad_norm": 31.99435806274414,
      "learning_rate": 5e-06,
      "loss": 1.1046,
      "num_input_tokens_seen": 258491948,
      "step": 2046
    },
    {
      "epoch": 0.5248508946322068,
      "loss": 1.1749693155288696,
      "loss_ce": 0.007488864008337259,
      "loss_iou": 0.5078125,
      "loss_num": 0.02978515625,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 258491948,
      "step": 2046
    },
    {
      "epoch": 0.5251074199961521,
      "grad_norm": 38.08057403564453,
      "learning_rate": 5e-06,
      "loss": 0.9719,
      "num_input_tokens_seen": 258616240,
      "step": 2047
    },
    {
      "epoch": 0.5251074199961521,
      "loss": 1.218906044960022,
      "loss_ce": 0.00113257288467139,
      "loss_iou": 0.5390625,
      "loss_num": 0.028076171875,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 258616240,
      "step": 2047
    },
    {
      "epoch": 0.5253639453600975,
      "grad_norm": 56.168601989746094,
      "learning_rate": 5e-06,
      "loss": 0.9933,
      "num_input_tokens_seen": 258742892,
      "step": 2048
    },
    {
      "epoch": 0.5253639453600975,
      "loss": 0.9749884605407715,
      "loss_ce": 0.000867391237989068,
      "loss_iou": 0.44921875,
      "loss_num": 0.01470947265625,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 258742892,
      "step": 2048
    },
    {
      "epoch": 0.5256204707240428,
      "grad_norm": 53.860172271728516,
      "learning_rate": 5e-06,
      "loss": 1.106,
      "num_input_tokens_seen": 258868968,
      "step": 2049
    },
    {
      "epoch": 0.5256204707240428,
      "loss": 0.9289553165435791,
      "loss_ce": 0.008545160293579102,
      "loss_iou": 0.435546875,
      "loss_num": 0.0101318359375,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 258868968,
      "step": 2049
    },
    {
      "epoch": 0.5258769960879882,
      "grad_norm": 28.930753707885742,
      "learning_rate": 5e-06,
      "loss": 0.8525,
      "num_input_tokens_seen": 258994852,
      "step": 2050
    },
    {
      "epoch": 0.5258769960879882,
      "loss": 0.8064014911651611,
      "loss_ce": 0.0012257290072739124,
      "loss_iou": 0.376953125,
      "loss_num": 0.00994873046875,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 258994852,
      "step": 2050
    },
    {
      "epoch": 0.5261335214519336,
      "grad_norm": 24.546236038208008,
      "learning_rate": 5e-06,
      "loss": 0.9749,
      "num_input_tokens_seen": 259122016,
      "step": 2051
    },
    {
      "epoch": 0.5261335214519336,
      "loss": 0.9845966100692749,
      "loss_ce": 0.00022161187371239066,
      "loss_iou": 0.455078125,
      "loss_num": 0.014892578125,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 259122016,
      "step": 2051
    },
    {
      "epoch": 0.5263900468158789,
      "grad_norm": 35.74541091918945,
      "learning_rate": 5e-06,
      "loss": 1.0124,
      "num_input_tokens_seen": 259247668,
      "step": 2052
    },
    {
      "epoch": 0.5263900468158789,
      "loss": 1.080437183380127,
      "loss_ce": 0.0003591269487515092,
      "loss_iou": 0.4921875,
      "loss_num": 0.0185546875,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 259247668,
      "step": 2052
    },
    {
      "epoch": 0.5266465721798242,
      "grad_norm": 49.129947662353516,
      "learning_rate": 5e-06,
      "loss": 1.1275,
      "num_input_tokens_seen": 259374152,
      "step": 2053
    },
    {
      "epoch": 0.5266465721798242,
      "loss": 1.292370319366455,
      "loss_ce": 0.002331278519704938,
      "loss_iou": 0.58984375,
      "loss_num": 0.022705078125,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 259374152,
      "step": 2053
    },
    {
      "epoch": 0.5269030975437696,
      "grad_norm": 55.699676513671875,
      "learning_rate": 5e-06,
      "loss": 1.2525,
      "num_input_tokens_seen": 259500288,
      "step": 2054
    },
    {
      "epoch": 0.5269030975437696,
      "loss": 1.3176875114440918,
      "loss_ce": 0.002257848624140024,
      "loss_iou": 0.5859375,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 259500288,
      "step": 2054
    },
    {
      "epoch": 0.527159622907715,
      "grad_norm": 70.89736938476562,
      "learning_rate": 5e-06,
      "loss": 1.1015,
      "num_input_tokens_seen": 259626808,
      "step": 2055
    },
    {
      "epoch": 0.527159622907715,
      "loss": 1.157155990600586,
      "loss_ce": 0.003347366815432906,
      "loss_iou": 0.53515625,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 259626808,
      "step": 2055
    },
    {
      "epoch": 0.5274161482716604,
      "grad_norm": 79.22554016113281,
      "learning_rate": 5e-06,
      "loss": 1.1293,
      "num_input_tokens_seen": 259752656,
      "step": 2056
    },
    {
      "epoch": 0.5274161482716604,
      "loss": 1.118213176727295,
      "loss_ce": 0.0005374052561819553,
      "loss_iou": 0.515625,
      "loss_num": 0.01806640625,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 259752656,
      "step": 2056
    },
    {
      "epoch": 0.5276726736356058,
      "grad_norm": 52.5753173828125,
      "learning_rate": 5e-06,
      "loss": 0.9561,
      "num_input_tokens_seen": 259879636,
      "step": 2057
    },
    {
      "epoch": 0.5276726736356058,
      "loss": 0.8082152605056763,
      "loss_ce": 0.0015746058197692037,
      "loss_iou": 0.38671875,
      "loss_num": 0.006805419921875,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 259879636,
      "step": 2057
    },
    {
      "epoch": 0.527929198999551,
      "grad_norm": 72.6696548461914,
      "learning_rate": 5e-06,
      "loss": 1.1571,
      "num_input_tokens_seen": 260006756,
      "step": 2058
    },
    {
      "epoch": 0.527929198999551,
      "loss": 1.1130599975585938,
      "loss_ce": 0.001243620296008885,
      "loss_iou": 0.5078125,
      "loss_num": 0.019287109375,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 260006756,
      "step": 2058
    },
    {
      "epoch": 0.5281857243634964,
      "grad_norm": 58.3787956237793,
      "learning_rate": 5e-06,
      "loss": 0.9144,
      "num_input_tokens_seen": 260133156,
      "step": 2059
    },
    {
      "epoch": 0.5281857243634964,
      "loss": 0.7451873421669006,
      "loss_ce": 7.017231837380677e-05,
      "loss_iou": 0.357421875,
      "loss_num": 0.00634765625,
      "loss_xval": 0.74609375,
      "num_input_tokens_seen": 260133156,
      "step": 2059
    },
    {
      "epoch": 0.5284422497274418,
      "grad_norm": 47.23629379272461,
      "learning_rate": 5e-06,
      "loss": 1.0811,
      "num_input_tokens_seen": 260259704,
      "step": 2060
    },
    {
      "epoch": 0.5284422497274418,
      "loss": 1.0826222896575928,
      "loss_ce": 0.0005910230102017522,
      "loss_iou": 0.50390625,
      "loss_num": 0.01507568359375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 260259704,
      "step": 2060
    },
    {
      "epoch": 0.5286987750913872,
      "grad_norm": 45.07194900512695,
      "learning_rate": 5e-06,
      "loss": 1.0278,
      "num_input_tokens_seen": 260385484,
      "step": 2061
    },
    {
      "epoch": 0.5286987750913872,
      "loss": 1.2559621334075928,
      "loss_ce": 0.005962177645415068,
      "loss_iou": 0.56640625,
      "loss_num": 0.023193359375,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 260385484,
      "step": 2061
    },
    {
      "epoch": 0.5289553004553326,
      "grad_norm": 58.328887939453125,
      "learning_rate": 5e-06,
      "loss": 1.0639,
      "num_input_tokens_seen": 260511584,
      "step": 2062
    },
    {
      "epoch": 0.5289553004553326,
      "loss": 0.9388800859451294,
      "loss_ce": 0.00040350109338760376,
      "loss_iou": 0.4296875,
      "loss_num": 0.0155029296875,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 260511584,
      "step": 2062
    },
    {
      "epoch": 0.5292118258192778,
      "grad_norm": 80.0151596069336,
      "learning_rate": 5e-06,
      "loss": 1.0568,
      "num_input_tokens_seen": 260638412,
      "step": 2063
    },
    {
      "epoch": 0.5292118258192778,
      "loss": 1.0850272178649902,
      "loss_ce": 0.0015310811577364802,
      "loss_iou": 0.5078125,
      "loss_num": 0.0130615234375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 260638412,
      "step": 2063
    },
    {
      "epoch": 0.5294683511832232,
      "grad_norm": 51.03153991699219,
      "learning_rate": 5e-06,
      "loss": 1.1857,
      "num_input_tokens_seen": 260763976,
      "step": 2064
    },
    {
      "epoch": 0.5294683511832232,
      "loss": 1.1942700147628784,
      "loss_ce": 0.0035961430985480547,
      "loss_iou": 0.53125,
      "loss_num": 0.025634765625,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 260763976,
      "step": 2064
    },
    {
      "epoch": 0.5297248765471686,
      "grad_norm": 36.663814544677734,
      "learning_rate": 5e-06,
      "loss": 0.9701,
      "num_input_tokens_seen": 260889900,
      "step": 2065
    },
    {
      "epoch": 0.5297248765471686,
      "loss": 0.9601141810417175,
      "loss_ce": 0.0006415415555238724,
      "loss_iou": 0.443359375,
      "loss_num": 0.014404296875,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 260889900,
      "step": 2065
    },
    {
      "epoch": 0.529981401911114,
      "grad_norm": 63.989768981933594,
      "learning_rate": 5e-06,
      "loss": 1.1121,
      "num_input_tokens_seen": 261017176,
      "step": 2066
    },
    {
      "epoch": 0.529981401911114,
      "loss": 1.0892438888549805,
      "loss_ce": 0.003550530644133687,
      "loss_iou": 0.48828125,
      "loss_num": 0.021484375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 261017176,
      "step": 2066
    },
    {
      "epoch": 0.5302379272750594,
      "grad_norm": 43.2659797668457,
      "learning_rate": 5e-06,
      "loss": 1.067,
      "num_input_tokens_seen": 261143296,
      "step": 2067
    },
    {
      "epoch": 0.5302379272750594,
      "loss": 1.0381898880004883,
      "loss_ce": 0.0005922214477322996,
      "loss_iou": 0.474609375,
      "loss_num": 0.017578125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 261143296,
      "step": 2067
    },
    {
      "epoch": 0.5304944526390046,
      "grad_norm": 24.66347312927246,
      "learning_rate": 5e-06,
      "loss": 1.0494,
      "num_input_tokens_seen": 261269520,
      "step": 2068
    },
    {
      "epoch": 0.5304944526390046,
      "loss": 1.1168646812438965,
      "loss_ce": 0.001630280865356326,
      "loss_iou": 0.515625,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 261269520,
      "step": 2068
    },
    {
      "epoch": 0.53075097800295,
      "grad_norm": 49.395694732666016,
      "learning_rate": 5e-06,
      "loss": 1.0559,
      "num_input_tokens_seen": 261394532,
      "step": 2069
    },
    {
      "epoch": 0.53075097800295,
      "loss": 1.1534628868103027,
      "loss_ce": 0.0011192008387297392,
      "loss_iou": 0.52734375,
      "loss_num": 0.019287109375,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 261394532,
      "step": 2069
    },
    {
      "epoch": 0.5310075033668954,
      "grad_norm": 48.912147521972656,
      "learning_rate": 5e-06,
      "loss": 1.1035,
      "num_input_tokens_seen": 261521384,
      "step": 2070
    },
    {
      "epoch": 0.5310075033668954,
      "loss": 0.9166247844696045,
      "loss_ce": 0.00036501127760857344,
      "loss_iou": 0.439453125,
      "loss_num": 0.007781982421875,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 261521384,
      "step": 2070
    },
    {
      "epoch": 0.5312640287308408,
      "grad_norm": 30.840654373168945,
      "learning_rate": 5e-06,
      "loss": 1.0761,
      "num_input_tokens_seen": 261647248,
      "step": 2071
    },
    {
      "epoch": 0.5312640287308408,
      "loss": 1.0800025463104248,
      "loss_ce": 0.00920168962329626,
      "loss_iou": 0.48046875,
      "loss_num": 0.02197265625,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 261647248,
      "step": 2071
    },
    {
      "epoch": 0.5315205540947862,
      "grad_norm": 54.6402587890625,
      "learning_rate": 5e-06,
      "loss": 1.0997,
      "num_input_tokens_seen": 261773372,
      "step": 2072
    },
    {
      "epoch": 0.5315205540947862,
      "loss": 1.1462395191192627,
      "loss_ce": 0.00024345166457351297,
      "loss_iou": 0.5234375,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 261773372,
      "step": 2072
    },
    {
      "epoch": 0.5317770794587314,
      "grad_norm": 50.31151580810547,
      "learning_rate": 5e-06,
      "loss": 0.9231,
      "num_input_tokens_seen": 261898904,
      "step": 2073
    },
    {
      "epoch": 0.5317770794587314,
      "loss": 1.0098406076431274,
      "loss_ce": 0.000563219073228538,
      "loss_iou": 0.462890625,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 261898904,
      "step": 2073
    },
    {
      "epoch": 0.5320336048226768,
      "grad_norm": 45.12799072265625,
      "learning_rate": 5e-06,
      "loss": 0.9652,
      "num_input_tokens_seen": 262026204,
      "step": 2074
    },
    {
      "epoch": 0.5320336048226768,
      "loss": 0.7232120037078857,
      "loss_ce": 0.0007999389781616628,
      "loss_iou": 0.33984375,
      "loss_num": 0.008544921875,
      "loss_xval": 0.72265625,
      "num_input_tokens_seen": 262026204,
      "step": 2074
    },
    {
      "epoch": 0.5322901301866222,
      "grad_norm": 45.372276306152344,
      "learning_rate": 5e-06,
      "loss": 0.9666,
      "num_input_tokens_seen": 262151720,
      "step": 2075
    },
    {
      "epoch": 0.5322901301866222,
      "loss": 0.8098355531692505,
      "loss_ce": 0.0002652480616234243,
      "loss_iou": 0.3828125,
      "loss_num": 0.009033203125,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 262151720,
      "step": 2075
    },
    {
      "epoch": 0.5325466555505676,
      "grad_norm": 31.510662078857422,
      "learning_rate": 5e-06,
      "loss": 0.931,
      "num_input_tokens_seen": 262277756,
      "step": 2076
    },
    {
      "epoch": 0.5325466555505676,
      "loss": 0.9901208877563477,
      "loss_ce": 0.0003748129238374531,
      "loss_iou": 0.447265625,
      "loss_num": 0.0186767578125,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 262277756,
      "step": 2076
    },
    {
      "epoch": 0.532803180914513,
      "grad_norm": 38.17578887939453,
      "learning_rate": 5e-06,
      "loss": 1.0577,
      "num_input_tokens_seen": 262404268,
      "step": 2077
    },
    {
      "epoch": 0.532803180914513,
      "loss": 1.1061457395553589,
      "loss_ce": 0.0016536276089027524,
      "loss_iou": 0.50390625,
      "loss_num": 0.01953125,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 262404268,
      "step": 2077
    },
    {
      "epoch": 0.5330597062784583,
      "grad_norm": 53.984859466552734,
      "learning_rate": 5e-06,
      "loss": 1.0049,
      "num_input_tokens_seen": 262530152,
      "step": 2078
    },
    {
      "epoch": 0.5330597062784583,
      "loss": 1.0169166326522827,
      "loss_ce": 0.003733081975951791,
      "loss_iou": 0.482421875,
      "loss_num": 0.00927734375,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 262530152,
      "step": 2078
    },
    {
      "epoch": 0.5333162316424036,
      "grad_norm": 52.367210388183594,
      "learning_rate": 5e-06,
      "loss": 1.0207,
      "num_input_tokens_seen": 262656448,
      "step": 2079
    },
    {
      "epoch": 0.5333162316424036,
      "loss": 0.9975907206535339,
      "loss_ce": 0.0005204096087254584,
      "loss_iou": 0.46484375,
      "loss_num": 0.01336669921875,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 262656448,
      "step": 2079
    },
    {
      "epoch": 0.533572757006349,
      "grad_norm": 83.12340545654297,
      "learning_rate": 5e-06,
      "loss": 0.9883,
      "num_input_tokens_seen": 262783272,
      "step": 2080
    },
    {
      "epoch": 0.533572757006349,
      "loss": 1.0387104749679565,
      "loss_ce": 0.0016011069528758526,
      "loss_iou": 0.4921875,
      "loss_num": 0.01007080078125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 262783272,
      "step": 2080
    },
    {
      "epoch": 0.5338292823702944,
      "grad_norm": 49.9664421081543,
      "learning_rate": 5e-06,
      "loss": 1.0246,
      "num_input_tokens_seen": 262910368,
      "step": 2081
    },
    {
      "epoch": 0.5338292823702944,
      "loss": 1.1867914199829102,
      "loss_ce": 0.006127288565039635,
      "loss_iou": 0.51953125,
      "loss_num": 0.02783203125,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 262910368,
      "step": 2081
    },
    {
      "epoch": 0.5340858077342397,
      "grad_norm": 49.16142272949219,
      "learning_rate": 5e-06,
      "loss": 1.038,
      "num_input_tokens_seen": 263037104,
      "step": 2082
    },
    {
      "epoch": 0.5340858077342397,
      "loss": 1.1410658359527588,
      "loss_ce": 0.0004407914530020207,
      "loss_iou": 0.5234375,
      "loss_num": 0.01806640625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 263037104,
      "step": 2082
    },
    {
      "epoch": 0.5343423330981851,
      "grad_norm": 33.93173599243164,
      "learning_rate": 5e-06,
      "loss": 1.1512,
      "num_input_tokens_seen": 263163012,
      "step": 2083
    },
    {
      "epoch": 0.5343423330981851,
      "loss": 1.2177568674087524,
      "loss_ce": 0.001936559216119349,
      "loss_iou": 0.5546875,
      "loss_num": 0.02099609375,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 263163012,
      "step": 2083
    },
    {
      "epoch": 0.5345988584621304,
      "grad_norm": 39.54280471801758,
      "learning_rate": 5e-06,
      "loss": 1.0599,
      "num_input_tokens_seen": 263289380,
      "step": 2084
    },
    {
      "epoch": 0.5345988584621304,
      "loss": 1.0225932598114014,
      "loss_ce": 0.00037638566573150456,
      "loss_iou": 0.482421875,
      "loss_num": 0.0115966796875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 263289380,
      "step": 2084
    },
    {
      "epoch": 0.5348553838260758,
      "grad_norm": 45.672367095947266,
      "learning_rate": 5e-06,
      "loss": 1.1694,
      "num_input_tokens_seen": 263414968,
      "step": 2085
    },
    {
      "epoch": 0.5348553838260758,
      "loss": 1.2934010028839111,
      "loss_ce": 0.0009206320391967893,
      "loss_iou": 0.58203125,
      "loss_num": 0.026123046875,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 263414968,
      "step": 2085
    },
    {
      "epoch": 0.5351119091900212,
      "grad_norm": 55.92557144165039,
      "learning_rate": 5e-06,
      "loss": 0.9758,
      "num_input_tokens_seen": 263541816,
      "step": 2086
    },
    {
      "epoch": 0.5351119091900212,
      "loss": 1.0558348894119263,
      "loss_ce": 0.0011474149068817496,
      "loss_iou": 0.4921875,
      "loss_num": 0.0142822265625,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 263541816,
      "step": 2086
    },
    {
      "epoch": 0.5353684345539665,
      "grad_norm": 49.26450729370117,
      "learning_rate": 5e-06,
      "loss": 1.1182,
      "num_input_tokens_seen": 263667964,
      "step": 2087
    },
    {
      "epoch": 0.5353684345539665,
      "loss": 1.134372353553772,
      "loss_ce": 9.501622116658837e-05,
      "loss_iou": 0.5234375,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 263667964,
      "step": 2087
    },
    {
      "epoch": 0.5356249599179119,
      "grad_norm": 72.46296691894531,
      "learning_rate": 5e-06,
      "loss": 0.9783,
      "num_input_tokens_seen": 263794164,
      "step": 2088
    },
    {
      "epoch": 0.5356249599179119,
      "loss": 1.0113887786865234,
      "loss_ce": 0.0006465716869570315,
      "loss_iou": 0.44921875,
      "loss_num": 0.0224609375,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 263794164,
      "step": 2088
    },
    {
      "epoch": 0.5358814852818572,
      "grad_norm": 47.740135192871094,
      "learning_rate": 5e-06,
      "loss": 1.0123,
      "num_input_tokens_seen": 263921292,
      "step": 2089
    },
    {
      "epoch": 0.5358814852818572,
      "loss": 1.0711369514465332,
      "loss_ce": 0.0003361757844686508,
      "loss_iou": 0.5,
      "loss_num": 0.013671875,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 263921292,
      "step": 2089
    },
    {
      "epoch": 0.5361380106458026,
      "grad_norm": 29.275177001953125,
      "learning_rate": 5e-06,
      "loss": 1.0673,
      "num_input_tokens_seen": 264047640,
      "step": 2090
    },
    {
      "epoch": 0.5361380106458026,
      "loss": 0.8927761316299438,
      "loss_ce": 0.0001980327069759369,
      "loss_iou": 0.41796875,
      "loss_num": 0.01171875,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 264047640,
      "step": 2090
    },
    {
      "epoch": 0.536394536009748,
      "grad_norm": 37.165740966796875,
      "learning_rate": 5e-06,
      "loss": 0.9723,
      "num_input_tokens_seen": 264174040,
      "step": 2091
    },
    {
      "epoch": 0.536394536009748,
      "loss": 0.82999187707901,
      "loss_ce": 0.0008903021225705743,
      "loss_iou": 0.396484375,
      "loss_num": 0.00750732421875,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 264174040,
      "step": 2091
    },
    {
      "epoch": 0.5366510613736933,
      "grad_norm": 40.464481353759766,
      "learning_rate": 5e-06,
      "loss": 0.9966,
      "num_input_tokens_seen": 264299740,
      "step": 2092
    },
    {
      "epoch": 0.5366510613736933,
      "loss": 0.9600374698638916,
      "loss_ce": 0.0010531266452744603,
      "loss_iou": 0.4453125,
      "loss_num": 0.01324462890625,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 264299740,
      "step": 2092
    },
    {
      "epoch": 0.5369075867376387,
      "grad_norm": 50.954219818115234,
      "learning_rate": 5e-06,
      "loss": 1.005,
      "num_input_tokens_seen": 264425748,
      "step": 2093
    },
    {
      "epoch": 0.5369075867376387,
      "loss": 1.2320711612701416,
      "loss_ce": 0.001114225946366787,
      "loss_iou": 0.546875,
      "loss_num": 0.0267333984375,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 264425748,
      "step": 2093
    },
    {
      "epoch": 0.537164112101584,
      "grad_norm": 56.79198455810547,
      "learning_rate": 5e-06,
      "loss": 1.0554,
      "num_input_tokens_seen": 264551524,
      "step": 2094
    },
    {
      "epoch": 0.537164112101584,
      "loss": 1.1725119352340698,
      "loss_ce": 0.0011252060066908598,
      "loss_iou": 0.54296875,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 264551524,
      "step": 2094
    },
    {
      "epoch": 0.5374206374655294,
      "grad_norm": 56.64177322387695,
      "learning_rate": 5e-06,
      "loss": 1.0224,
      "num_input_tokens_seen": 264677548,
      "step": 2095
    },
    {
      "epoch": 0.5374206374655294,
      "loss": 0.9041236639022827,
      "loss_ce": 0.0017798690823838115,
      "loss_iou": 0.421875,
      "loss_num": 0.01190185546875,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 264677548,
      "step": 2095
    },
    {
      "epoch": 0.5376771628294748,
      "grad_norm": 72.38475799560547,
      "learning_rate": 5e-06,
      "loss": 1.0472,
      "num_input_tokens_seen": 264804268,
      "step": 2096
    },
    {
      "epoch": 0.5376771628294748,
      "loss": 0.8928656578063965,
      "loss_ce": 0.0012641348876059055,
      "loss_iou": 0.427734375,
      "loss_num": 0.007568359375,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 264804268,
      "step": 2096
    },
    {
      "epoch": 0.5379336881934201,
      "grad_norm": 53.33441925048828,
      "learning_rate": 5e-06,
      "loss": 1.0501,
      "num_input_tokens_seen": 264930808,
      "step": 2097
    },
    {
      "epoch": 0.5379336881934201,
      "loss": 1.0408732891082764,
      "loss_ce": 0.0008341382490471005,
      "loss_iou": 0.4765625,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 264930808,
      "step": 2097
    },
    {
      "epoch": 0.5381902135573655,
      "grad_norm": 37.2518310546875,
      "learning_rate": 5e-06,
      "loss": 0.9148,
      "num_input_tokens_seen": 265056252,
      "step": 2098
    },
    {
      "epoch": 0.5381902135573655,
      "loss": 0.9820123910903931,
      "loss_ce": 0.002031923271715641,
      "loss_iou": 0.44921875,
      "loss_num": 0.016845703125,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 265056252,
      "step": 2098
    },
    {
      "epoch": 0.5384467389213109,
      "grad_norm": 43.92380142211914,
      "learning_rate": 5e-06,
      "loss": 1.0086,
      "num_input_tokens_seen": 265182280,
      "step": 2099
    },
    {
      "epoch": 0.5384467389213109,
      "loss": 1.1232231855392456,
      "loss_ce": 0.00017635090625844896,
      "loss_iou": 0.51953125,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 265182280,
      "step": 2099
    },
    {
      "epoch": 0.5387032642852562,
      "grad_norm": 46.41405487060547,
      "learning_rate": 5e-06,
      "loss": 1.0656,
      "num_input_tokens_seen": 265307596,
      "step": 2100
    },
    {
      "epoch": 0.5387032642852562,
      "loss": 0.9010828733444214,
      "loss_ce": 0.00020397522894199938,
      "loss_iou": 0.421875,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 265307596,
      "step": 2100
    },
    {
      "epoch": 0.5389597896492015,
      "grad_norm": 60.35308074951172,
      "learning_rate": 5e-06,
      "loss": 0.9506,
      "num_input_tokens_seen": 265435036,
      "step": 2101
    },
    {
      "epoch": 0.5389597896492015,
      "loss": 0.898063600063324,
      "loss_ce": 0.00011439137597335503,
      "loss_iou": 0.4296875,
      "loss_num": 0.00799560546875,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 265435036,
      "step": 2101
    },
    {
      "epoch": 0.5392163150131469,
      "grad_norm": 67.0765609741211,
      "learning_rate": 5e-06,
      "loss": 1.0711,
      "num_input_tokens_seen": 265561928,
      "step": 2102
    },
    {
      "epoch": 0.5392163150131469,
      "loss": 1.253767967224121,
      "loss_ce": 0.0008383337408304214,
      "loss_iou": 0.546875,
      "loss_num": 0.031494140625,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 265561928,
      "step": 2102
    },
    {
      "epoch": 0.5394728403770923,
      "grad_norm": 42.50312042236328,
      "learning_rate": 5e-06,
      "loss": 1.052,
      "num_input_tokens_seen": 265688548,
      "step": 2103
    },
    {
      "epoch": 0.5394728403770923,
      "loss": 1.1814442873001099,
      "loss_ce": 0.0027332683093845844,
      "loss_iou": 0.54296875,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 265688548,
      "step": 2103
    },
    {
      "epoch": 0.5397293657410377,
      "grad_norm": 36.89691162109375,
      "learning_rate": 5e-06,
      "loss": 0.8981,
      "num_input_tokens_seen": 265815136,
      "step": 2104
    },
    {
      "epoch": 0.5397293657410377,
      "loss": 0.7750831842422485,
      "loss_ce": 0.0006691482849419117,
      "loss_iou": 0.365234375,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 265815136,
      "step": 2104
    },
    {
      "epoch": 0.539985891104983,
      "grad_norm": 54.39409637451172,
      "learning_rate": 5e-06,
      "loss": 0.9647,
      "num_input_tokens_seen": 265941888,
      "step": 2105
    },
    {
      "epoch": 0.539985891104983,
      "loss": 0.8402824401855469,
      "loss_ce": 0.0009269589791074395,
      "loss_iou": 0.400390625,
      "loss_num": 0.007781982421875,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 265941888,
      "step": 2105
    },
    {
      "epoch": 0.5402424164689283,
      "grad_norm": 94.0919418334961,
      "learning_rate": 5e-06,
      "loss": 0.948,
      "num_input_tokens_seen": 266069588,
      "step": 2106
    },
    {
      "epoch": 0.5402424164689283,
      "loss": 1.1261759996414185,
      "loss_ce": 0.000687680090777576,
      "loss_iou": 0.5078125,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 266069588,
      "step": 2106
    },
    {
      "epoch": 0.5404989418328737,
      "grad_norm": 46.682376861572266,
      "learning_rate": 5e-06,
      "loss": 1.0133,
      "num_input_tokens_seen": 266195316,
      "step": 2107
    },
    {
      "epoch": 0.5404989418328737,
      "loss": 1.013458490371704,
      "loss_ce": 0.002227941993623972,
      "loss_iou": 0.470703125,
      "loss_num": 0.01385498046875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 266195316,
      "step": 2107
    },
    {
      "epoch": 0.5407554671968191,
      "grad_norm": 47.0839729309082,
      "learning_rate": 5e-06,
      "loss": 1.1385,
      "num_input_tokens_seen": 266321136,
      "step": 2108
    },
    {
      "epoch": 0.5407554671968191,
      "loss": 1.0807347297668457,
      "loss_ce": 0.00016831718676257879,
      "loss_iou": 0.49609375,
      "loss_num": 0.017822265625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 266321136,
      "step": 2108
    },
    {
      "epoch": 0.5410119925607645,
      "grad_norm": 121.5799331665039,
      "learning_rate": 5e-06,
      "loss": 0.9561,
      "num_input_tokens_seen": 266446684,
      "step": 2109
    },
    {
      "epoch": 0.5410119925607645,
      "loss": 0.9339656829833984,
      "loss_ce": 0.0020809448324143887,
      "loss_iou": 0.42578125,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 266446684,
      "step": 2109
    },
    {
      "epoch": 0.5412685179247098,
      "grad_norm": 82.39623260498047,
      "learning_rate": 5e-06,
      "loss": 0.9443,
      "num_input_tokens_seen": 266571880,
      "step": 2110
    },
    {
      "epoch": 0.5412685179247098,
      "loss": 1.2025458812713623,
      "loss_ce": 0.0018622784409672022,
      "loss_iou": 0.5390625,
      "loss_num": 0.02490234375,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 266571880,
      "step": 2110
    },
    {
      "epoch": 0.5415250432886551,
      "grad_norm": 66.57891082763672,
      "learning_rate": 5e-06,
      "loss": 1.0593,
      "num_input_tokens_seen": 266697428,
      "step": 2111
    },
    {
      "epoch": 0.5415250432886551,
      "loss": 1.0473248958587646,
      "loss_ce": 0.0028913640417158604,
      "loss_iou": 0.48828125,
      "loss_num": 0.01348876953125,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 266697428,
      "step": 2111
    },
    {
      "epoch": 0.5417815686526005,
      "grad_norm": 53.899478912353516,
      "learning_rate": 5e-06,
      "loss": 1.1905,
      "num_input_tokens_seen": 266823344,
      "step": 2112
    },
    {
      "epoch": 0.5417815686526005,
      "loss": 1.0762308835983276,
      "loss_ce": 0.0005472815246321261,
      "loss_iou": 0.490234375,
      "loss_num": 0.019287109375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 266823344,
      "step": 2112
    },
    {
      "epoch": 0.5420380940165459,
      "grad_norm": 64.96749877929688,
      "learning_rate": 5e-06,
      "loss": 0.9231,
      "num_input_tokens_seen": 266949492,
      "step": 2113
    },
    {
      "epoch": 0.5420380940165459,
      "loss": 0.9782789945602417,
      "loss_ce": 0.0002516743843443692,
      "loss_iou": 0.451171875,
      "loss_num": 0.01483154296875,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 266949492,
      "step": 2113
    },
    {
      "epoch": 0.5422946193804913,
      "grad_norm": 47.526214599609375,
      "learning_rate": 5e-06,
      "loss": 1.0716,
      "num_input_tokens_seen": 267075680,
      "step": 2114
    },
    {
      "epoch": 0.5422946193804913,
      "loss": 1.0502417087554932,
      "loss_ce": 0.0023901346139609814,
      "loss_iou": 0.48828125,
      "loss_num": 0.0145263671875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 267075680,
      "step": 2114
    },
    {
      "epoch": 0.5425511447444366,
      "grad_norm": 42.529056549072266,
      "learning_rate": 5e-06,
      "loss": 0.9864,
      "num_input_tokens_seen": 267201856,
      "step": 2115
    },
    {
      "epoch": 0.5425511447444366,
      "loss": 1.019618034362793,
      "loss_ce": 0.0017958551179617643,
      "loss_iou": 0.458984375,
      "loss_num": 0.02001953125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 267201856,
      "step": 2115
    },
    {
      "epoch": 0.5428076701083819,
      "grad_norm": 45.037940979003906,
      "learning_rate": 5e-06,
      "loss": 1.1219,
      "num_input_tokens_seen": 267327800,
      "step": 2116
    },
    {
      "epoch": 0.5428076701083819,
      "loss": 1.0114860534667969,
      "loss_ce": 0.0007439473993144929,
      "loss_iou": 0.474609375,
      "loss_num": 0.01239013671875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 267327800,
      "step": 2116
    },
    {
      "epoch": 0.5430641954723273,
      "grad_norm": 83.9783706665039,
      "learning_rate": 5e-06,
      "loss": 0.9942,
      "num_input_tokens_seen": 267455312,
      "step": 2117
    },
    {
      "epoch": 0.5430641954723273,
      "loss": 0.8030752539634705,
      "loss_ce": 0.0008291855338029563,
      "loss_iou": 0.380859375,
      "loss_num": 0.00811767578125,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 267455312,
      "step": 2117
    },
    {
      "epoch": 0.5433207208362727,
      "grad_norm": 49.639915466308594,
      "learning_rate": 5e-06,
      "loss": 1.1809,
      "num_input_tokens_seen": 267581432,
      "step": 2118
    },
    {
      "epoch": 0.5433207208362727,
      "loss": 1.131028175354004,
      "loss_ce": 0.00016879536269698292,
      "loss_iou": 0.51171875,
      "loss_num": 0.02099609375,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 267581432,
      "step": 2118
    },
    {
      "epoch": 0.5435772462002181,
      "grad_norm": 38.80513381958008,
      "learning_rate": 5e-06,
      "loss": 0.9699,
      "num_input_tokens_seen": 267708640,
      "step": 2119
    },
    {
      "epoch": 0.5435772462002181,
      "loss": 0.8178186416625977,
      "loss_ce": 0.0004358667938504368,
      "loss_iou": 0.384765625,
      "loss_num": 0.00970458984375,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 267708640,
      "step": 2119
    },
    {
      "epoch": 0.5438337715641635,
      "grad_norm": 39.514888763427734,
      "learning_rate": 5e-06,
      "loss": 0.9586,
      "num_input_tokens_seen": 267835092,
      "step": 2120
    },
    {
      "epoch": 0.5438337715641635,
      "loss": 0.9574585556983948,
      "loss_ce": 0.0009155633742921054,
      "loss_iou": 0.439453125,
      "loss_num": 0.0152587890625,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 267835092,
      "step": 2120
    },
    {
      "epoch": 0.5440902969281087,
      "grad_norm": 34.515296936035156,
      "learning_rate": 5e-06,
      "loss": 1.0174,
      "num_input_tokens_seen": 267961232,
      "step": 2121
    },
    {
      "epoch": 0.5440902969281087,
      "loss": 1.189612865447998,
      "loss_ce": 0.003821855876594782,
      "loss_iou": 0.5078125,
      "loss_num": 0.033935546875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 267961232,
      "step": 2121
    },
    {
      "epoch": 0.5443468222920541,
      "grad_norm": 38.70262145996094,
      "learning_rate": 5e-06,
      "loss": 1.121,
      "num_input_tokens_seen": 268088204,
      "step": 2122
    },
    {
      "epoch": 0.5443468222920541,
      "loss": 0.9582158923149109,
      "loss_ce": 0.00020808368572033942,
      "loss_iou": 0.44921875,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 268088204,
      "step": 2122
    },
    {
      "epoch": 0.5446033476559995,
      "grad_norm": 61.40644073486328,
      "learning_rate": 5e-06,
      "loss": 1.0146,
      "num_input_tokens_seen": 268213664,
      "step": 2123
    },
    {
      "epoch": 0.5446033476559995,
      "loss": 0.96445631980896,
      "loss_ce": 0.001077447202987969,
      "loss_iou": 0.462890625,
      "loss_num": 0.007293701171875,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 268213664,
      "step": 2123
    },
    {
      "epoch": 0.5448598730199449,
      "grad_norm": 70.07954406738281,
      "learning_rate": 5e-06,
      "loss": 0.9306,
      "num_input_tokens_seen": 268338852,
      "step": 2124
    },
    {
      "epoch": 0.5448598730199449,
      "loss": 0.8717406988143921,
      "loss_ce": 0.00015870352217461914,
      "loss_iou": 0.400390625,
      "loss_num": 0.0137939453125,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 268338852,
      "step": 2124
    },
    {
      "epoch": 0.5451163983838903,
      "grad_norm": 55.85931396484375,
      "learning_rate": 5e-06,
      "loss": 1.137,
      "num_input_tokens_seen": 268464968,
      "step": 2125
    },
    {
      "epoch": 0.5451163983838903,
      "loss": 1.2699817419052124,
      "loss_ce": 0.0024035810492932796,
      "loss_iou": 0.55859375,
      "loss_num": 0.02978515625,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 268464968,
      "step": 2125
    },
    {
      "epoch": 0.5453729237478355,
      "grad_norm": 44.16478729248047,
      "learning_rate": 5e-06,
      "loss": 0.9297,
      "num_input_tokens_seen": 268590184,
      "step": 2126
    },
    {
      "epoch": 0.5453729237478355,
      "loss": 0.9815386533737183,
      "loss_ce": 0.0005816075135953724,
      "loss_iou": 0.45703125,
      "loss_num": 0.01361083984375,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 268590184,
      "step": 2126
    },
    {
      "epoch": 0.5456294491117809,
      "grad_norm": 47.63579559326172,
      "learning_rate": 5e-06,
      "loss": 1.019,
      "num_input_tokens_seen": 268716004,
      "step": 2127
    },
    {
      "epoch": 0.5456294491117809,
      "loss": 0.8909671902656555,
      "loss_ce": 0.0013187576550990343,
      "loss_iou": 0.42578125,
      "loss_num": 0.007781982421875,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 268716004,
      "step": 2127
    },
    {
      "epoch": 0.5458859744757263,
      "grad_norm": 55.660037994384766,
      "learning_rate": 5e-06,
      "loss": 1.039,
      "num_input_tokens_seen": 268841724,
      "step": 2128
    },
    {
      "epoch": 0.5458859744757263,
      "loss": 0.857921302318573,
      "loss_ce": 0.000255302875302732,
      "loss_iou": 0.408203125,
      "loss_num": 0.008056640625,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 268841724,
      "step": 2128
    },
    {
      "epoch": 0.5461424998396717,
      "grad_norm": 55.69803237915039,
      "learning_rate": 5e-06,
      "loss": 0.9305,
      "num_input_tokens_seen": 268968076,
      "step": 2129
    },
    {
      "epoch": 0.5461424998396717,
      "loss": 0.8947121500968933,
      "loss_ce": 0.0006691922899335623,
      "loss_iou": 0.41015625,
      "loss_num": 0.01434326171875,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 268968076,
      "step": 2129
    },
    {
      "epoch": 0.546399025203617,
      "grad_norm": 58.61482620239258,
      "learning_rate": 5e-06,
      "loss": 0.9976,
      "num_input_tokens_seen": 269093888,
      "step": 2130
    },
    {
      "epoch": 0.546399025203617,
      "loss": 0.8794206976890564,
      "loss_ce": 0.0005144798778928816,
      "loss_iou": 0.404296875,
      "loss_num": 0.01416015625,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 269093888,
      "step": 2130
    },
    {
      "epoch": 0.5466555505675623,
      "grad_norm": 55.62767791748047,
      "learning_rate": 5e-06,
      "loss": 1.021,
      "num_input_tokens_seen": 269219476,
      "step": 2131
    },
    {
      "epoch": 0.5466555505675623,
      "loss": 1.015055537223816,
      "loss_ce": 0.0004070880531799048,
      "loss_iou": 0.4609375,
      "loss_num": 0.0184326171875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 269219476,
      "step": 2131
    },
    {
      "epoch": 0.5469120759315077,
      "grad_norm": 58.013999938964844,
      "learning_rate": 5e-06,
      "loss": 1.0366,
      "num_input_tokens_seen": 269345816,
      "step": 2132
    },
    {
      "epoch": 0.5469120759315077,
      "loss": 0.8907912373542786,
      "loss_ce": 0.0016310925129801035,
      "loss_iou": 0.421875,
      "loss_num": 0.00885009765625,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 269345816,
      "step": 2132
    },
    {
      "epoch": 0.5471686012954531,
      "grad_norm": 53.57046127319336,
      "learning_rate": 5e-06,
      "loss": 0.9389,
      "num_input_tokens_seen": 269471828,
      "step": 2133
    },
    {
      "epoch": 0.5471686012954531,
      "loss": 0.962139368057251,
      "loss_ce": 0.00022528968111146241,
      "loss_iou": 0.45703125,
      "loss_num": 0.00958251953125,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 269471828,
      "step": 2133
    },
    {
      "epoch": 0.5474251266593985,
      "grad_norm": 61.3003044128418,
      "learning_rate": 5e-06,
      "loss": 0.932,
      "num_input_tokens_seen": 269598460,
      "step": 2134
    },
    {
      "epoch": 0.5474251266593985,
      "loss": 1.0221776962280273,
      "loss_ce": 0.0006932877004146576,
      "loss_iou": 0.48828125,
      "loss_num": 0.0086669921875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 269598460,
      "step": 2134
    },
    {
      "epoch": 0.5476816520233438,
      "grad_norm": 78.01315307617188,
      "learning_rate": 5e-06,
      "loss": 1.0817,
      "num_input_tokens_seen": 269725080,
      "step": 2135
    },
    {
      "epoch": 0.5476816520233438,
      "loss": 1.1220242977142334,
      "loss_ce": 0.008743060752749443,
      "loss_iou": 0.51171875,
      "loss_num": 0.017333984375,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 269725080,
      "step": 2135
    },
    {
      "epoch": 0.5479381773872891,
      "grad_norm": 34.92867660522461,
      "learning_rate": 5e-06,
      "loss": 1.1083,
      "num_input_tokens_seen": 269852228,
      "step": 2136
    },
    {
      "epoch": 0.5479381773872891,
      "loss": 1.1481385231018066,
      "loss_ce": 0.0021424058359116316,
      "loss_iou": 0.50390625,
      "loss_num": 0.0283203125,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 269852228,
      "step": 2136
    },
    {
      "epoch": 0.5481947027512345,
      "grad_norm": 33.52834701538086,
      "learning_rate": 5e-06,
      "loss": 0.9694,
      "num_input_tokens_seen": 269978028,
      "step": 2137
    },
    {
      "epoch": 0.5481947027512345,
      "loss": 0.9784095287322998,
      "loss_ce": 0.00038218265399336815,
      "loss_iou": 0.458984375,
      "loss_num": 0.011962890625,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 269978028,
      "step": 2137
    },
    {
      "epoch": 0.5484512281151799,
      "grad_norm": 49.01051330566406,
      "learning_rate": 5e-06,
      "loss": 1.0676,
      "num_input_tokens_seen": 270102788,
      "step": 2138
    },
    {
      "epoch": 0.5484512281151799,
      "loss": 1.2084213495254517,
      "loss_ce": 0.003343298565596342,
      "loss_iou": 0.5390625,
      "loss_num": 0.0257568359375,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 270102788,
      "step": 2138
    },
    {
      "epoch": 0.5487077534791253,
      "grad_norm": 56.64397430419922,
      "learning_rate": 5e-06,
      "loss": 0.9598,
      "num_input_tokens_seen": 270230132,
      "step": 2139
    },
    {
      "epoch": 0.5487077534791253,
      "loss": 0.8916265368461609,
      "loss_ce": 0.000757417525164783,
      "loss_iou": 0.404296875,
      "loss_num": 0.016357421875,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 270230132,
      "step": 2139
    },
    {
      "epoch": 0.5489642788430706,
      "grad_norm": 66.61978912353516,
      "learning_rate": 5e-06,
      "loss": 1.0814,
      "num_input_tokens_seen": 270355536,
      "step": 2140
    },
    {
      "epoch": 0.5489642788430706,
      "loss": 1.0252015590667725,
      "loss_ce": 0.0002991966321133077,
      "loss_iou": 0.46484375,
      "loss_num": 0.019287109375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 270355536,
      "step": 2140
    },
    {
      "epoch": 0.549220804207016,
      "grad_norm": 52.71894073486328,
      "learning_rate": 5e-06,
      "loss": 1.0015,
      "num_input_tokens_seen": 270482284,
      "step": 2141
    },
    {
      "epoch": 0.549220804207016,
      "loss": 0.8125232458114624,
      "loss_ce": 0.0027088166680186987,
      "loss_iou": 0.390625,
      "loss_num": 0.005889892578125,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 270482284,
      "step": 2141
    },
    {
      "epoch": 0.5494773295709613,
      "grad_norm": 58.62114715576172,
      "learning_rate": 5e-06,
      "loss": 1.004,
      "num_input_tokens_seen": 270607936,
      "step": 2142
    },
    {
      "epoch": 0.5494773295709613,
      "loss": 0.9550107717514038,
      "loss_ce": 0.0004209047183394432,
      "loss_iou": 0.447265625,
      "loss_num": 0.01202392578125,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 270607936,
      "step": 2142
    },
    {
      "epoch": 0.5497338549349067,
      "grad_norm": 56.06010437011719,
      "learning_rate": 5e-06,
      "loss": 1.009,
      "num_input_tokens_seen": 270735312,
      "step": 2143
    },
    {
      "epoch": 0.5497338549349067,
      "loss": 1.1710991859436035,
      "loss_ce": 0.0006889746291562915,
      "loss_iou": 0.51171875,
      "loss_num": 0.0294189453125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 270735312,
      "step": 2143
    },
    {
      "epoch": 0.549990380298852,
      "grad_norm": 81.80115509033203,
      "learning_rate": 5e-06,
      "loss": 0.8764,
      "num_input_tokens_seen": 270862356,
      "step": 2144
    },
    {
      "epoch": 0.549990380298852,
      "loss": 0.8314216136932373,
      "loss_ce": 0.00036692360299639404,
      "loss_iou": 0.3984375,
      "loss_num": 0.007232666015625,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 270862356,
      "step": 2144
    },
    {
      "epoch": 0.5502469056627974,
      "grad_norm": 51.825828552246094,
      "learning_rate": 5e-06,
      "loss": 1.0258,
      "num_input_tokens_seen": 270988392,
      "step": 2145
    },
    {
      "epoch": 0.5502469056627974,
      "loss": 1.1485607624053955,
      "loss_ce": 0.0006115525029599667,
      "loss_iou": 0.5234375,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 270988392,
      "step": 2145
    },
    {
      "epoch": 0.5505034310267428,
      "grad_norm": 28.81943130493164,
      "learning_rate": 5e-06,
      "loss": 1.0492,
      "num_input_tokens_seen": 271114836,
      "step": 2146
    },
    {
      "epoch": 0.5505034310267428,
      "loss": 1.1482787132263184,
      "loss_ce": 0.0008176739793270826,
      "loss_iou": 0.5234375,
      "loss_num": 0.02099609375,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 271114836,
      "step": 2146
    },
    {
      "epoch": 0.5507599563906881,
      "grad_norm": 61.013492584228516,
      "learning_rate": 5e-06,
      "loss": 0.9869,
      "num_input_tokens_seen": 271241620,
      "step": 2147
    },
    {
      "epoch": 0.5507599563906881,
      "loss": 1.1906027793884277,
      "loss_ce": 0.001637935172766447,
      "loss_iou": 0.5390625,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 271241620,
      "step": 2147
    },
    {
      "epoch": 0.5510164817546335,
      "grad_norm": 36.55144500732422,
      "learning_rate": 5e-06,
      "loss": 0.9661,
      "num_input_tokens_seen": 271367496,
      "step": 2148
    },
    {
      "epoch": 0.5510164817546335,
      "loss": 1.0258122682571411,
      "loss_ce": 0.003107182215899229,
      "loss_iou": 0.46875,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 271367496,
      "step": 2148
    },
    {
      "epoch": 0.5512730071185789,
      "grad_norm": 54.136756896972656,
      "learning_rate": 5e-06,
      "loss": 1.0658,
      "num_input_tokens_seen": 271492988,
      "step": 2149
    },
    {
      "epoch": 0.5512730071185789,
      "loss": 1.2213716506958008,
      "loss_ce": 0.0011567166075110435,
      "loss_iou": 0.5390625,
      "loss_num": 0.0289306640625,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 271492988,
      "step": 2149
    },
    {
      "epoch": 0.5515295324825242,
      "grad_norm": 47.745819091796875,
      "learning_rate": 5e-06,
      "loss": 1.074,
      "num_input_tokens_seen": 271619140,
      "step": 2150
    },
    {
      "epoch": 0.5515295324825242,
      "loss": 1.0508285760879517,
      "loss_ce": 0.001512161223217845,
      "loss_iou": 0.478515625,
      "loss_num": 0.0185546875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 271619140,
      "step": 2150
    },
    {
      "epoch": 0.5517860578464696,
      "grad_norm": 44.93907928466797,
      "learning_rate": 5e-06,
      "loss": 0.9402,
      "num_input_tokens_seen": 271746040,
      "step": 2151
    },
    {
      "epoch": 0.5517860578464696,
      "loss": 1.0632290840148926,
      "loss_ce": 0.0021939321886748075,
      "loss_iou": 0.47265625,
      "loss_num": 0.023681640625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 271746040,
      "step": 2151
    },
    {
      "epoch": 0.5520425832104149,
      "grad_norm": 45.39997863769531,
      "learning_rate": 5e-06,
      "loss": 1.0234,
      "num_input_tokens_seen": 271871752,
      "step": 2152
    },
    {
      "epoch": 0.5520425832104149,
      "loss": 1.1427688598632812,
      "loss_ce": 0.0016555471811443567,
      "loss_iou": 0.5078125,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 271871752,
      "step": 2152
    },
    {
      "epoch": 0.5522991085743603,
      "grad_norm": 37.655242919921875,
      "learning_rate": 5e-06,
      "loss": 0.9044,
      "num_input_tokens_seen": 271998424,
      "step": 2153
    },
    {
      "epoch": 0.5522991085743603,
      "loss": 0.8761508464813232,
      "loss_ce": 0.0006625698879361153,
      "loss_iou": 0.41015625,
      "loss_num": 0.01165771484375,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 271998424,
      "step": 2153
    },
    {
      "epoch": 0.5525556339383056,
      "grad_norm": 44.13722610473633,
      "learning_rate": 5e-06,
      "loss": 0.9682,
      "num_input_tokens_seen": 272124068,
      "step": 2154
    },
    {
      "epoch": 0.5525556339383056,
      "loss": 1.0537773370742798,
      "loss_ce": 0.001531238667666912,
      "loss_iou": 0.490234375,
      "loss_num": 0.0140380859375,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 272124068,
      "step": 2154
    },
    {
      "epoch": 0.552812159302251,
      "grad_norm": 69.09748840332031,
      "learning_rate": 5e-06,
      "loss": 1.0137,
      "num_input_tokens_seen": 272250312,
      "step": 2155
    },
    {
      "epoch": 0.552812159302251,
      "loss": 1.1132103204727173,
      "loss_ce": 0.0013938801130279899,
      "loss_iou": 0.50390625,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 272250312,
      "step": 2155
    },
    {
      "epoch": 0.5530686846661964,
      "grad_norm": 46.14149856567383,
      "learning_rate": 5e-06,
      "loss": 1.0609,
      "num_input_tokens_seen": 272376844,
      "step": 2156
    },
    {
      "epoch": 0.5530686846661964,
      "loss": 0.9626413583755493,
      "loss_ce": 0.0012156126322224736,
      "loss_iou": 0.453125,
      "loss_num": 0.01104736328125,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 272376844,
      "step": 2156
    },
    {
      "epoch": 0.5533252100301417,
      "grad_norm": 38.04602813720703,
      "learning_rate": 5e-06,
      "loss": 1.0121,
      "num_input_tokens_seen": 272503132,
      "step": 2157
    },
    {
      "epoch": 0.5533252100301417,
      "loss": 0.9741703271865845,
      "loss_ce": 0.0020023779943585396,
      "loss_iou": 0.46484375,
      "loss_num": 0.0086669921875,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 272503132,
      "step": 2157
    },
    {
      "epoch": 0.5535817353940871,
      "grad_norm": 65.8387680053711,
      "learning_rate": 5e-06,
      "loss": 1.0699,
      "num_input_tokens_seen": 272629612,
      "step": 2158
    },
    {
      "epoch": 0.5535817353940871,
      "loss": 0.9537357091903687,
      "loss_ce": 0.0006106970831751823,
      "loss_iou": 0.44140625,
      "loss_num": 0.0142822265625,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 272629612,
      "step": 2158
    },
    {
      "epoch": 0.5538382607580324,
      "grad_norm": 46.574363708496094,
      "learning_rate": 5e-06,
      "loss": 1.1261,
      "num_input_tokens_seen": 272755824,
      "step": 2159
    },
    {
      "epoch": 0.5538382607580324,
      "loss": 1.1293259859085083,
      "loss_ce": 0.0013962624361738563,
      "loss_iou": 0.53515625,
      "loss_num": 0.0113525390625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 272755824,
      "step": 2159
    },
    {
      "epoch": 0.5540947861219778,
      "grad_norm": 19.270292282104492,
      "learning_rate": 5e-06,
      "loss": 0.9316,
      "num_input_tokens_seen": 272882396,
      "step": 2160
    },
    {
      "epoch": 0.5540947861219778,
      "loss": 0.8904005289077759,
      "loss_ce": 0.00026382392388768494,
      "loss_iou": 0.416015625,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 272882396,
      "step": 2160
    },
    {
      "epoch": 0.5543513114859232,
      "grad_norm": 49.630828857421875,
      "learning_rate": 5e-06,
      "loss": 0.9658,
      "num_input_tokens_seen": 273007604,
      "step": 2161
    },
    {
      "epoch": 0.5543513114859232,
      "loss": 0.9311999082565308,
      "loss_ce": 0.0010241307318210602,
      "loss_iou": 0.44140625,
      "loss_num": 0.009521484375,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 273007604,
      "step": 2161
    },
    {
      "epoch": 0.5546078368498686,
      "grad_norm": 48.589176177978516,
      "learning_rate": 5e-06,
      "loss": 0.9535,
      "num_input_tokens_seen": 273133924,
      "step": 2162
    },
    {
      "epoch": 0.5546078368498686,
      "loss": 1.0551153421401978,
      "loss_ce": 0.0014043827541172504,
      "loss_iou": 0.470703125,
      "loss_num": 0.022216796875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 273133924,
      "step": 2162
    },
    {
      "epoch": 0.5548643622138139,
      "grad_norm": 72.10095977783203,
      "learning_rate": 5e-06,
      "loss": 1.0516,
      "num_input_tokens_seen": 273259956,
      "step": 2163
    },
    {
      "epoch": 0.5548643622138139,
      "loss": 1.0538641214370728,
      "loss_ce": 0.0030828583985567093,
      "loss_iou": 0.48046875,
      "loss_num": 0.018310546875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 273259956,
      "step": 2163
    },
    {
      "epoch": 0.5551208875777592,
      "grad_norm": 45.352169036865234,
      "learning_rate": 5e-06,
      "loss": 1.1766,
      "num_input_tokens_seen": 273386328,
      "step": 2164
    },
    {
      "epoch": 0.5551208875777592,
      "loss": 1.4658281803131104,
      "loss_ce": 0.004402323625981808,
      "loss_iou": 0.62890625,
      "loss_num": 0.04150390625,
      "loss_xval": 1.4609375,
      "num_input_tokens_seen": 273386328,
      "step": 2164
    },
    {
      "epoch": 0.5553774129417046,
      "grad_norm": 43.19377136230469,
      "learning_rate": 5e-06,
      "loss": 0.9162,
      "num_input_tokens_seen": 273512804,
      "step": 2165
    },
    {
      "epoch": 0.5553774129417046,
      "loss": 0.9367334246635437,
      "loss_ce": 0.0002100106212310493,
      "loss_iou": 0.4453125,
      "loss_num": 0.00927734375,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 273512804,
      "step": 2165
    },
    {
      "epoch": 0.55563393830565,
      "grad_norm": 60.92735290527344,
      "learning_rate": 5e-06,
      "loss": 0.9659,
      "num_input_tokens_seen": 273638044,
      "step": 2166
    },
    {
      "epoch": 0.55563393830565,
      "loss": 0.9743404388427734,
      "loss_ce": 0.0007076432812027633,
      "loss_iou": 0.462890625,
      "loss_num": 0.00970458984375,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 273638044,
      "step": 2166
    },
    {
      "epoch": 0.5558904636695954,
      "grad_norm": 43.77385330200195,
      "learning_rate": 5e-06,
      "loss": 0.9745,
      "num_input_tokens_seen": 273763268,
      "step": 2167
    },
    {
      "epoch": 0.5558904636695954,
      "loss": 1.0535348653793335,
      "loss_ce": 0.0003121637855656445,
      "loss_iou": 0.46875,
      "loss_num": 0.02294921875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 273763268,
      "step": 2167
    },
    {
      "epoch": 0.5561469890335407,
      "grad_norm": 31.93846321105957,
      "learning_rate": 5e-06,
      "loss": 1.0314,
      "num_input_tokens_seen": 273890128,
      "step": 2168
    },
    {
      "epoch": 0.5561469890335407,
      "loss": 1.172947883605957,
      "loss_ce": 0.0025377371348440647,
      "loss_iou": 0.51953125,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 273890128,
      "step": 2168
    },
    {
      "epoch": 0.556403514397486,
      "grad_norm": 37.651084899902344,
      "learning_rate": 5e-06,
      "loss": 1.0237,
      "num_input_tokens_seen": 274016404,
      "step": 2169
    },
    {
      "epoch": 0.556403514397486,
      "loss": 0.9080225825309753,
      "loss_ce": 0.0037257422227412462,
      "loss_iou": 0.4140625,
      "loss_num": 0.01519775390625,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 274016404,
      "step": 2169
    },
    {
      "epoch": 0.5566600397614314,
      "grad_norm": 56.58539962768555,
      "learning_rate": 5e-06,
      "loss": 0.9609,
      "num_input_tokens_seen": 274143596,
      "step": 2170
    },
    {
      "epoch": 0.5566600397614314,
      "loss": 0.8073244094848633,
      "loss_ce": 0.00019550076103769243,
      "loss_iou": 0.388671875,
      "loss_num": 0.006011962890625,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 274143596,
      "step": 2170
    },
    {
      "epoch": 0.5569165651253768,
      "grad_norm": 51.7929801940918,
      "learning_rate": 5e-06,
      "loss": 1.021,
      "num_input_tokens_seen": 274269456,
      "step": 2171
    },
    {
      "epoch": 0.5569165651253768,
      "loss": 1.1503279209136963,
      "loss_ce": 0.0023787422105669975,
      "loss_iou": 0.52734375,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 274269456,
      "step": 2171
    },
    {
      "epoch": 0.5571730904893222,
      "grad_norm": 46.7864875793457,
      "learning_rate": 5e-06,
      "loss": 0.9114,
      "num_input_tokens_seen": 274396188,
      "step": 2172
    },
    {
      "epoch": 0.5571730904893222,
      "loss": 0.9158524870872498,
      "loss_ce": 0.0003251858288422227,
      "loss_iou": 0.42578125,
      "loss_num": 0.01239013671875,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 274396188,
      "step": 2172
    },
    {
      "epoch": 0.5574296158532674,
      "grad_norm": 68.5341567993164,
      "learning_rate": 5e-06,
      "loss": 1.082,
      "num_input_tokens_seen": 274522148,
      "step": 2173
    },
    {
      "epoch": 0.5574296158532674,
      "loss": 0.9882373213768005,
      "loss_ce": 0.00044439019984565675,
      "loss_iou": 0.466796875,
      "loss_num": 0.010498046875,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 274522148,
      "step": 2173
    },
    {
      "epoch": 0.5576861412172128,
      "grad_norm": 57.13827896118164,
      "learning_rate": 5e-06,
      "loss": 1.1023,
      "num_input_tokens_seen": 274648868,
      "step": 2174
    },
    {
      "epoch": 0.5576861412172128,
      "loss": 0.9503019452095032,
      "loss_ce": 0.0001066099212039262,
      "loss_iou": 0.44921875,
      "loss_num": 0.0101318359375,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 274648868,
      "step": 2174
    },
    {
      "epoch": 0.5579426665811582,
      "grad_norm": 51.09037399291992,
      "learning_rate": 5e-06,
      "loss": 0.9284,
      "num_input_tokens_seen": 274775484,
      "step": 2175
    },
    {
      "epoch": 0.5579426665811582,
      "loss": 0.9014650583267212,
      "loss_ce": 0.0010743903694674373,
      "loss_iou": 0.416015625,
      "loss_num": 0.0135498046875,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 274775484,
      "step": 2175
    },
    {
      "epoch": 0.5581991919451036,
      "grad_norm": 60.436851501464844,
      "learning_rate": 5e-06,
      "loss": 1.1312,
      "num_input_tokens_seen": 274901408,
      "step": 2176
    },
    {
      "epoch": 0.5581991919451036,
      "loss": 1.2494313716888428,
      "loss_ce": 0.003825840540230274,
      "loss_iou": 0.5546875,
      "loss_num": 0.027587890625,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 274901408,
      "step": 2176
    },
    {
      "epoch": 0.558455717309049,
      "grad_norm": 50.890113830566406,
      "learning_rate": 5e-06,
      "loss": 1.1262,
      "num_input_tokens_seen": 275027152,
      "step": 2177
    },
    {
      "epoch": 0.558455717309049,
      "loss": 1.0987927913665771,
      "loss_ce": 0.001136508770287037,
      "loss_iou": 0.51171875,
      "loss_num": 0.01513671875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 275027152,
      "step": 2177
    },
    {
      "epoch": 0.5587122426729942,
      "grad_norm": 105.37041473388672,
      "learning_rate": 5e-06,
      "loss": 0.9344,
      "num_input_tokens_seen": 275153912,
      "step": 2178
    },
    {
      "epoch": 0.5587122426729942,
      "loss": 0.9479577541351318,
      "loss_ce": 0.0016686981543898582,
      "loss_iou": 0.427734375,
      "loss_num": 0.0181884765625,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 275153912,
      "step": 2178
    },
    {
      "epoch": 0.5589687680369396,
      "grad_norm": 343.10333251953125,
      "learning_rate": 5e-06,
      "loss": 1.1029,
      "num_input_tokens_seen": 275280132,
      "step": 2179
    },
    {
      "epoch": 0.5589687680369396,
      "loss": 1.0131373405456543,
      "loss_ce": 0.0028834636323153973,
      "loss_iou": 0.46484375,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 275280132,
      "step": 2179
    },
    {
      "epoch": 0.559225293400885,
      "grad_norm": 56.179229736328125,
      "learning_rate": 5e-06,
      "loss": 1.0206,
      "num_input_tokens_seen": 275406608,
      "step": 2180
    },
    {
      "epoch": 0.559225293400885,
      "loss": 1.0449639558792114,
      "loss_ce": 0.0010185850551351905,
      "loss_iou": 0.48828125,
      "loss_num": 0.0137939453125,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 275406608,
      "step": 2180
    },
    {
      "epoch": 0.5594818187648304,
      "grad_norm": 57.50232696533203,
      "learning_rate": 5e-06,
      "loss": 0.8696,
      "num_input_tokens_seen": 275533088,
      "step": 2181
    },
    {
      "epoch": 0.5594818187648304,
      "loss": 0.8450495004653931,
      "loss_ce": 0.0003229244612157345,
      "loss_iou": 0.40625,
      "loss_num": 0.00653076171875,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 275533088,
      "step": 2181
    },
    {
      "epoch": 0.5597383441287758,
      "grad_norm": 51.98136901855469,
      "learning_rate": 5e-06,
      "loss": 0.9708,
      "num_input_tokens_seen": 275659484,
      "step": 2182
    },
    {
      "epoch": 0.5597383441287758,
      "loss": 0.9771950244903564,
      "loss_ce": 0.00014423337415792048,
      "loss_iou": 0.453125,
      "loss_num": 0.0137939453125,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 275659484,
      "step": 2182
    },
    {
      "epoch": 0.5599948694927211,
      "grad_norm": 51.27824020385742,
      "learning_rate": 5e-06,
      "loss": 0.9906,
      "num_input_tokens_seen": 275785536,
      "step": 2183
    },
    {
      "epoch": 0.5599948694927211,
      "loss": 1.0937823057174683,
      "loss_ce": 0.0014971477212384343,
      "loss_iou": 0.49609375,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 275785536,
      "step": 2183
    },
    {
      "epoch": 0.5602513948566664,
      "grad_norm": 47.09531021118164,
      "learning_rate": 5e-06,
      "loss": 1.096,
      "num_input_tokens_seen": 275911636,
      "step": 2184
    },
    {
      "epoch": 0.5602513948566664,
      "loss": 1.093801736831665,
      "loss_ce": 0.005422751419246197,
      "loss_iou": 0.490234375,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 275911636,
      "step": 2184
    },
    {
      "epoch": 0.5605079202206118,
      "grad_norm": 50.552345275878906,
      "learning_rate": 5e-06,
      "loss": 0.982,
      "num_input_tokens_seen": 276037480,
      "step": 2185
    },
    {
      "epoch": 0.5605079202206118,
      "loss": 0.9279925227165222,
      "loss_ce": 0.005140956491231918,
      "loss_iou": 0.412109375,
      "loss_num": 0.0201416015625,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 276037480,
      "step": 2185
    },
    {
      "epoch": 0.5607644455845572,
      "grad_norm": 61.35932922363281,
      "learning_rate": 5e-06,
      "loss": 1.0826,
      "num_input_tokens_seen": 276164152,
      "step": 2186
    },
    {
      "epoch": 0.5607644455845572,
      "loss": 1.094228982925415,
      "loss_ce": 0.0009671769803389907,
      "loss_iou": 0.51171875,
      "loss_num": 0.013427734375,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 276164152,
      "step": 2186
    },
    {
      "epoch": 0.5610209709485026,
      "grad_norm": 51.68601608276367,
      "learning_rate": 5e-06,
      "loss": 1.0254,
      "num_input_tokens_seen": 276289668,
      "step": 2187
    },
    {
      "epoch": 0.5610209709485026,
      "loss": 1.2297756671905518,
      "loss_ce": 0.0002835007035173476,
      "loss_iou": 0.5390625,
      "loss_num": 0.030029296875,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 276289668,
      "step": 2187
    },
    {
      "epoch": 0.5612774963124479,
      "grad_norm": 46.56258773803711,
      "learning_rate": 5e-06,
      "loss": 1.1104,
      "num_input_tokens_seen": 276415748,
      "step": 2188
    },
    {
      "epoch": 0.5612774963124479,
      "loss": 1.1846972703933716,
      "loss_ce": 0.001103570917621255,
      "loss_iou": 0.53515625,
      "loss_num": 0.0224609375,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 276415748,
      "step": 2188
    },
    {
      "epoch": 0.5615340216763932,
      "grad_norm": 41.080543518066406,
      "learning_rate": 5e-06,
      "loss": 1.0198,
      "num_input_tokens_seen": 276541088,
      "step": 2189
    },
    {
      "epoch": 0.5615340216763932,
      "loss": 0.909066379070282,
      "loss_ce": 0.003304713172838092,
      "loss_iou": 0.4140625,
      "loss_num": 0.015625,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 276541088,
      "step": 2189
    },
    {
      "epoch": 0.5617905470403386,
      "grad_norm": 468.84033203125,
      "learning_rate": 5e-06,
      "loss": 0.9918,
      "num_input_tokens_seen": 276668488,
      "step": 2190
    },
    {
      "epoch": 0.5617905470403386,
      "loss": 0.8983898758888245,
      "loss_ce": 0.0009289373410865664,
      "loss_iou": 0.419921875,
      "loss_num": 0.01202392578125,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 276668488,
      "step": 2190
    },
    {
      "epoch": 0.562047072404284,
      "grad_norm": 75.52664184570312,
      "learning_rate": 5e-06,
      "loss": 1.0746,
      "num_input_tokens_seen": 276795360,
      "step": 2191
    },
    {
      "epoch": 0.562047072404284,
      "loss": 0.9311919212341309,
      "loss_ce": 0.000527857628185302,
      "loss_iou": 0.4375,
      "loss_num": 0.0113525390625,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 276795360,
      "step": 2191
    },
    {
      "epoch": 0.5623035977682294,
      "grad_norm": 53.39921569824219,
      "learning_rate": 5e-06,
      "loss": 1.1318,
      "num_input_tokens_seen": 276921932,
      "step": 2192
    },
    {
      "epoch": 0.5623035977682294,
      "loss": 1.255314588546753,
      "loss_ce": 0.0009199911146424711,
      "loss_iou": 0.5859375,
      "loss_num": 0.0167236328125,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 276921932,
      "step": 2192
    },
    {
      "epoch": 0.5625601231321747,
      "grad_norm": 57.0644645690918,
      "learning_rate": 5e-06,
      "loss": 0.9941,
      "num_input_tokens_seen": 277047356,
      "step": 2193
    },
    {
      "epoch": 0.5625601231321747,
      "loss": 1.1586862802505493,
      "loss_ce": 0.004877721890807152,
      "loss_iou": 0.5078125,
      "loss_num": 0.0279541015625,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 277047356,
      "step": 2193
    },
    {
      "epoch": 0.56281664849612,
      "grad_norm": 53.68967819213867,
      "learning_rate": 5e-06,
      "loss": 1.1958,
      "num_input_tokens_seen": 277174752,
      "step": 2194
    },
    {
      "epoch": 0.56281664849612,
      "loss": 1.1968333721160889,
      "loss_ce": 0.0015208676923066378,
      "loss_iou": 0.5390625,
      "loss_num": 0.0234375,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 277174752,
      "step": 2194
    },
    {
      "epoch": 0.5630731738600654,
      "grad_norm": 42.80198669433594,
      "learning_rate": 5e-06,
      "loss": 0.9375,
      "num_input_tokens_seen": 277300808,
      "step": 2195
    },
    {
      "epoch": 0.5630731738600654,
      "loss": 1.041845440864563,
      "loss_ce": 0.0015621936181560159,
      "loss_iou": 0.48046875,
      "loss_num": 0.01556396484375,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 277300808,
      "step": 2195
    },
    {
      "epoch": 0.5633296992240108,
      "grad_norm": 52.26081466674805,
      "learning_rate": 5e-06,
      "loss": 1.0488,
      "num_input_tokens_seen": 277427880,
      "step": 2196
    },
    {
      "epoch": 0.5633296992240108,
      "loss": 1.2035095691680908,
      "loss_ce": 0.0018494323594495654,
      "loss_iou": 0.5390625,
      "loss_num": 0.024169921875,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 277427880,
      "step": 2196
    },
    {
      "epoch": 0.5635862245879562,
      "grad_norm": 56.040767669677734,
      "learning_rate": 5e-06,
      "loss": 0.9834,
      "num_input_tokens_seen": 277553108,
      "step": 2197
    },
    {
      "epoch": 0.5635862245879562,
      "loss": 0.993122935295105,
      "loss_ce": 0.002156094880774617,
      "loss_iou": 0.458984375,
      "loss_num": 0.014892578125,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 277553108,
      "step": 2197
    },
    {
      "epoch": 0.5638427499519015,
      "grad_norm": 55.097129821777344,
      "learning_rate": 5e-06,
      "loss": 0.9692,
      "num_input_tokens_seen": 277679808,
      "step": 2198
    },
    {
      "epoch": 0.5638427499519015,
      "loss": 0.8480400443077087,
      "loss_ce": 0.0006279013468883932,
      "loss_iou": 0.396484375,
      "loss_num": 0.01104736328125,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 277679808,
      "step": 2198
    },
    {
      "epoch": 0.5640992753158468,
      "grad_norm": 112.22230529785156,
      "learning_rate": 5e-06,
      "loss": 1.0838,
      "num_input_tokens_seen": 277805284,
      "step": 2199
    },
    {
      "epoch": 0.5640992753158468,
      "loss": 0.8988468647003174,
      "loss_ce": 0.0013859360478818417,
      "loss_iou": 0.42578125,
      "loss_num": 0.00897216796875,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 277805284,
      "step": 2199
    },
    {
      "epoch": 0.5643558006797922,
      "grad_norm": 45.435150146484375,
      "learning_rate": 5e-06,
      "loss": 1.0408,
      "num_input_tokens_seen": 277930236,
      "step": 2200
    },
    {
      "epoch": 0.5643558006797922,
      "loss": 1.0463415384292603,
      "loss_ce": 0.0009313884656876326,
      "loss_iou": 0.474609375,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 277930236,
      "step": 2200
    },
    {
      "epoch": 0.5646123260437376,
      "grad_norm": 34.56241226196289,
      "learning_rate": 5e-06,
      "loss": 0.9913,
      "num_input_tokens_seen": 278056956,
      "step": 2201
    },
    {
      "epoch": 0.5646123260437376,
      "loss": 0.9187591075897217,
      "loss_ce": 0.0007903319783508778,
      "loss_iou": 0.4296875,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 278056956,
      "step": 2201
    },
    {
      "epoch": 0.564868851407683,
      "grad_norm": 66.69220733642578,
      "learning_rate": 5e-06,
      "loss": 1.186,
      "num_input_tokens_seen": 278183860,
      "step": 2202
    },
    {
      "epoch": 0.564868851407683,
      "loss": 0.9285748600959778,
      "loss_ce": 0.0003521769540384412,
      "loss_iou": 0.44140625,
      "loss_num": 0.00946044921875,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 278183860,
      "step": 2202
    },
    {
      "epoch": 0.5651253767716283,
      "grad_norm": 49.961769104003906,
      "learning_rate": 5e-06,
      "loss": 1.0482,
      "num_input_tokens_seen": 278309520,
      "step": 2203
    },
    {
      "epoch": 0.5651253767716283,
      "loss": 1.0594885349273682,
      "loss_ce": 0.0008947264868766069,
      "loss_iou": 0.49609375,
      "loss_num": 0.0133056640625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 278309520,
      "step": 2203
    },
    {
      "epoch": 0.5653819021355736,
      "grad_norm": 45.11125564575195,
      "learning_rate": 5e-06,
      "loss": 0.9627,
      "num_input_tokens_seen": 278436368,
      "step": 2204
    },
    {
      "epoch": 0.5653819021355736,
      "loss": 1.0071486234664917,
      "loss_ce": 0.0020216715056449175,
      "loss_iou": 0.453125,
      "loss_num": 0.019775390625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 278436368,
      "step": 2204
    },
    {
      "epoch": 0.565638427499519,
      "grad_norm": 36.24090576171875,
      "learning_rate": 5e-06,
      "loss": 1.0089,
      "num_input_tokens_seen": 278561216,
      "step": 2205
    },
    {
      "epoch": 0.565638427499519,
      "loss": 1.1077934503555298,
      "loss_ce": 0.0042778197675943375,
      "loss_iou": 0.498046875,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 278561216,
      "step": 2205
    },
    {
      "epoch": 0.5658949528634644,
      "grad_norm": 54.82352828979492,
      "learning_rate": 5e-06,
      "loss": 0.9473,
      "num_input_tokens_seen": 278688268,
      "step": 2206
    },
    {
      "epoch": 0.5658949528634644,
      "loss": 0.8368304967880249,
      "loss_ce": 0.0013813143596053123,
      "loss_iou": 0.3828125,
      "loss_num": 0.01385498046875,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 278688268,
      "step": 2206
    },
    {
      "epoch": 0.5661514782274097,
      "grad_norm": 56.65019989013672,
      "learning_rate": 5e-06,
      "loss": 1.008,
      "num_input_tokens_seen": 278813836,
      "step": 2207
    },
    {
      "epoch": 0.5661514782274097,
      "loss": 0.9092596769332886,
      "loss_ce": 0.0015448674093931913,
      "loss_iou": 0.4296875,
      "loss_num": 0.009765625,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 278813836,
      "step": 2207
    },
    {
      "epoch": 0.5664080035913551,
      "grad_norm": 62.40962600708008,
      "learning_rate": 5e-06,
      "loss": 1.0768,
      "num_input_tokens_seen": 278940024,
      "step": 2208
    },
    {
      "epoch": 0.5664080035913551,
      "loss": 0.9135690927505493,
      "loss_ce": 0.0024362581316381693,
      "loss_iou": 0.41796875,
      "loss_num": 0.01495361328125,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 278940024,
      "step": 2208
    },
    {
      "epoch": 0.5666645289553005,
      "grad_norm": 47.486122131347656,
      "learning_rate": 5e-06,
      "loss": 0.9105,
      "num_input_tokens_seen": 279066336,
      "step": 2209
    },
    {
      "epoch": 0.5666645289553005,
      "loss": 0.8077210187911987,
      "loss_ce": 0.00010379517334513366,
      "loss_iou": 0.384765625,
      "loss_num": 0.0074462890625,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 279066336,
      "step": 2209
    },
    {
      "epoch": 0.5669210543192458,
      "grad_norm": 62.20322799682617,
      "learning_rate": 5e-06,
      "loss": 1.0743,
      "num_input_tokens_seen": 279192956,
      "step": 2210
    },
    {
      "epoch": 0.5669210543192458,
      "loss": 0.9369065165519714,
      "loss_ce": 0.00038305958150886,
      "loss_iou": 0.44140625,
      "loss_num": 0.010986328125,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 279192956,
      "step": 2210
    },
    {
      "epoch": 0.5671775796831912,
      "grad_norm": 59.297035217285156,
      "learning_rate": 5e-06,
      "loss": 1.0973,
      "num_input_tokens_seen": 279318492,
      "step": 2211
    },
    {
      "epoch": 0.5671775796831912,
      "loss": 1.1324870586395264,
      "loss_ce": 0.0011394446482881904,
      "loss_iou": 0.51171875,
      "loss_num": 0.02099609375,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 279318492,
      "step": 2211
    },
    {
      "epoch": 0.5674341050471365,
      "grad_norm": 26.751834869384766,
      "learning_rate": 5e-06,
      "loss": 0.9489,
      "num_input_tokens_seen": 279444120,
      "step": 2212
    },
    {
      "epoch": 0.5674341050471365,
      "loss": 1.0214115381240845,
      "loss_ce": 0.0013919631019234657,
      "loss_iou": 0.466796875,
      "loss_num": 0.017578125,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 279444120,
      "step": 2212
    },
    {
      "epoch": 0.5676906304110819,
      "grad_norm": 29.238269805908203,
      "learning_rate": 5e-06,
      "loss": 1.026,
      "num_input_tokens_seen": 279570148,
      "step": 2213
    },
    {
      "epoch": 0.5676906304110819,
      "loss": 1.0340806245803833,
      "loss_ce": 0.0013657421804964542,
      "loss_iou": 0.46875,
      "loss_num": 0.01904296875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 279570148,
      "step": 2213
    },
    {
      "epoch": 0.5679471557750273,
      "grad_norm": 42.82862854003906,
      "learning_rate": 5e-06,
      "loss": 0.9109,
      "num_input_tokens_seen": 279696524,
      "step": 2214
    },
    {
      "epoch": 0.5679471557750273,
      "loss": 0.7711024880409241,
      "loss_ce": 0.00010639210813678801,
      "loss_iou": 0.369140625,
      "loss_num": 0.006622314453125,
      "loss_xval": 0.76953125,
      "num_input_tokens_seen": 279696524,
      "step": 2214
    },
    {
      "epoch": 0.5682036811389726,
      "grad_norm": 50.94182205200195,
      "learning_rate": 5e-06,
      "loss": 0.964,
      "num_input_tokens_seen": 279823304,
      "step": 2215
    },
    {
      "epoch": 0.5682036811389726,
      "loss": 1.0122041702270508,
      "loss_ce": 0.0014618970453739166,
      "loss_iou": 0.470703125,
      "loss_num": 0.01385498046875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 279823304,
      "step": 2215
    },
    {
      "epoch": 0.568460206502918,
      "grad_norm": 69.28797912597656,
      "learning_rate": 5e-06,
      "loss": 1.0461,
      "num_input_tokens_seen": 279949988,
      "step": 2216
    },
    {
      "epoch": 0.568460206502918,
      "loss": 1.3474441766738892,
      "loss_ce": 0.004182462580502033,
      "loss_iou": 0.6171875,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 279949988,
      "step": 2216
    },
    {
      "epoch": 0.5687167318668633,
      "grad_norm": 38.665924072265625,
      "learning_rate": 5e-06,
      "loss": 1.257,
      "num_input_tokens_seen": 280075436,
      "step": 2217
    },
    {
      "epoch": 0.5687167318668633,
      "loss": 1.0412718057632446,
      "loss_ce": 0.00025615625781938434,
      "loss_iou": 0.48046875,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 280075436,
      "step": 2217
    },
    {
      "epoch": 0.5689732572308087,
      "grad_norm": 29.59270477294922,
      "learning_rate": 5e-06,
      "loss": 0.9421,
      "num_input_tokens_seen": 280201572,
      "step": 2218
    },
    {
      "epoch": 0.5689732572308087,
      "loss": 0.9615882039070129,
      "loss_ce": 0.0016272829379886389,
      "loss_iou": 0.44140625,
      "loss_num": 0.01519775390625,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 280201572,
      "step": 2218
    },
    {
      "epoch": 0.5692297825947541,
      "grad_norm": 44.76958465576172,
      "learning_rate": 5e-06,
      "loss": 0.85,
      "num_input_tokens_seen": 280328408,
      "step": 2219
    },
    {
      "epoch": 0.5692297825947541,
      "loss": 0.8659550547599792,
      "loss_ce": 0.0007207130547612906,
      "loss_iou": 0.41015625,
      "loss_num": 0.00933837890625,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 280328408,
      "step": 2219
    },
    {
      "epoch": 0.5694863079586994,
      "grad_norm": 39.538536071777344,
      "learning_rate": 5e-06,
      "loss": 0.9607,
      "num_input_tokens_seen": 280453620,
      "step": 2220
    },
    {
      "epoch": 0.5694863079586994,
      "loss": 0.8607710599899292,
      "loss_ce": 0.0004194822977297008,
      "loss_iou": 0.408203125,
      "loss_num": 0.008544921875,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 280453620,
      "step": 2220
    },
    {
      "epoch": 0.5697428333226447,
      "grad_norm": 57.23136520385742,
      "learning_rate": 5e-06,
      "loss": 1.0501,
      "num_input_tokens_seen": 280580500,
      "step": 2221
    },
    {
      "epoch": 0.5697428333226447,
      "loss": 0.8529943227767944,
      "loss_ce": 0.003384919371455908,
      "loss_iou": 0.404296875,
      "loss_num": 0.008056640625,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 280580500,
      "step": 2221
    },
    {
      "epoch": 0.5699993586865901,
      "grad_norm": 60.38134002685547,
      "learning_rate": 5e-06,
      "loss": 1.0059,
      "num_input_tokens_seen": 280707212,
      "step": 2222
    },
    {
      "epoch": 0.5699993586865901,
      "loss": 1.0389050245285034,
      "loss_ce": 0.0008190611843019724,
      "loss_iou": 0.4765625,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 280707212,
      "step": 2222
    },
    {
      "epoch": 0.5702558840505355,
      "grad_norm": 157.96572875976562,
      "learning_rate": 5e-06,
      "loss": 0.9434,
      "num_input_tokens_seen": 280831068,
      "step": 2223
    },
    {
      "epoch": 0.5702558840505355,
      "loss": 1.156415343284607,
      "loss_ce": 0.0026067497674375772,
      "loss_iou": 0.51171875,
      "loss_num": 0.025634765625,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 280831068,
      "step": 2223
    },
    {
      "epoch": 0.5705124094144809,
      "grad_norm": 55.338218688964844,
      "learning_rate": 5e-06,
      "loss": 0.9914,
      "num_input_tokens_seen": 280958168,
      "step": 2224
    },
    {
      "epoch": 0.5705124094144809,
      "loss": 1.0103638172149658,
      "loss_ce": 0.0020629605278372765,
      "loss_iou": 0.470703125,
      "loss_num": 0.013671875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 280958168,
      "step": 2224
    },
    {
      "epoch": 0.5707689347784262,
      "grad_norm": 60.0689811706543,
      "learning_rate": 5e-06,
      "loss": 1.0836,
      "num_input_tokens_seen": 281084768,
      "step": 2225
    },
    {
      "epoch": 0.5707689347784262,
      "loss": 1.301161766052246,
      "loss_ce": 0.002333517652004957,
      "loss_iou": 0.5859375,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 281084768,
      "step": 2225
    },
    {
      "epoch": 0.5710254601423715,
      "grad_norm": 52.500450134277344,
      "learning_rate": 5e-06,
      "loss": 1.0313,
      "num_input_tokens_seen": 281212384,
      "step": 2226
    },
    {
      "epoch": 0.5710254601423715,
      "loss": 0.9314784407615662,
      "loss_ce": 0.0013026782544329762,
      "loss_iou": 0.427734375,
      "loss_num": 0.01470947265625,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 281212384,
      "step": 2226
    },
    {
      "epoch": 0.5712819855063169,
      "grad_norm": 48.1938362121582,
      "learning_rate": 5e-06,
      "loss": 0.9688,
      "num_input_tokens_seen": 281338324,
      "step": 2227
    },
    {
      "epoch": 0.5712819855063169,
      "loss": 0.9709362983703613,
      "loss_ce": 0.0021862906869500875,
      "loss_iou": 0.447265625,
      "loss_num": 0.0146484375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 281338324,
      "step": 2227
    },
    {
      "epoch": 0.5715385108702623,
      "grad_norm": 53.36368179321289,
      "learning_rate": 5e-06,
      "loss": 1.0946,
      "num_input_tokens_seen": 281465824,
      "step": 2228
    },
    {
      "epoch": 0.5715385108702623,
      "loss": 1.4214125871658325,
      "loss_ce": 0.0019789792131632566,
      "loss_iou": 0.62890625,
      "loss_num": 0.0322265625,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 281465824,
      "step": 2228
    },
    {
      "epoch": 0.5717950362342077,
      "grad_norm": 39.174678802490234,
      "learning_rate": 5e-06,
      "loss": 1.1851,
      "num_input_tokens_seen": 281591284,
      "step": 2229
    },
    {
      "epoch": 0.5717950362342077,
      "loss": 1.4434847831726074,
      "loss_ce": 0.0020786018576472998,
      "loss_iou": 0.6171875,
      "loss_num": 0.041259765625,
      "loss_xval": 1.4375,
      "num_input_tokens_seen": 281591284,
      "step": 2229
    },
    {
      "epoch": 0.5720515615981531,
      "grad_norm": 52.28636169433594,
      "learning_rate": 5e-06,
      "loss": 0.9452,
      "num_input_tokens_seen": 281717636,
      "step": 2230
    },
    {
      "epoch": 0.5720515615981531,
      "loss": 0.8811432719230652,
      "loss_ce": 0.0027253320440649986,
      "loss_iou": 0.41796875,
      "loss_num": 0.00885009765625,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 281717636,
      "step": 2230
    },
    {
      "epoch": 0.5723080869620983,
      "grad_norm": 198.64175415039062,
      "learning_rate": 5e-06,
      "loss": 1.0508,
      "num_input_tokens_seen": 281843424,
      "step": 2231
    },
    {
      "epoch": 0.5723080869620983,
      "loss": 0.9850019216537476,
      "loss_ce": 0.0011151679791510105,
      "loss_iou": 0.44921875,
      "loss_num": 0.0167236328125,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 281843424,
      "step": 2231
    },
    {
      "epoch": 0.5725646123260437,
      "grad_norm": 30.93668556213379,
      "learning_rate": 5e-06,
      "loss": 1.0448,
      "num_input_tokens_seen": 281969772,
      "step": 2232
    },
    {
      "epoch": 0.5725646123260437,
      "loss": 0.9947054386138916,
      "loss_ce": 0.0005648602964356542,
      "loss_iou": 0.4609375,
      "loss_num": 0.0147705078125,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 281969772,
      "step": 2232
    },
    {
      "epoch": 0.5728211376899891,
      "grad_norm": 60.23025894165039,
      "learning_rate": 5e-06,
      "loss": 0.9904,
      "num_input_tokens_seen": 282096152,
      "step": 2233
    },
    {
      "epoch": 0.5728211376899891,
      "loss": 1.0110363960266113,
      "loss_ce": 0.0051771411672234535,
      "loss_iou": 0.46875,
      "loss_num": 0.0137939453125,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 282096152,
      "step": 2233
    },
    {
      "epoch": 0.5730776630539345,
      "grad_norm": 49.198455810546875,
      "learning_rate": 5e-06,
      "loss": 0.996,
      "num_input_tokens_seen": 282222008,
      "step": 2234
    },
    {
      "epoch": 0.5730776630539345,
      "loss": 0.9654691219329834,
      "loss_ce": 0.0011136349057778716,
      "loss_iou": 0.443359375,
      "loss_num": 0.015625,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 282222008,
      "step": 2234
    },
    {
      "epoch": 0.5733341884178799,
      "grad_norm": 51.311988830566406,
      "learning_rate": 5e-06,
      "loss": 0.9916,
      "num_input_tokens_seen": 282348532,
      "step": 2235
    },
    {
      "epoch": 0.5733341884178799,
      "loss": 0.986962080001831,
      "loss_ce": 0.00014572578947991133,
      "loss_iou": 0.4609375,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 282348532,
      "step": 2235
    },
    {
      "epoch": 0.5735907137818251,
      "grad_norm": 54.95654296875,
      "learning_rate": 5e-06,
      "loss": 1.0526,
      "num_input_tokens_seen": 282474468,
      "step": 2236
    },
    {
      "epoch": 0.5735907137818251,
      "loss": 0.9696420431137085,
      "loss_ce": 0.0008920601685531437,
      "loss_iou": 0.4453125,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 282474468,
      "step": 2236
    },
    {
      "epoch": 0.5738472391457705,
      "grad_norm": 43.67275619506836,
      "learning_rate": 5e-06,
      "loss": 1.2859,
      "num_input_tokens_seen": 282600620,
      "step": 2237
    },
    {
      "epoch": 0.5738472391457705,
      "loss": 1.2557644844055176,
      "loss_ce": 0.0008817450725473464,
      "loss_iou": 0.5625,
      "loss_num": 0.025146484375,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 282600620,
      "step": 2237
    },
    {
      "epoch": 0.5741037645097159,
      "grad_norm": 73.80721282958984,
      "learning_rate": 5e-06,
      "loss": 0.96,
      "num_input_tokens_seen": 282726808,
      "step": 2238
    },
    {
      "epoch": 0.5741037645097159,
      "loss": 1.1512300968170166,
      "loss_ce": 0.006210581865161657,
      "loss_iou": 0.51953125,
      "loss_num": 0.0205078125,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 282726808,
      "step": 2238
    },
    {
      "epoch": 0.5743602898736613,
      "grad_norm": 46.245601654052734,
      "learning_rate": 5e-06,
      "loss": 1.1324,
      "num_input_tokens_seen": 282853128,
      "step": 2239
    },
    {
      "epoch": 0.5743602898736613,
      "loss": 1.0906245708465576,
      "loss_ce": 0.00029261180316098034,
      "loss_iou": 0.51171875,
      "loss_num": 0.0137939453125,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 282853128,
      "step": 2239
    },
    {
      "epoch": 0.5746168152376067,
      "grad_norm": 41.02141189575195,
      "learning_rate": 5e-06,
      "loss": 0.9696,
      "num_input_tokens_seen": 282978848,
      "step": 2240
    },
    {
      "epoch": 0.5746168152376067,
      "loss": 1.0845317840576172,
      "loss_ce": 0.0025004895869642496,
      "loss_iou": 0.498046875,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 282978848,
      "step": 2240
    },
    {
      "epoch": 0.5748733406015519,
      "grad_norm": 54.90932846069336,
      "learning_rate": 5e-06,
      "loss": 0.988,
      "num_input_tokens_seen": 283105088,
      "step": 2241
    },
    {
      "epoch": 0.5748733406015519,
      "loss": 0.9596421718597412,
      "loss_ce": 0.0030992270912975073,
      "loss_iou": 0.44921875,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 283105088,
      "step": 2241
    },
    {
      "epoch": 0.5751298659654973,
      "grad_norm": 41.68686294555664,
      "learning_rate": 5e-06,
      "loss": 0.9843,
      "num_input_tokens_seen": 283231168,
      "step": 2242
    },
    {
      "epoch": 0.5751298659654973,
      "loss": 1.0487587451934814,
      "loss_ce": 0.0009071234962902963,
      "loss_iou": 0.48046875,
      "loss_num": 0.0177001953125,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 283231168,
      "step": 2242
    },
    {
      "epoch": 0.5753863913294427,
      "grad_norm": 53.76775360107422,
      "learning_rate": 5e-06,
      "loss": 1.0461,
      "num_input_tokens_seen": 283356180,
      "step": 2243
    },
    {
      "epoch": 0.5753863913294427,
      "loss": 0.8263636827468872,
      "loss_ce": 0.0006801047711633146,
      "loss_iou": 0.373046875,
      "loss_num": 0.0155029296875,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 283356180,
      "step": 2243
    },
    {
      "epoch": 0.5756429166933881,
      "grad_norm": 54.90708541870117,
      "learning_rate": 5e-06,
      "loss": 1.1221,
      "num_input_tokens_seen": 283482268,
      "step": 2244
    },
    {
      "epoch": 0.5756429166933881,
      "loss": 1.1243772506713867,
      "loss_ce": 0.0027952042873948812,
      "loss_iou": 0.51171875,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 283482268,
      "step": 2244
    },
    {
      "epoch": 0.5758994420573335,
      "grad_norm": 83.53764343261719,
      "learning_rate": 5e-06,
      "loss": 1.0215,
      "num_input_tokens_seen": 283608764,
      "step": 2245
    },
    {
      "epoch": 0.5758994420573335,
      "loss": 1.0757503509521484,
      "loss_ce": 0.0005550433415919542,
      "loss_iou": 0.494140625,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 283608764,
      "step": 2245
    },
    {
      "epoch": 0.5761559674212787,
      "grad_norm": 54.44892120361328,
      "learning_rate": 5e-06,
      "loss": 1.0271,
      "num_input_tokens_seen": 283734540,
      "step": 2246
    },
    {
      "epoch": 0.5761559674212787,
      "loss": 0.8860817551612854,
      "loss_ce": 0.0003395703388378024,
      "loss_iou": 0.41796875,
      "loss_num": 0.0103759765625,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 283734540,
      "step": 2246
    },
    {
      "epoch": 0.5764124927852241,
      "grad_norm": 40.34468078613281,
      "learning_rate": 5e-06,
      "loss": 1.1341,
      "num_input_tokens_seen": 283858972,
      "step": 2247
    },
    {
      "epoch": 0.5764124927852241,
      "loss": 1.0909762382507324,
      "loss_ce": 0.0006441898876801133,
      "loss_iou": 0.490234375,
      "loss_num": 0.022216796875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 283858972,
      "step": 2247
    },
    {
      "epoch": 0.5766690181491695,
      "grad_norm": 34.772674560546875,
      "learning_rate": 5e-06,
      "loss": 0.9643,
      "num_input_tokens_seen": 283985192,
      "step": 2248
    },
    {
      "epoch": 0.5766690181491695,
      "loss": 0.9901896715164185,
      "loss_ce": 0.0009317906806245446,
      "loss_iou": 0.4453125,
      "loss_num": 0.0194091796875,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 283985192,
      "step": 2248
    },
    {
      "epoch": 0.5769255435131149,
      "grad_norm": 43.80963134765625,
      "learning_rate": 5e-06,
      "loss": 0.9344,
      "num_input_tokens_seen": 284111712,
      "step": 2249
    },
    {
      "epoch": 0.5769255435131149,
      "loss": 0.9860141277313232,
      "loss_ce": 0.001639105612412095,
      "loss_iou": 0.45703125,
      "loss_num": 0.0135498046875,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 284111712,
      "step": 2249
    },
    {
      "epoch": 0.5771820688770603,
      "grad_norm": 51.15381622314453,
      "learning_rate": 5e-06,
      "loss": 0.9634,
      "num_input_tokens_seen": 284238016,
      "step": 2250
    },
    {
      "epoch": 0.5771820688770603,
      "eval_icons_CIoU": 0.19793132692575455,
      "eval_icons_GIoU": 0.1591569408774376,
      "eval_icons_IoU": 0.39132004976272583,
      "eval_icons_MAE_all": 0.03227099031209946,
      "eval_icons_MAE_h": 0.051868053153157234,
      "eval_icons_MAE_w": 0.0582665391266346,
      "eval_icons_MAE_x_boxes": 0.05914544127881527,
      "eval_icons_MAE_y_boxes": 0.04679535888135433,
      "eval_icons_NUM_probability": 0.9997171461582184,
      "eval_icons_inside_bbox": 0.609375,
      "eval_icons_loss": 1.7776092290878296,
      "eval_icons_loss_ce": 0.0003541261175996624,
      "eval_icons_loss_iou": 0.8216552734375,
      "eval_icons_loss_num": 0.03556251525878906,
      "eval_icons_loss_xval": 1.81982421875,
      "eval_icons_runtime": 46.0679,
      "eval_icons_samples_per_second": 1.085,
      "eval_icons_steps_per_second": 0.043,
      "num_input_tokens_seen": 284238016,
      "step": 2250
    },
    {
      "epoch": 0.5771820688770603,
      "eval_screenspot_CIoU": 0.1255065736671289,
      "eval_screenspot_GIoU": 0.11141415561238925,
      "eval_screenspot_IoU": 0.2933393617471059,
      "eval_screenspot_MAE_all": 0.07572593539953232,
      "eval_screenspot_MAE_h": 0.06904004514217377,
      "eval_screenspot_MAE_w": 0.1215948611497879,
      "eval_screenspot_MAE_x_boxes": 0.0923725242416064,
      "eval_screenspot_MAE_y_boxes": 0.06064350033799807,
      "eval_screenspot_NUM_probability": 0.9998934666315714,
      "eval_screenspot_inside_bbox": 0.6462500095367432,
      "eval_screenspot_loss": 2.2103700637817383,
      "eval_screenspot_loss_ce": 0.002832048300964137,
      "eval_screenspot_loss_iou": 0.92236328125,
      "eval_screenspot_loss_num": 0.0816497802734375,
      "eval_screenspot_loss_xval": 2.2545572916666665,
      "eval_screenspot_runtime": 81.5106,
      "eval_screenspot_samples_per_second": 1.092,
      "eval_screenspot_steps_per_second": 0.037,
      "num_input_tokens_seen": 284238016,
      "step": 2250
    },
    {
      "epoch": 0.5771820688770603,
      "loss": 2.179178476333618,
      "loss_ce": 0.002420613542199135,
      "loss_iou": 0.9140625,
      "loss_num": 0.068359375,
      "loss_xval": 2.171875,
      "num_input_tokens_seen": 284238016,
      "step": 2250
    },
    {
      "epoch": 0.5774385942410056,
      "grad_norm": 55.088130950927734,
      "learning_rate": 5e-06,
      "loss": 0.9725,
      "num_input_tokens_seen": 284364828,
      "step": 2251
    },
    {
      "epoch": 0.5774385942410056,
      "loss": 0.9229689836502075,
      "loss_ce": 0.002558805514127016,
      "loss_iou": 0.427734375,
      "loss_num": 0.01324462890625,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 284364828,
      "step": 2251
    },
    {
      "epoch": 0.5776951196049509,
      "grad_norm": 50.19672393798828,
      "learning_rate": 5e-06,
      "loss": 1.0152,
      "num_input_tokens_seen": 284490932,
      "step": 2252
    },
    {
      "epoch": 0.5776951196049509,
      "loss": 1.229791283607483,
      "loss_ce": 0.0017639752477407455,
      "loss_iou": 0.5546875,
      "loss_num": 0.0244140625,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 284490932,
      "step": 2252
    },
    {
      "epoch": 0.5779516449688963,
      "grad_norm": 41.68750762939453,
      "learning_rate": 5e-06,
      "loss": 1.0447,
      "num_input_tokens_seen": 284617652,
      "step": 2253
    },
    {
      "epoch": 0.5779516449688963,
      "loss": 1.0270447731018066,
      "loss_ce": 0.0006775574875064194,
      "loss_iou": 0.46875,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 284617652,
      "step": 2253
    },
    {
      "epoch": 0.5782081703328417,
      "grad_norm": 59.3745002746582,
      "learning_rate": 5e-06,
      "loss": 0.9212,
      "num_input_tokens_seen": 284744744,
      "step": 2254
    },
    {
      "epoch": 0.5782081703328417,
      "loss": 0.7657381296157837,
      "loss_ce": 0.0020662054885178804,
      "loss_iou": 0.365234375,
      "loss_num": 0.006744384765625,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 284744744,
      "step": 2254
    },
    {
      "epoch": 0.578464695696787,
      "grad_norm": 67.38247680664062,
      "learning_rate": 5e-06,
      "loss": 0.9813,
      "num_input_tokens_seen": 284869900,
      "step": 2255
    },
    {
      "epoch": 0.578464695696787,
      "loss": 0.9027704000473022,
      "loss_ce": 0.0004266508622094989,
      "loss_iou": 0.42578125,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 284869900,
      "step": 2255
    },
    {
      "epoch": 0.5787212210607324,
      "grad_norm": 55.868324279785156,
      "learning_rate": 5e-06,
      "loss": 0.9592,
      "num_input_tokens_seen": 284995920,
      "step": 2256
    },
    {
      "epoch": 0.5787212210607324,
      "loss": 0.960580587387085,
      "loss_ce": 0.0006196207832545042,
      "loss_iou": 0.451171875,
      "loss_num": 0.011962890625,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 284995920,
      "step": 2256
    },
    {
      "epoch": 0.5789777464246777,
      "grad_norm": 60.839866638183594,
      "learning_rate": 5e-06,
      "loss": 0.9939,
      "num_input_tokens_seen": 285122188,
      "step": 2257
    },
    {
      "epoch": 0.5789777464246777,
      "loss": 1.0641573667526245,
      "loss_ce": 0.0016573506873100996,
      "loss_iou": 0.5,
      "loss_num": 0.0128173828125,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 285122188,
      "step": 2257
    },
    {
      "epoch": 0.5792342717886231,
      "grad_norm": 46.87041091918945,
      "learning_rate": 5e-06,
      "loss": 1.0252,
      "num_input_tokens_seen": 285248244,
      "step": 2258
    },
    {
      "epoch": 0.5792342717886231,
      "loss": 1.2368899583816528,
      "loss_ce": 0.0015384089201688766,
      "loss_iou": 0.5703125,
      "loss_num": 0.019287109375,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 285248244,
      "step": 2258
    },
    {
      "epoch": 0.5794907971525685,
      "grad_norm": 36.695682525634766,
      "learning_rate": 5e-06,
      "loss": 0.986,
      "num_input_tokens_seen": 285373412,
      "step": 2259
    },
    {
      "epoch": 0.5794907971525685,
      "loss": 1.1304900646209717,
      "loss_ce": 0.0015837789978832006,
      "loss_iou": 0.50390625,
      "loss_num": 0.0244140625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 285373412,
      "step": 2259
    },
    {
      "epoch": 0.5797473225165138,
      "grad_norm": 31.57451057434082,
      "learning_rate": 5e-06,
      "loss": 1.0088,
      "num_input_tokens_seen": 285499644,
      "step": 2260
    },
    {
      "epoch": 0.5797473225165138,
      "loss": 0.8618742823600769,
      "loss_ce": 0.0005461572436615825,
      "loss_iou": 0.40625,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 285499644,
      "step": 2260
    },
    {
      "epoch": 0.5800038478804592,
      "grad_norm": 52.21601104736328,
      "learning_rate": 5e-06,
      "loss": 0.8864,
      "num_input_tokens_seen": 285624308,
      "step": 2261
    },
    {
      "epoch": 0.5800038478804592,
      "loss": 0.7393556833267212,
      "loss_ce": 0.0015626954846084118,
      "loss_iou": 0.359375,
      "loss_num": 0.004425048828125,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 285624308,
      "step": 2261
    },
    {
      "epoch": 0.5802603732444045,
      "grad_norm": 53.84465408325195,
      "learning_rate": 5e-06,
      "loss": 1.0018,
      "num_input_tokens_seen": 285751528,
      "step": 2262
    },
    {
      "epoch": 0.5802603732444045,
      "loss": 1.074723720550537,
      "loss_ce": 0.0014815161703154445,
      "loss_iou": 0.498046875,
      "loss_num": 0.01556396484375,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 285751528,
      "step": 2262
    },
    {
      "epoch": 0.5805168986083499,
      "grad_norm": 57.43070983886719,
      "learning_rate": 5e-06,
      "loss": 0.9119,
      "num_input_tokens_seen": 285877412,
      "step": 2263
    },
    {
      "epoch": 0.5805168986083499,
      "loss": 0.8867683410644531,
      "loss_ce": 0.00371170649304986,
      "loss_iou": 0.41015625,
      "loss_num": 0.01214599609375,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 285877412,
      "step": 2263
    },
    {
      "epoch": 0.5807734239722953,
      "grad_norm": 51.67479705810547,
      "learning_rate": 5e-06,
      "loss": 1.0146,
      "num_input_tokens_seen": 286003856,
      "step": 2264
    },
    {
      "epoch": 0.5807734239722953,
      "loss": 1.0852046012878418,
      "loss_ce": 0.001220195204950869,
      "loss_iou": 0.5,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 286003856,
      "step": 2264
    },
    {
      "epoch": 0.5810299493362406,
      "grad_norm": 75.89453887939453,
      "learning_rate": 5e-06,
      "loss": 1.1129,
      "num_input_tokens_seen": 286130396,
      "step": 2265
    },
    {
      "epoch": 0.5810299493362406,
      "loss": 0.9778915643692017,
      "loss_ce": 0.00035248787025921047,
      "loss_iou": 0.453125,
      "loss_num": 0.01409912109375,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 286130396,
      "step": 2265
    },
    {
      "epoch": 0.581286474700186,
      "grad_norm": 55.59190368652344,
      "learning_rate": 5e-06,
      "loss": 1.0374,
      "num_input_tokens_seen": 286256392,
      "step": 2266
    },
    {
      "epoch": 0.581286474700186,
      "loss": 1.0047212839126587,
      "loss_ce": 0.00032677644048817456,
      "loss_iou": 0.47265625,
      "loss_num": 0.01171875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 286256392,
      "step": 2266
    },
    {
      "epoch": 0.5815430000641313,
      "grad_norm": 41.733402252197266,
      "learning_rate": 5e-06,
      "loss": 1.0777,
      "num_input_tokens_seen": 286381844,
      "step": 2267
    },
    {
      "epoch": 0.5815430000641313,
      "loss": 1.107222080230713,
      "loss_ce": 0.00028843176551163197,
      "loss_iou": 0.51171875,
      "loss_num": 0.01611328125,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 286381844,
      "step": 2267
    },
    {
      "epoch": 0.5817995254280767,
      "grad_norm": 42.87211608886719,
      "learning_rate": 5e-06,
      "loss": 1.0669,
      "num_input_tokens_seen": 286508236,
      "step": 2268
    },
    {
      "epoch": 0.5817995254280767,
      "loss": 1.1914091110229492,
      "loss_ce": 0.0019559753127396107,
      "loss_iou": 0.5390625,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 286508236,
      "step": 2268
    },
    {
      "epoch": 0.582056050792022,
      "grad_norm": 57.303680419921875,
      "learning_rate": 5e-06,
      "loss": 0.9959,
      "num_input_tokens_seen": 286634016,
      "step": 2269
    },
    {
      "epoch": 0.582056050792022,
      "loss": 1.0285944938659668,
      "loss_ce": 0.0013728067278862,
      "loss_iou": 0.4609375,
      "loss_num": 0.021484375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 286634016,
      "step": 2269
    },
    {
      "epoch": 0.5823125761559674,
      "grad_norm": 49.61715316772461,
      "learning_rate": 5e-06,
      "loss": 1.1026,
      "num_input_tokens_seen": 286761024,
      "step": 2270
    },
    {
      "epoch": 0.5823125761559674,
      "loss": 1.2380586862564087,
      "loss_ce": 0.0012422139989212155,
      "loss_iou": 0.5546875,
      "loss_num": 0.0244140625,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 286761024,
      "step": 2270
    },
    {
      "epoch": 0.5825691015199128,
      "grad_norm": 34.102230072021484,
      "learning_rate": 5e-06,
      "loss": 0.9323,
      "num_input_tokens_seen": 286886632,
      "step": 2271
    },
    {
      "epoch": 0.5825691015199128,
      "loss": 0.9303451776504517,
      "loss_ce": 0.001634210697375238,
      "loss_iou": 0.42578125,
      "loss_num": 0.015380859375,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 286886632,
      "step": 2271
    },
    {
      "epoch": 0.5828256268838582,
      "grad_norm": 48.215763092041016,
      "learning_rate": 5e-06,
      "loss": 1.0042,
      "num_input_tokens_seen": 287013924,
      "step": 2272
    },
    {
      "epoch": 0.5828256268838582,
      "loss": 0.9306126832962036,
      "loss_ce": 0.000925180152989924,
      "loss_iou": 0.447265625,
      "loss_num": 0.007476806640625,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 287013924,
      "step": 2272
    },
    {
      "epoch": 0.5830821522478035,
      "grad_norm": 72.29576110839844,
      "learning_rate": 5e-06,
      "loss": 0.9105,
      "num_input_tokens_seen": 287140808,
      "step": 2273
    },
    {
      "epoch": 0.5830821522478035,
      "loss": 0.912997305393219,
      "loss_ce": 0.0013761724112555385,
      "loss_iou": 0.4296875,
      "loss_num": 0.0107421875,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 287140808,
      "step": 2273
    },
    {
      "epoch": 0.5833386776117488,
      "grad_norm": 46.6407356262207,
      "learning_rate": 5e-06,
      "loss": 1.0048,
      "num_input_tokens_seen": 287265924,
      "step": 2274
    },
    {
      "epoch": 0.5833386776117488,
      "loss": 1.119551181793213,
      "loss_ce": 0.0033401604741811752,
      "loss_iou": 0.51171875,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 287265924,
      "step": 2274
    },
    {
      "epoch": 0.5835952029756942,
      "grad_norm": 27.71636962890625,
      "learning_rate": 5e-06,
      "loss": 1.0326,
      "num_input_tokens_seen": 287391876,
      "step": 2275
    },
    {
      "epoch": 0.5835952029756942,
      "loss": 1.0950871706008911,
      "loss_ce": 0.004266802687197924,
      "loss_iou": 0.48046875,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 287391876,
      "step": 2275
    },
    {
      "epoch": 0.5838517283396396,
      "grad_norm": 41.43502426147461,
      "learning_rate": 5e-06,
      "loss": 1.091,
      "num_input_tokens_seen": 287518432,
      "step": 2276
    },
    {
      "epoch": 0.5838517283396396,
      "loss": 1.1042592525482178,
      "loss_ce": 0.0007435904699377716,
      "loss_iou": 0.50390625,
      "loss_num": 0.019287109375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 287518432,
      "step": 2276
    },
    {
      "epoch": 0.584108253703585,
      "grad_norm": 58.871559143066406,
      "learning_rate": 5e-06,
      "loss": 1.1052,
      "num_input_tokens_seen": 287645216,
      "step": 2277
    },
    {
      "epoch": 0.584108253703585,
      "loss": 1.3482320308685303,
      "loss_ce": 0.004482047166675329,
      "loss_iou": 0.5625,
      "loss_num": 0.04443359375,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 287645216,
      "step": 2277
    },
    {
      "epoch": 0.5843647790675303,
      "grad_norm": 47.11354064941406,
      "learning_rate": 5e-06,
      "loss": 0.9975,
      "num_input_tokens_seen": 287771684,
      "step": 2278
    },
    {
      "epoch": 0.5843647790675303,
      "loss": 1.0229675769805908,
      "loss_ce": 0.001971406629309058,
      "loss_iou": 0.478515625,
      "loss_num": 0.0128173828125,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 287771684,
      "step": 2278
    },
    {
      "epoch": 0.5846213044314756,
      "grad_norm": 24.086027145385742,
      "learning_rate": 5e-06,
      "loss": 0.9724,
      "num_input_tokens_seen": 287898116,
      "step": 2279
    },
    {
      "epoch": 0.5846213044314756,
      "loss": 0.945029079914093,
      "loss_ce": 0.0006931039388291538,
      "loss_iou": 0.4375,
      "loss_num": 0.01385498046875,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 287898116,
      "step": 2279
    },
    {
      "epoch": 0.584877829795421,
      "grad_norm": 33.48784637451172,
      "learning_rate": 5e-06,
      "loss": 0.9629,
      "num_input_tokens_seen": 288023988,
      "step": 2280
    },
    {
      "epoch": 0.584877829795421,
      "loss": 0.8201531171798706,
      "loss_ce": 0.002282051369547844,
      "loss_iou": 0.39453125,
      "loss_num": 0.006134033203125,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 288023988,
      "step": 2280
    },
    {
      "epoch": 0.5851343551593664,
      "grad_norm": 66.6264877319336,
      "learning_rate": 5e-06,
      "loss": 1.0201,
      "num_input_tokens_seen": 288149784,
      "step": 2281
    },
    {
      "epoch": 0.5851343551593664,
      "loss": 1.0106350183486938,
      "loss_ce": 0.00038116273935884237,
      "loss_iou": 0.466796875,
      "loss_num": 0.01531982421875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 288149784,
      "step": 2281
    },
    {
      "epoch": 0.5853908805233118,
      "grad_norm": 54.58407974243164,
      "learning_rate": 5e-06,
      "loss": 1.0668,
      "num_input_tokens_seen": 288276044,
      "step": 2282
    },
    {
      "epoch": 0.5853908805233118,
      "loss": 1.1822755336761475,
      "loss_ce": 0.0025880462490022182,
      "loss_iou": 0.53125,
      "loss_num": 0.023193359375,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 288276044,
      "step": 2282
    },
    {
      "epoch": 0.585647405887257,
      "grad_norm": 47.02547073364258,
      "learning_rate": 5e-06,
      "loss": 1.0616,
      "num_input_tokens_seen": 288402268,
      "step": 2283
    },
    {
      "epoch": 0.585647405887257,
      "loss": 1.1305227279663086,
      "loss_ce": 0.00015163978969212621,
      "loss_iou": 0.51953125,
      "loss_num": 0.017822265625,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 288402268,
      "step": 2283
    },
    {
      "epoch": 0.5859039312512024,
      "grad_norm": 60.92919921875,
      "learning_rate": 5e-06,
      "loss": 1.0682,
      "num_input_tokens_seen": 288528940,
      "step": 2284
    },
    {
      "epoch": 0.5859039312512024,
      "loss": 1.1100897789001465,
      "loss_ce": 0.003156077116727829,
      "loss_iou": 0.51171875,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 288528940,
      "step": 2284
    },
    {
      "epoch": 0.5861604566151478,
      "grad_norm": 59.14535903930664,
      "learning_rate": 5e-06,
      "loss": 0.979,
      "num_input_tokens_seen": 288654936,
      "step": 2285
    },
    {
      "epoch": 0.5861604566151478,
      "loss": 1.1865986585617065,
      "loss_ce": 0.002028298331424594,
      "loss_iou": 0.5390625,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 288654936,
      "step": 2285
    },
    {
      "epoch": 0.5864169819790932,
      "grad_norm": 45.92155456542969,
      "learning_rate": 5e-06,
      "loss": 0.9416,
      "num_input_tokens_seen": 288779860,
      "step": 2286
    },
    {
      "epoch": 0.5864169819790932,
      "loss": 0.9807435274124146,
      "loss_ce": 0.0017396315233781934,
      "loss_iou": 0.45703125,
      "loss_num": 0.0126953125,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 288779860,
      "step": 2286
    },
    {
      "epoch": 0.5866735073430386,
      "grad_norm": 37.88084411621094,
      "learning_rate": 5e-06,
      "loss": 0.9643,
      "num_input_tokens_seen": 288905076,
      "step": 2287
    },
    {
      "epoch": 0.5866735073430386,
      "loss": 1.0260951519012451,
      "loss_ce": 0.0021693662274628878,
      "loss_iou": 0.45703125,
      "loss_num": 0.021728515625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 288905076,
      "step": 2287
    },
    {
      "epoch": 0.5869300327069839,
      "grad_norm": 50.115901947021484,
      "learning_rate": 5e-06,
      "loss": 0.946,
      "num_input_tokens_seen": 289031844,
      "step": 2288
    },
    {
      "epoch": 0.5869300327069839,
      "loss": 0.8172237873077393,
      "loss_ce": 0.0003292668843641877,
      "loss_iou": 0.3828125,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 289031844,
      "step": 2288
    },
    {
      "epoch": 0.5871865580709292,
      "grad_norm": 60.2529411315918,
      "learning_rate": 5e-06,
      "loss": 1.1307,
      "num_input_tokens_seen": 289157492,
      "step": 2289
    },
    {
      "epoch": 0.5871865580709292,
      "loss": 1.2013952732086182,
      "loss_ce": 0.0011999878333881497,
      "loss_iou": 0.5390625,
      "loss_num": 0.025146484375,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 289157492,
      "step": 2289
    },
    {
      "epoch": 0.5874430834348746,
      "grad_norm": 48.58702087402344,
      "learning_rate": 5e-06,
      "loss": 1.0665,
      "num_input_tokens_seen": 289284084,
      "step": 2290
    },
    {
      "epoch": 0.5874430834348746,
      "loss": 1.1696836948394775,
      "loss_ce": 0.002691560424864292,
      "loss_iou": 0.5390625,
      "loss_num": 0.017578125,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 289284084,
      "step": 2290
    },
    {
      "epoch": 0.58769960879882,
      "grad_norm": 50.5435676574707,
      "learning_rate": 5e-06,
      "loss": 1.1193,
      "num_input_tokens_seen": 289410432,
      "step": 2291
    },
    {
      "epoch": 0.58769960879882,
      "loss": 1.1102272272109985,
      "loss_ce": 0.0013404700439423323,
      "loss_iou": 0.49609375,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 289410432,
      "step": 2291
    },
    {
      "epoch": 0.5879561341627654,
      "grad_norm": 45.19846725463867,
      "learning_rate": 5e-06,
      "loss": 0.953,
      "num_input_tokens_seen": 289536236,
      "step": 2292
    },
    {
      "epoch": 0.5879561341627654,
      "loss": 1.0869293212890625,
      "loss_ce": 0.0009917940478771925,
      "loss_iou": 0.494140625,
      "loss_num": 0.01953125,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 289536236,
      "step": 2292
    },
    {
      "epoch": 0.5882126595267108,
      "grad_norm": 53.91408157348633,
      "learning_rate": 5e-06,
      "loss": 0.9257,
      "num_input_tokens_seen": 289663172,
      "step": 2293
    },
    {
      "epoch": 0.5882126595267108,
      "loss": 1.073516845703125,
      "loss_ce": 0.0007629689062014222,
      "loss_iou": 0.478515625,
      "loss_num": 0.02294921875,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 289663172,
      "step": 2293
    },
    {
      "epoch": 0.588469184890656,
      "grad_norm": 45.148101806640625,
      "learning_rate": 5e-06,
      "loss": 1.0471,
      "num_input_tokens_seen": 289789744,
      "step": 2294
    },
    {
      "epoch": 0.588469184890656,
      "loss": 0.9837645292282104,
      "loss_ce": 0.00036609184462577105,
      "loss_iou": 0.45703125,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 289789744,
      "step": 2294
    },
    {
      "epoch": 0.5887257102546014,
      "grad_norm": 46.5736083984375,
      "learning_rate": 5e-06,
      "loss": 1.0602,
      "num_input_tokens_seen": 289915700,
      "step": 2295
    },
    {
      "epoch": 0.5887257102546014,
      "loss": 1.093023657798767,
      "loss_ce": 0.0002502023708075285,
      "loss_iou": 0.484375,
      "loss_num": 0.0244140625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 289915700,
      "step": 2295
    },
    {
      "epoch": 0.5889822356185468,
      "grad_norm": 45.162940979003906,
      "learning_rate": 5e-06,
      "loss": 1.0896,
      "num_input_tokens_seen": 290042188,
      "step": 2296
    },
    {
      "epoch": 0.5889822356185468,
      "loss": 1.2067360877990723,
      "loss_ce": 0.001657957211136818,
      "loss_iou": 0.546875,
      "loss_num": 0.022705078125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 290042188,
      "step": 2296
    },
    {
      "epoch": 0.5892387609824922,
      "grad_norm": 41.95317077636719,
      "learning_rate": 5e-06,
      "loss": 0.9579,
      "num_input_tokens_seen": 290168024,
      "step": 2297
    },
    {
      "epoch": 0.5892387609824922,
      "loss": 0.8861187100410461,
      "loss_ce": 0.0008647897047922015,
      "loss_iou": 0.416015625,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 290168024,
      "step": 2297
    },
    {
      "epoch": 0.5894952863464376,
      "grad_norm": 55.04458999633789,
      "learning_rate": 5e-06,
      "loss": 0.9231,
      "num_input_tokens_seen": 290294076,
      "step": 2298
    },
    {
      "epoch": 0.5894952863464376,
      "loss": 1.0454572439193726,
      "loss_ce": 0.001511923735961318,
      "loss_iou": 0.46484375,
      "loss_num": 0.0234375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 290294076,
      "step": 2298
    },
    {
      "epoch": 0.5897518117103828,
      "grad_norm": 58.13313293457031,
      "learning_rate": 5e-06,
      "loss": 0.9906,
      "num_input_tokens_seen": 290419144,
      "step": 2299
    },
    {
      "epoch": 0.5897518117103828,
      "loss": 0.919009804725647,
      "loss_ce": 0.0010410206159576774,
      "loss_iou": 0.4296875,
      "loss_num": 0.0118408203125,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 290419144,
      "step": 2299
    },
    {
      "epoch": 0.5900083370743282,
      "grad_norm": 48.28561019897461,
      "learning_rate": 5e-06,
      "loss": 1.1189,
      "num_input_tokens_seen": 290546412,
      "step": 2300
    },
    {
      "epoch": 0.5900083370743282,
      "loss": 1.11970853805542,
      "loss_ce": 0.0015445370227098465,
      "loss_iou": 0.5,
      "loss_num": 0.02392578125,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 290546412,
      "step": 2300
    },
    {
      "epoch": 0.5902648624382736,
      "grad_norm": 54.705238342285156,
      "learning_rate": 5e-06,
      "loss": 0.9976,
      "num_input_tokens_seen": 290672412,
      "step": 2301
    },
    {
      "epoch": 0.5902648624382736,
      "loss": 1.0895664691925049,
      "loss_ce": 0.0006992334383539855,
      "loss_iou": 0.5,
      "loss_num": 0.0177001953125,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 290672412,
      "step": 2301
    },
    {
      "epoch": 0.590521387802219,
      "grad_norm": 51.05278778076172,
      "learning_rate": 5e-06,
      "loss": 1.0737,
      "num_input_tokens_seen": 290797796,
      "step": 2302
    },
    {
      "epoch": 0.590521387802219,
      "loss": 1.2142598628997803,
      "loss_ce": 0.001369209261611104,
      "loss_iou": 0.5546875,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 290797796,
      "step": 2302
    },
    {
      "epoch": 0.5907779131661643,
      "grad_norm": 34.975250244140625,
      "learning_rate": 5e-06,
      "loss": 0.9657,
      "num_input_tokens_seen": 290923528,
      "step": 2303
    },
    {
      "epoch": 0.5907779131661643,
      "loss": 1.116004228591919,
      "loss_ce": 0.00028154952451586723,
      "loss_iou": 0.515625,
      "loss_num": 0.016845703125,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 290923528,
      "step": 2303
    },
    {
      "epoch": 0.5910344385301096,
      "grad_norm": 32.274192810058594,
      "learning_rate": 5e-06,
      "loss": 0.9616,
      "num_input_tokens_seen": 291049368,
      "step": 2304
    },
    {
      "epoch": 0.5910344385301096,
      "loss": 1.1439359188079834,
      "loss_ce": 0.0003813515941146761,
      "loss_iou": 0.51953125,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 291049368,
      "step": 2304
    },
    {
      "epoch": 0.591290963894055,
      "grad_norm": 60.639617919921875,
      "learning_rate": 5e-06,
      "loss": 1.0814,
      "num_input_tokens_seen": 291176872,
      "step": 2305
    },
    {
      "epoch": 0.591290963894055,
      "loss": 0.9734630584716797,
      "loss_ce": 0.00373642286285758,
      "loss_iou": 0.451171875,
      "loss_num": 0.013427734375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 291176872,
      "step": 2305
    },
    {
      "epoch": 0.5915474892580004,
      "grad_norm": 42.64265441894531,
      "learning_rate": 5e-06,
      "loss": 1.0741,
      "num_input_tokens_seen": 291302524,
      "step": 2306
    },
    {
      "epoch": 0.5915474892580004,
      "loss": 1.2454249858856201,
      "loss_ce": 0.003725821152329445,
      "loss_iou": 0.55859375,
      "loss_num": 0.025390625,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 291302524,
      "step": 2306
    },
    {
      "epoch": 0.5918040146219458,
      "grad_norm": 24.7999324798584,
      "learning_rate": 5e-06,
      "loss": 0.9294,
      "num_input_tokens_seen": 291428160,
      "step": 2307
    },
    {
      "epoch": 0.5918040146219458,
      "loss": 1.1812859773635864,
      "loss_ce": 0.0001336273708147928,
      "loss_iou": 0.54296875,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 291428160,
      "step": 2307
    },
    {
      "epoch": 0.5920605399858911,
      "grad_norm": 24.495330810546875,
      "learning_rate": 5e-06,
      "loss": 0.8388,
      "num_input_tokens_seen": 291553680,
      "step": 2308
    },
    {
      "epoch": 0.5920605399858911,
      "loss": 0.8544079065322876,
      "loss_ce": 0.0008922575507313013,
      "loss_iou": 0.400390625,
      "loss_num": 0.01025390625,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 291553680,
      "step": 2308
    },
    {
      "epoch": 0.5923170653498364,
      "grad_norm": 47.533042907714844,
      "learning_rate": 5e-06,
      "loss": 0.9455,
      "num_input_tokens_seen": 291679700,
      "step": 2309
    },
    {
      "epoch": 0.5923170653498364,
      "loss": 0.8239967823028564,
      "loss_ce": 0.00026626078761182725,
      "loss_iou": 0.390625,
      "loss_num": 0.00836181640625,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 291679700,
      "step": 2309
    },
    {
      "epoch": 0.5925735907137818,
      "grad_norm": 58.973445892333984,
      "learning_rate": 5e-06,
      "loss": 0.9845,
      "num_input_tokens_seen": 291806780,
      "step": 2310
    },
    {
      "epoch": 0.5925735907137818,
      "loss": 1.2595105171203613,
      "loss_ce": 0.0012097798753529787,
      "loss_iou": 0.578125,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 291806780,
      "step": 2310
    },
    {
      "epoch": 0.5928301160777272,
      "grad_norm": 89.13544464111328,
      "learning_rate": 5e-06,
      "loss": 0.885,
      "num_input_tokens_seen": 291933300,
      "step": 2311
    },
    {
      "epoch": 0.5928301160777272,
      "loss": 1.0378074645996094,
      "loss_ce": 0.0011863324325531721,
      "loss_iou": 0.474609375,
      "loss_num": 0.017578125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 291933300,
      "step": 2311
    },
    {
      "epoch": 0.5930866414416726,
      "grad_norm": 67.94842529296875,
      "learning_rate": 5e-06,
      "loss": 1.0881,
      "num_input_tokens_seen": 292060508,
      "step": 2312
    },
    {
      "epoch": 0.5930866414416726,
      "loss": 0.9627427458763123,
      "loss_ce": 0.00034045439679175615,
      "loss_iou": 0.443359375,
      "loss_num": 0.015380859375,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 292060508,
      "step": 2312
    },
    {
      "epoch": 0.5933431668056179,
      "grad_norm": 28.837142944335938,
      "learning_rate": 5e-06,
      "loss": 0.9479,
      "num_input_tokens_seen": 292186748,
      "step": 2313
    },
    {
      "epoch": 0.5933431668056179,
      "loss": 0.7363103628158569,
      "loss_ce": 0.002667805412784219,
      "loss_iou": 0.34765625,
      "loss_num": 0.00787353515625,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 292186748,
      "step": 2313
    },
    {
      "epoch": 0.5935996921695633,
      "grad_norm": 39.987060546875,
      "learning_rate": 5e-06,
      "loss": 0.9748,
      "num_input_tokens_seen": 292312808,
      "step": 2314
    },
    {
      "epoch": 0.5935996921695633,
      "loss": 0.9550735950469971,
      "loss_ce": 0.00048377137864008546,
      "loss_iou": 0.4375,
      "loss_num": 0.015625,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 292312808,
      "step": 2314
    },
    {
      "epoch": 0.5938562175335086,
      "grad_norm": 68.28369903564453,
      "learning_rate": 5e-06,
      "loss": 1.0291,
      "num_input_tokens_seen": 292439064,
      "step": 2315
    },
    {
      "epoch": 0.5938562175335086,
      "loss": 1.0445154905319214,
      "loss_ce": 0.0005701752961613238,
      "loss_iou": 0.486328125,
      "loss_num": 0.01409912109375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 292439064,
      "step": 2315
    },
    {
      "epoch": 0.594112742897454,
      "grad_norm": 50.857215881347656,
      "learning_rate": 5e-06,
      "loss": 1.0444,
      "num_input_tokens_seen": 292565800,
      "step": 2316
    },
    {
      "epoch": 0.594112742897454,
      "loss": 1.034066915512085,
      "loss_ce": 0.006723094265908003,
      "loss_iou": 0.48046875,
      "loss_num": 0.012939453125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 292565800,
      "step": 2316
    },
    {
      "epoch": 0.5943692682613994,
      "grad_norm": 35.74585723876953,
      "learning_rate": 5e-06,
      "loss": 0.9786,
      "num_input_tokens_seen": 292691180,
      "step": 2317
    },
    {
      "epoch": 0.5943692682613994,
      "loss": 1.0223612785339355,
      "loss_ce": 0.00038872676668688655,
      "loss_iou": 0.48046875,
      "loss_num": 0.01177978515625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 292691180,
      "step": 2317
    },
    {
      "epoch": 0.5946257936253447,
      "grad_norm": 38.40127944946289,
      "learning_rate": 5e-06,
      "loss": 1.0309,
      "num_input_tokens_seen": 292815748,
      "step": 2318
    },
    {
      "epoch": 0.5946257936253447,
      "loss": 1.0342509746551514,
      "loss_ce": 0.0005596159026026726,
      "loss_iou": 0.484375,
      "loss_num": 0.0130615234375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 292815748,
      "step": 2318
    },
    {
      "epoch": 0.5948823189892901,
      "grad_norm": 35.82906723022461,
      "learning_rate": 5e-06,
      "loss": 1.0031,
      "num_input_tokens_seen": 292940916,
      "step": 2319
    },
    {
      "epoch": 0.5948823189892901,
      "loss": 0.7945461869239807,
      "loss_ce": 0.0003567672974895686,
      "loss_iou": 0.369140625,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 292940916,
      "step": 2319
    },
    {
      "epoch": 0.5951388443532354,
      "grad_norm": 54.18876647949219,
      "learning_rate": 5e-06,
      "loss": 0.9282,
      "num_input_tokens_seen": 293067588,
      "step": 2320
    },
    {
      "epoch": 0.5951388443532354,
      "loss": 0.829771876335144,
      "loss_ce": 0.0006703597609885037,
      "loss_iou": 0.3984375,
      "loss_num": 0.006256103515625,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 293067588,
      "step": 2320
    },
    {
      "epoch": 0.5953953697171808,
      "grad_norm": 46.512367248535156,
      "learning_rate": 5e-06,
      "loss": 1.0253,
      "num_input_tokens_seen": 293191504,
      "step": 2321
    },
    {
      "epoch": 0.5953953697171808,
      "loss": 0.9407771825790405,
      "loss_ce": 0.0003475116682238877,
      "loss_iou": 0.4375,
      "loss_num": 0.013427734375,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 293191504,
      "step": 2321
    },
    {
      "epoch": 0.5956518950811261,
      "grad_norm": 29.747386932373047,
      "learning_rate": 5e-06,
      "loss": 0.9981,
      "num_input_tokens_seen": 293317856,
      "step": 2322
    },
    {
      "epoch": 0.5956518950811261,
      "loss": 0.8702504634857178,
      "loss_ce": 0.00013331117224879563,
      "loss_iou": 0.40625,
      "loss_num": 0.01177978515625,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 293317856,
      "step": 2322
    },
    {
      "epoch": 0.5959084204450715,
      "grad_norm": 43.62669372558594,
      "learning_rate": 5e-06,
      "loss": 0.95,
      "num_input_tokens_seen": 293444056,
      "step": 2323
    },
    {
      "epoch": 0.5959084204450715,
      "loss": 0.9830790162086487,
      "loss_ce": 0.0006571381818503141,
      "loss_iou": 0.466796875,
      "loss_num": 0.0101318359375,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 293444056,
      "step": 2323
    },
    {
      "epoch": 0.5961649458090169,
      "grad_norm": 44.719032287597656,
      "learning_rate": 5e-06,
      "loss": 1.0186,
      "num_input_tokens_seen": 293569836,
      "step": 2324
    },
    {
      "epoch": 0.5961649458090169,
      "loss": 1.124413251876831,
      "loss_ce": 0.004784312564879656,
      "loss_iou": 0.515625,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 293569836,
      "step": 2324
    },
    {
      "epoch": 0.5964214711729622,
      "grad_norm": 68.10160064697266,
      "learning_rate": 5e-06,
      "loss": 0.895,
      "num_input_tokens_seen": 293695616,
      "step": 2325
    },
    {
      "epoch": 0.5964214711729622,
      "loss": 0.9030669927597046,
      "loss_ce": 0.0007232313510030508,
      "loss_iou": 0.41796875,
      "loss_num": 0.01361083984375,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 293695616,
      "step": 2325
    },
    {
      "epoch": 0.5966779965369076,
      "grad_norm": 62.12166976928711,
      "learning_rate": 5e-06,
      "loss": 1.0999,
      "num_input_tokens_seen": 293822356,
      "step": 2326
    },
    {
      "epoch": 0.5966779965369076,
      "loss": 0.8887626528739929,
      "loss_ce": 0.0005790781578980386,
      "loss_iou": 0.41796875,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 293822356,
      "step": 2326
    },
    {
      "epoch": 0.5969345219008529,
      "grad_norm": 44.03275680541992,
      "learning_rate": 5e-06,
      "loss": 0.9549,
      "num_input_tokens_seen": 293947824,
      "step": 2327
    },
    {
      "epoch": 0.5969345219008529,
      "loss": 1.002312183380127,
      "loss_ce": 0.0003590636479202658,
      "loss_iou": 0.46484375,
      "loss_num": 0.01409912109375,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 293947824,
      "step": 2327
    },
    {
      "epoch": 0.5971910472647983,
      "grad_norm": 52.77204513549805,
      "learning_rate": 5e-06,
      "loss": 0.9899,
      "num_input_tokens_seen": 294074516,
      "step": 2328
    },
    {
      "epoch": 0.5971910472647983,
      "loss": 0.9081615209579468,
      "loss_ce": 0.0014232808025553823,
      "loss_iou": 0.423828125,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 294074516,
      "step": 2328
    },
    {
      "epoch": 0.5974475726287437,
      "grad_norm": 69.1312026977539,
      "learning_rate": 5e-06,
      "loss": 1.0554,
      "num_input_tokens_seen": 294200936,
      "step": 2329
    },
    {
      "epoch": 0.5974475726287437,
      "loss": 1.1638425588607788,
      "loss_ce": 0.0061277663335204124,
      "loss_iou": 0.50390625,
      "loss_num": 0.029541015625,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 294200936,
      "step": 2329
    },
    {
      "epoch": 0.597704097992689,
      "grad_norm": 51.3317756652832,
      "learning_rate": 5e-06,
      "loss": 1.096,
      "num_input_tokens_seen": 294327568,
      "step": 2330
    },
    {
      "epoch": 0.597704097992689,
      "loss": 1.011521816253662,
      "loss_ce": 0.0007795936544425786,
      "loss_iou": 0.46484375,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 294327568,
      "step": 2330
    },
    {
      "epoch": 0.5979606233566344,
      "grad_norm": 27.79184341430664,
      "learning_rate": 5e-06,
      "loss": 0.9504,
      "num_input_tokens_seen": 294453068,
      "step": 2331
    },
    {
      "epoch": 0.5979606233566344,
      "loss": 0.9353563785552979,
      "loss_ce": 0.0002977780532091856,
      "loss_iou": 0.423828125,
      "loss_num": 0.0174560546875,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 294453068,
      "step": 2331
    },
    {
      "epoch": 0.5982171487205797,
      "grad_norm": 42.96196365356445,
      "learning_rate": 5e-06,
      "loss": 0.9338,
      "num_input_tokens_seen": 294578024,
      "step": 2332
    },
    {
      "epoch": 0.5982171487205797,
      "loss": 0.9908304214477539,
      "loss_ce": 0.002060859464108944,
      "loss_iou": 0.44921875,
      "loss_num": 0.01806640625,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 294578024,
      "step": 2332
    },
    {
      "epoch": 0.5984736740845251,
      "grad_norm": 32.76695251464844,
      "learning_rate": 5e-06,
      "loss": 1.0141,
      "num_input_tokens_seen": 294703524,
      "step": 2333
    },
    {
      "epoch": 0.5984736740845251,
      "loss": 0.966947078704834,
      "loss_ce": 0.0043005263432860374,
      "loss_iou": 0.453125,
      "loss_num": 0.01123046875,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 294703524,
      "step": 2333
    },
    {
      "epoch": 0.5987301994484705,
      "grad_norm": 29.457813262939453,
      "learning_rate": 5e-06,
      "loss": 0.955,
      "num_input_tokens_seen": 294829236,
      "step": 2334
    },
    {
      "epoch": 0.5987301994484705,
      "loss": 0.8254052400588989,
      "loss_ce": 0.001186518114991486,
      "loss_iou": 0.390625,
      "loss_num": 0.00848388671875,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 294829236,
      "step": 2334
    },
    {
      "epoch": 0.5989867248124159,
      "grad_norm": 32.25540542602539,
      "learning_rate": 5e-06,
      "loss": 0.9865,
      "num_input_tokens_seen": 294955240,
      "step": 2335
    },
    {
      "epoch": 0.5989867248124159,
      "loss": 1.013364553451538,
      "loss_ce": 0.00164588273037225,
      "loss_iou": 0.45703125,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 294955240,
      "step": 2335
    },
    {
      "epoch": 0.5992432501763612,
      "grad_norm": 31.225496292114258,
      "learning_rate": 5e-06,
      "loss": 0.8986,
      "num_input_tokens_seen": 295081980,
      "step": 2336
    },
    {
      "epoch": 0.5992432501763612,
      "loss": 0.8935205936431885,
      "loss_ce": 0.0014307815581560135,
      "loss_iou": 0.421875,
      "loss_num": 0.00982666015625,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 295081980,
      "step": 2336
    },
    {
      "epoch": 0.5994997755403065,
      "grad_norm": 41.831512451171875,
      "learning_rate": 5e-06,
      "loss": 1.04,
      "num_input_tokens_seen": 295210592,
      "step": 2337
    },
    {
      "epoch": 0.5994997755403065,
      "loss": 1.0793217420578003,
      "loss_ce": 0.0016850350657477975,
      "loss_iou": 0.48828125,
      "loss_num": 0.01953125,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 295210592,
      "step": 2337
    },
    {
      "epoch": 0.5997563009042519,
      "grad_norm": 43.993595123291016,
      "learning_rate": 5e-06,
      "loss": 0.9735,
      "num_input_tokens_seen": 295336888,
      "step": 2338
    },
    {
      "epoch": 0.5997563009042519,
      "loss": 1.2753689289093018,
      "loss_ce": 0.0009548969683237374,
      "loss_iou": 0.59375,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 295336888,
      "step": 2338
    },
    {
      "epoch": 0.6000128262681973,
      "grad_norm": 34.445648193359375,
      "learning_rate": 5e-06,
      "loss": 1.0403,
      "num_input_tokens_seen": 295463044,
      "step": 2339
    },
    {
      "epoch": 0.6000128262681973,
      "loss": 1.1691168546676636,
      "loss_ce": 0.0026129393372684717,
      "loss_iou": 0.53125,
      "loss_num": 0.02001953125,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 295463044,
      "step": 2339
    },
    {
      "epoch": 0.6002693516321427,
      "grad_norm": 39.63389587402344,
      "learning_rate": 5e-06,
      "loss": 0.9238,
      "num_input_tokens_seen": 295589576,
      "step": 2340
    },
    {
      "epoch": 0.6002693516321427,
      "loss": 1.020135521888733,
      "loss_ce": 0.0006042669410817325,
      "loss_iou": 0.46875,
      "loss_num": 0.0159912109375,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 295589576,
      "step": 2340
    },
    {
      "epoch": 0.600525876996088,
      "grad_norm": 77.85896301269531,
      "learning_rate": 5e-06,
      "loss": 0.9247,
      "num_input_tokens_seen": 295715628,
      "step": 2341
    },
    {
      "epoch": 0.600525876996088,
      "loss": 1.034177303314209,
      "loss_ce": 0.00024170703545678407,
      "loss_iou": 0.486328125,
      "loss_num": 0.0120849609375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 295715628,
      "step": 2341
    },
    {
      "epoch": 0.6007824023600333,
      "grad_norm": 60.31460189819336,
      "learning_rate": 5e-06,
      "loss": 1.0096,
      "num_input_tokens_seen": 295843216,
      "step": 2342
    },
    {
      "epoch": 0.6007824023600333,
      "loss": 1.0265511274337769,
      "loss_ce": 0.00018396957602817565,
      "loss_iou": 0.466796875,
      "loss_num": 0.0185546875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 295843216,
      "step": 2342
    },
    {
      "epoch": 0.6010389277239787,
      "grad_norm": 43.02094268798828,
      "learning_rate": 5e-06,
      "loss": 0.9721,
      "num_input_tokens_seen": 295970068,
      "step": 2343
    },
    {
      "epoch": 0.6010389277239787,
      "loss": 0.840064525604248,
      "loss_ce": 0.001685582334175706,
      "loss_iou": 0.396484375,
      "loss_num": 0.00933837890625,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 295970068,
      "step": 2343
    },
    {
      "epoch": 0.6012954530879241,
      "grad_norm": 30.822534561157227,
      "learning_rate": 5e-06,
      "loss": 0.9401,
      "num_input_tokens_seen": 296095760,
      "step": 2344
    },
    {
      "epoch": 0.6012954530879241,
      "loss": 0.858420729637146,
      "loss_ce": 0.001975464401766658,
      "loss_iou": 0.40234375,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 296095760,
      "step": 2344
    },
    {
      "epoch": 0.6015519784518695,
      "grad_norm": 31.357173919677734,
      "learning_rate": 5e-06,
      "loss": 0.9409,
      "num_input_tokens_seen": 296221768,
      "step": 2345
    },
    {
      "epoch": 0.6015519784518695,
      "loss": 0.9924489259719849,
      "loss_ce": 0.004167623817920685,
      "loss_iou": 0.44140625,
      "loss_num": 0.020751953125,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 296221768,
      "step": 2345
    },
    {
      "epoch": 0.6018085038158147,
      "grad_norm": 36.41876983642578,
      "learning_rate": 5e-06,
      "loss": 1.0142,
      "num_input_tokens_seen": 296348400,
      "step": 2346
    },
    {
      "epoch": 0.6018085038158147,
      "loss": 0.9486322999000549,
      "loss_ce": 0.0013666781596839428,
      "loss_iou": 0.427734375,
      "loss_num": 0.0181884765625,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 296348400,
      "step": 2346
    },
    {
      "epoch": 0.6020650291797601,
      "grad_norm": 39.93068313598633,
      "learning_rate": 5e-06,
      "loss": 1.1697,
      "num_input_tokens_seen": 296474540,
      "step": 2347
    },
    {
      "epoch": 0.6020650291797601,
      "loss": 1.3424949645996094,
      "loss_ce": 0.0006981391925364733,
      "loss_iou": 0.59375,
      "loss_num": 0.03125,
      "loss_xval": 1.34375,
      "num_input_tokens_seen": 296474540,
      "step": 2347
    },
    {
      "epoch": 0.6023215545437055,
      "grad_norm": 55.9630126953125,
      "learning_rate": 5e-06,
      "loss": 0.8897,
      "num_input_tokens_seen": 296601192,
      "step": 2348
    },
    {
      "epoch": 0.6023215545437055,
      "loss": 1.0129127502441406,
      "loss_ce": 0.0016823092009872198,
      "loss_iou": 0.455078125,
      "loss_num": 0.02001953125,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 296601192,
      "step": 2348
    },
    {
      "epoch": 0.6025780799076509,
      "grad_norm": 77.8394775390625,
      "learning_rate": 5e-06,
      "loss": 1.1688,
      "num_input_tokens_seen": 296727160,
      "step": 2349
    },
    {
      "epoch": 0.6025780799076509,
      "loss": 1.2625597715377808,
      "loss_ce": 0.0008409414440393448,
      "loss_iou": 0.57421875,
      "loss_num": 0.02294921875,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 296727160,
      "step": 2349
    },
    {
      "epoch": 0.6028346052715963,
      "grad_norm": 45.86054229736328,
      "learning_rate": 5e-06,
      "loss": 1.0527,
      "num_input_tokens_seen": 296852516,
      "step": 2350
    },
    {
      "epoch": 0.6028346052715963,
      "loss": 0.9557281732559204,
      "loss_ce": 0.0016266198363155127,
      "loss_iou": 0.4453125,
      "loss_num": 0.01275634765625,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 296852516,
      "step": 2350
    },
    {
      "epoch": 0.6030911306355415,
      "grad_norm": 41.98226547241211,
      "learning_rate": 5e-06,
      "loss": 1.0907,
      "num_input_tokens_seen": 296977948,
      "step": 2351
    },
    {
      "epoch": 0.6030911306355415,
      "loss": 1.0982770919799805,
      "loss_ce": 0.00037677702493965626,
      "loss_iou": 0.484375,
      "loss_num": 0.0255126953125,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 296977948,
      "step": 2351
    },
    {
      "epoch": 0.6033476559994869,
      "grad_norm": 40.464263916015625,
      "learning_rate": 5e-06,
      "loss": 1.0874,
      "num_input_tokens_seen": 297103912,
      "step": 2352
    },
    {
      "epoch": 0.6033476559994869,
      "loss": 0.9715901613235474,
      "loss_ce": 0.00039873551577329636,
      "loss_iou": 0.44921875,
      "loss_num": 0.0147705078125,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 297103912,
      "step": 2352
    },
    {
      "epoch": 0.6036041813634323,
      "grad_norm": 42.39037322998047,
      "learning_rate": 5e-06,
      "loss": 0.8749,
      "num_input_tokens_seen": 297230496,
      "step": 2353
    },
    {
      "epoch": 0.6036041813634323,
      "loss": 0.7754807472229004,
      "loss_ce": 0.0005784243112429976,
      "loss_iou": 0.373046875,
      "loss_num": 0.005889892578125,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 297230496,
      "step": 2353
    },
    {
      "epoch": 0.6038607067273777,
      "grad_norm": 47.811119079589844,
      "learning_rate": 5e-06,
      "loss": 0.9165,
      "num_input_tokens_seen": 297356444,
      "step": 2354
    },
    {
      "epoch": 0.6038607067273777,
      "loss": 0.8914203643798828,
      "loss_ce": 0.001283644000068307,
      "loss_iou": 0.41015625,
      "loss_num": 0.01416015625,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 297356444,
      "step": 2354
    },
    {
      "epoch": 0.6041172320913231,
      "grad_norm": 53.22089385986328,
      "learning_rate": 5e-06,
      "loss": 1.1213,
      "num_input_tokens_seen": 297482620,
      "step": 2355
    },
    {
      "epoch": 0.6041172320913231,
      "loss": 1.1584198474884033,
      "loss_ce": 0.00607612170279026,
      "loss_iou": 0.50390625,
      "loss_num": 0.0289306640625,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 297482620,
      "step": 2355
    },
    {
      "epoch": 0.6043737574552683,
      "grad_norm": 56.330204010009766,
      "learning_rate": 5e-06,
      "loss": 1.0271,
      "num_input_tokens_seen": 297608764,
      "step": 2356
    },
    {
      "epoch": 0.6043737574552683,
      "loss": 1.0233381986618042,
      "loss_ce": 0.0003889874496962875,
      "loss_iou": 0.478515625,
      "loss_num": 0.012939453125,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 297608764,
      "step": 2356
    },
    {
      "epoch": 0.6046302828192137,
      "grad_norm": 62.2961540222168,
      "learning_rate": 5e-06,
      "loss": 1.0707,
      "num_input_tokens_seen": 297734604,
      "step": 2357
    },
    {
      "epoch": 0.6046302828192137,
      "loss": 1.034083366394043,
      "loss_ce": 0.0028332697693258524,
      "loss_iou": 0.48046875,
      "loss_num": 0.01422119140625,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 297734604,
      "step": 2357
    },
    {
      "epoch": 0.6048868081831591,
      "grad_norm": 54.8119010925293,
      "learning_rate": 5e-06,
      "loss": 1.2108,
      "num_input_tokens_seen": 297859612,
      "step": 2358
    },
    {
      "epoch": 0.6048868081831591,
      "loss": 1.0146894454956055,
      "loss_ce": 0.0015058487188071012,
      "loss_iou": 0.4609375,
      "loss_num": 0.0185546875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 297859612,
      "step": 2358
    },
    {
      "epoch": 0.6051433335471045,
      "grad_norm": 58.419010162353516,
      "learning_rate": 5e-06,
      "loss": 1.0189,
      "num_input_tokens_seen": 297987700,
      "step": 2359
    },
    {
      "epoch": 0.6051433335471045,
      "loss": 1.0325638055801392,
      "loss_ce": 0.0018020968418568373,
      "loss_iou": 0.478515625,
      "loss_num": 0.0147705078125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 297987700,
      "step": 2359
    },
    {
      "epoch": 0.6053998589110499,
      "grad_norm": 59.97882843017578,
      "learning_rate": 5e-06,
      "loss": 1.0537,
      "num_input_tokens_seen": 298113972,
      "step": 2360
    },
    {
      "epoch": 0.6053998589110499,
      "loss": 0.9035608172416687,
      "loss_ce": 0.0007287994958460331,
      "loss_iou": 0.4296875,
      "loss_num": 0.00872802734375,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 298113972,
      "step": 2360
    },
    {
      "epoch": 0.6056563842749952,
      "grad_norm": 37.03329849243164,
      "learning_rate": 5e-06,
      "loss": 1.0774,
      "num_input_tokens_seen": 298239040,
      "step": 2361
    },
    {
      "epoch": 0.6056563842749952,
      "loss": 1.0830841064453125,
      "loss_ce": 0.0010528210550546646,
      "loss_iou": 0.5,
      "loss_num": 0.0166015625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 298239040,
      "step": 2361
    },
    {
      "epoch": 0.6059129096389405,
      "grad_norm": 34.191184997558594,
      "learning_rate": 5e-06,
      "loss": 1.0617,
      "num_input_tokens_seen": 298365180,
      "step": 2362
    },
    {
      "epoch": 0.6059129096389405,
      "loss": 0.9471461772918701,
      "loss_ce": 0.002810215577483177,
      "loss_iou": 0.43359375,
      "loss_num": 0.01507568359375,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 298365180,
      "step": 2362
    },
    {
      "epoch": 0.6061694350028859,
      "grad_norm": 59.82087707519531,
      "learning_rate": 5e-06,
      "loss": 1.0054,
      "num_input_tokens_seen": 298490684,
      "step": 2363
    },
    {
      "epoch": 0.6061694350028859,
      "loss": 1.012795090675354,
      "loss_ce": 0.0005880154203623533,
      "loss_iou": 0.478515625,
      "loss_num": 0.01123046875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 298490684,
      "step": 2363
    },
    {
      "epoch": 0.6064259603668313,
      "grad_norm": 55.13700866699219,
      "learning_rate": 5e-06,
      "loss": 1.1554,
      "num_input_tokens_seen": 298615908,
      "step": 2364
    },
    {
      "epoch": 0.6064259603668313,
      "loss": 1.108099102973938,
      "loss_ce": 0.001165477791801095,
      "loss_iou": 0.5,
      "loss_num": 0.021240234375,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 298615908,
      "step": 2364
    },
    {
      "epoch": 0.6066824857307767,
      "grad_norm": 34.03069305419922,
      "learning_rate": 5e-06,
      "loss": 1.0088,
      "num_input_tokens_seen": 298741656,
      "step": 2365
    },
    {
      "epoch": 0.6066824857307767,
      "loss": 0.950843870639801,
      "loss_ce": 0.0033341727685183287,
      "loss_iou": 0.412109375,
      "loss_num": 0.0247802734375,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 298741656,
      "step": 2365
    },
    {
      "epoch": 0.606939011094722,
      "grad_norm": 48.4284553527832,
      "learning_rate": 5e-06,
      "loss": 0.876,
      "num_input_tokens_seen": 298867672,
      "step": 2366
    },
    {
      "epoch": 0.606939011094722,
      "loss": 0.7349511981010437,
      "loss_ce": 0.0030176120344549417,
      "loss_iou": 0.34375,
      "loss_num": 0.0087890625,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 298867672,
      "step": 2366
    },
    {
      "epoch": 0.6071955364586673,
      "grad_norm": 56.36427307128906,
      "learning_rate": 5e-06,
      "loss": 1.0335,
      "num_input_tokens_seen": 298992812,
      "step": 2367
    },
    {
      "epoch": 0.6071955364586673,
      "loss": 0.9154160022735596,
      "loss_ce": 0.0018418596591800451,
      "loss_iou": 0.435546875,
      "loss_num": 0.008544921875,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 298992812,
      "step": 2367
    },
    {
      "epoch": 0.6074520618226127,
      "grad_norm": 45.70939636230469,
      "learning_rate": 5e-06,
      "loss": 0.9753,
      "num_input_tokens_seen": 299119044,
      "step": 2368
    },
    {
      "epoch": 0.6074520618226127,
      "loss": 0.7892074584960938,
      "loss_ce": 0.00014495570212602615,
      "loss_iou": 0.37890625,
      "loss_num": 0.0059814453125,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 299119044,
      "step": 2368
    },
    {
      "epoch": 0.6077085871865581,
      "grad_norm": 42.5671272277832,
      "learning_rate": 5e-06,
      "loss": 0.9652,
      "num_input_tokens_seen": 299246484,
      "step": 2369
    },
    {
      "epoch": 0.6077085871865581,
      "loss": 0.8440212607383728,
      "loss_ce": 0.000759531685616821,
      "loss_iou": 0.404296875,
      "loss_num": 0.006805419921875,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 299246484,
      "step": 2369
    },
    {
      "epoch": 0.6079651125505035,
      "grad_norm": 38.56281661987305,
      "learning_rate": 5e-06,
      "loss": 0.853,
      "num_input_tokens_seen": 299372824,
      "step": 2370
    },
    {
      "epoch": 0.6079651125505035,
      "loss": 0.8644446134567261,
      "loss_ce": 0.00213992758654058,
      "loss_iou": 0.390625,
      "loss_num": 0.015869140625,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 299372824,
      "step": 2370
    },
    {
      "epoch": 0.6082216379144488,
      "grad_norm": 76.17793273925781,
      "learning_rate": 5e-06,
      "loss": 0.9996,
      "num_input_tokens_seen": 299499148,
      "step": 2371
    },
    {
      "epoch": 0.6082216379144488,
      "loss": 0.9436133503913879,
      "loss_ce": 0.0007422103662975132,
      "loss_iou": 0.435546875,
      "loss_num": 0.01422119140625,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 299499148,
      "step": 2371
    },
    {
      "epoch": 0.6084781632783941,
      "grad_norm": 47.47568130493164,
      "learning_rate": 5e-06,
      "loss": 1.0497,
      "num_input_tokens_seen": 299625756,
      "step": 2372
    },
    {
      "epoch": 0.6084781632783941,
      "loss": 0.9972690343856812,
      "loss_ce": 0.0011752945138141513,
      "loss_iou": 0.47265625,
      "loss_num": 0.009765625,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 299625756,
      "step": 2372
    },
    {
      "epoch": 0.6087346886423395,
      "grad_norm": 19.725831985473633,
      "learning_rate": 5e-06,
      "loss": 0.9536,
      "num_input_tokens_seen": 299752204,
      "step": 2373
    },
    {
      "epoch": 0.6087346886423395,
      "loss": 1.2129980325698853,
      "loss_ce": 0.0005957222892902792,
      "loss_iou": 0.546875,
      "loss_num": 0.02392578125,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 299752204,
      "step": 2373
    },
    {
      "epoch": 0.6089912140062849,
      "grad_norm": 21.840272903442383,
      "learning_rate": 5e-06,
      "loss": 0.9352,
      "num_input_tokens_seen": 299877208,
      "step": 2374
    },
    {
      "epoch": 0.6089912140062849,
      "loss": 0.8713295459747314,
      "loss_ce": 0.0004799108428414911,
      "loss_iou": 0.40625,
      "loss_num": 0.01190185546875,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 299877208,
      "step": 2374
    },
    {
      "epoch": 0.6092477393702302,
      "grad_norm": 29.53074073791504,
      "learning_rate": 5e-06,
      "loss": 0.9663,
      "num_input_tokens_seen": 300004208,
      "step": 2375
    },
    {
      "epoch": 0.6092477393702302,
      "loss": 0.8725451231002808,
      "loss_ce": 0.00047486129915341735,
      "loss_iou": 0.3984375,
      "loss_num": 0.0147705078125,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 300004208,
      "step": 2375
    },
    {
      "epoch": 0.6095042647341756,
      "grad_norm": 41.67243576049805,
      "learning_rate": 5e-06,
      "loss": 0.921,
      "num_input_tokens_seen": 300131384,
      "step": 2376
    },
    {
      "epoch": 0.6095042647341756,
      "loss": 1.0623406171798706,
      "loss_ce": 0.00032892514718696475,
      "loss_iou": 0.478515625,
      "loss_num": 0.0206298828125,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 300131384,
      "step": 2376
    },
    {
      "epoch": 0.6097607900981209,
      "grad_norm": 77.45318603515625,
      "learning_rate": 5e-06,
      "loss": 0.9334,
      "num_input_tokens_seen": 300257100,
      "step": 2377
    },
    {
      "epoch": 0.6097607900981209,
      "loss": 0.9201186895370483,
      "loss_ce": 0.0001968123106053099,
      "loss_iou": 0.439453125,
      "loss_num": 0.0084228515625,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 300257100,
      "step": 2377
    },
    {
      "epoch": 0.6100173154620663,
      "grad_norm": 57.750789642333984,
      "learning_rate": 5e-06,
      "loss": 1.0497,
      "num_input_tokens_seen": 300384080,
      "step": 2378
    },
    {
      "epoch": 0.6100173154620663,
      "loss": 1.127772331237793,
      "loss_ce": 0.00179577199742198,
      "loss_iou": 0.5078125,
      "loss_num": 0.02197265625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 300384080,
      "step": 2378
    },
    {
      "epoch": 0.6102738408260117,
      "grad_norm": 30.240985870361328,
      "learning_rate": 5e-06,
      "loss": 0.963,
      "num_input_tokens_seen": 300509952,
      "step": 2379
    },
    {
      "epoch": 0.6102738408260117,
      "loss": 1.0444300174713135,
      "loss_ce": 0.0019494625739753246,
      "loss_iou": 0.4765625,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 300509952,
      "step": 2379
    },
    {
      "epoch": 0.610530366189957,
      "grad_norm": 31.022733688354492,
      "learning_rate": 5e-06,
      "loss": 1.0091,
      "num_input_tokens_seen": 300636488,
      "step": 2380
    },
    {
      "epoch": 0.610530366189957,
      "loss": 0.907547652721405,
      "loss_ce": 0.0012976655270904303,
      "loss_iou": 0.421875,
      "loss_num": 0.012451171875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 300636488,
      "step": 2380
    },
    {
      "epoch": 0.6107868915539024,
      "grad_norm": 32.02003860473633,
      "learning_rate": 5e-06,
      "loss": 0.8687,
      "num_input_tokens_seen": 300763232,
      "step": 2381
    },
    {
      "epoch": 0.6107868915539024,
      "loss": 0.6731455326080322,
      "loss_ce": 0.0002939658588729799,
      "loss_iou": 0.3203125,
      "loss_num": 0.0068359375,
      "loss_xval": 0.671875,
      "num_input_tokens_seen": 300763232,
      "step": 2381
    },
    {
      "epoch": 0.6110434169178478,
      "grad_norm": 49.60429763793945,
      "learning_rate": 5e-06,
      "loss": 0.9664,
      "num_input_tokens_seen": 300889692,
      "step": 2382
    },
    {
      "epoch": 0.6110434169178478,
      "loss": 0.9684589505195618,
      "loss_ce": 0.0006855035899206996,
      "loss_iou": 0.443359375,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 300889692,
      "step": 2382
    },
    {
      "epoch": 0.6112999422817931,
      "grad_norm": 72.6818618774414,
      "learning_rate": 5e-06,
      "loss": 1.1232,
      "num_input_tokens_seen": 301016284,
      "step": 2383
    },
    {
      "epoch": 0.6112999422817931,
      "loss": 0.9382489919662476,
      "loss_ce": 0.00026069642626680434,
      "loss_iou": 0.4453125,
      "loss_num": 0.009521484375,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 301016284,
      "step": 2383
    },
    {
      "epoch": 0.6115564676457385,
      "grad_norm": 39.05830764770508,
      "learning_rate": 5e-06,
      "loss": 1.1238,
      "num_input_tokens_seen": 301141104,
      "step": 2384
    },
    {
      "epoch": 0.6115564676457385,
      "loss": 1.036285400390625,
      "loss_ce": 0.00210572499781847,
      "loss_iou": 0.46484375,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 301141104,
      "step": 2384
    },
    {
      "epoch": 0.6118129930096838,
      "grad_norm": 34.92748260498047,
      "learning_rate": 5e-06,
      "loss": 0.9151,
      "num_input_tokens_seen": 301267172,
      "step": 2385
    },
    {
      "epoch": 0.6118129930096838,
      "loss": 0.9949415922164917,
      "loss_ce": 0.00031264187418855727,
      "loss_iou": 0.474609375,
      "loss_num": 0.00921630859375,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 301267172,
      "step": 2385
    },
    {
      "epoch": 0.6120695183736292,
      "grad_norm": 62.76207733154297,
      "learning_rate": 5e-06,
      "loss": 0.9627,
      "num_input_tokens_seen": 301393388,
      "step": 2386
    },
    {
      "epoch": 0.6120695183736292,
      "loss": 0.8363853693008423,
      "loss_ce": 0.0009361720876768231,
      "loss_iou": 0.384765625,
      "loss_num": 0.01287841796875,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 301393388,
      "step": 2386
    },
    {
      "epoch": 0.6123260437375746,
      "grad_norm": 50.688533782958984,
      "learning_rate": 5e-06,
      "loss": 0.9641,
      "num_input_tokens_seen": 301520216,
      "step": 2387
    },
    {
      "epoch": 0.6123260437375746,
      "loss": 0.9709949493408203,
      "loss_ce": 0.003221467137336731,
      "loss_iou": 0.455078125,
      "loss_num": 0.01171875,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 301520216,
      "step": 2387
    },
    {
      "epoch": 0.6125825691015199,
      "grad_norm": 33.81632995605469,
      "learning_rate": 5e-06,
      "loss": 0.8985,
      "num_input_tokens_seen": 301646352,
      "step": 2388
    },
    {
      "epoch": 0.6125825691015199,
      "loss": 0.7463772296905518,
      "loss_ce": 0.001748309121467173,
      "loss_iou": 0.357421875,
      "loss_num": 0.00592041015625,
      "loss_xval": 0.74609375,
      "num_input_tokens_seen": 301646352,
      "step": 2388
    },
    {
      "epoch": 0.6128390944654653,
      "grad_norm": 36.596153259277344,
      "learning_rate": 5e-06,
      "loss": 1.0517,
      "num_input_tokens_seen": 301772320,
      "step": 2389
    },
    {
      "epoch": 0.6128390944654653,
      "loss": 0.8701430559158325,
      "loss_ce": 0.00026998750399798155,
      "loss_iou": 0.396484375,
      "loss_num": 0.01519775390625,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 301772320,
      "step": 2389
    },
    {
      "epoch": 0.6130956198294106,
      "grad_norm": 46.07404708862305,
      "learning_rate": 5e-06,
      "loss": 0.8785,
      "num_input_tokens_seen": 301899656,
      "step": 2390
    },
    {
      "epoch": 0.6130956198294106,
      "loss": 0.8267738223075867,
      "loss_ce": 0.000113645575765986,
      "loss_iou": 0.39453125,
      "loss_num": 0.007476806640625,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 301899656,
      "step": 2390
    },
    {
      "epoch": 0.613352145193356,
      "grad_norm": 41.02525329589844,
      "learning_rate": 5e-06,
      "loss": 0.9967,
      "num_input_tokens_seen": 302026284,
      "step": 2391
    },
    {
      "epoch": 0.613352145193356,
      "loss": 1.1226475238800049,
      "loss_ce": 0.0005772191798314452,
      "loss_iou": 0.5,
      "loss_num": 0.024169921875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 302026284,
      "step": 2391
    },
    {
      "epoch": 0.6136086705573014,
      "grad_norm": 58.112178802490234,
      "learning_rate": 5e-06,
      "loss": 1.0821,
      "num_input_tokens_seen": 302151976,
      "step": 2392
    },
    {
      "epoch": 0.6136086705573014,
      "loss": 1.0785229206085205,
      "loss_ce": 0.004304094705730677,
      "loss_iou": 0.486328125,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 302151976,
      "step": 2392
    },
    {
      "epoch": 0.6138651959212467,
      "grad_norm": 62.90297317504883,
      "learning_rate": 5e-06,
      "loss": 1.0704,
      "num_input_tokens_seen": 302278356,
      "step": 2393
    },
    {
      "epoch": 0.6138651959212467,
      "loss": 1.2281768321990967,
      "loss_ce": 0.0021026916801929474,
      "loss_iou": 0.55078125,
      "loss_num": 0.0255126953125,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 302278356,
      "step": 2393
    },
    {
      "epoch": 0.614121721285192,
      "grad_norm": 40.189022064208984,
      "learning_rate": 5e-06,
      "loss": 0.9252,
      "num_input_tokens_seen": 302405240,
      "step": 2394
    },
    {
      "epoch": 0.614121721285192,
      "loss": 0.9091630578041077,
      "loss_ce": 0.0004716459661722183,
      "loss_iou": 0.421875,
      "loss_num": 0.01287841796875,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 302405240,
      "step": 2394
    },
    {
      "epoch": 0.6143782466491374,
      "grad_norm": 52.83066940307617,
      "learning_rate": 5e-06,
      "loss": 1.0158,
      "num_input_tokens_seen": 302531352,
      "step": 2395
    },
    {
      "epoch": 0.6143782466491374,
      "loss": 0.9998695850372314,
      "loss_ce": 0.0008461041725240648,
      "loss_iou": 0.470703125,
      "loss_num": 0.011474609375,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 302531352,
      "step": 2395
    },
    {
      "epoch": 0.6146347720130828,
      "grad_norm": 56.609371185302734,
      "learning_rate": 5e-06,
      "loss": 0.8816,
      "num_input_tokens_seen": 302657008,
      "step": 2396
    },
    {
      "epoch": 0.6146347720130828,
      "loss": 1.058960199356079,
      "loss_ce": 0.0008547369507141411,
      "loss_iou": 0.474609375,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 302657008,
      "step": 2396
    },
    {
      "epoch": 0.6148912973770282,
      "grad_norm": 53.55632400512695,
      "learning_rate": 5e-06,
      "loss": 1.0061,
      "num_input_tokens_seen": 302783840,
      "step": 2397
    },
    {
      "epoch": 0.6148912973770282,
      "loss": 1.0464787483215332,
      "loss_ce": 0.0005804004613310099,
      "loss_iou": 0.482421875,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 302783840,
      "step": 2397
    },
    {
      "epoch": 0.6151478227409735,
      "grad_norm": 35.964149475097656,
      "learning_rate": 5e-06,
      "loss": 0.9173,
      "num_input_tokens_seen": 302909100,
      "step": 2398
    },
    {
      "epoch": 0.6151478227409735,
      "loss": 0.8786402940750122,
      "loss_ce": 0.0016871325206011534,
      "loss_iou": 0.40234375,
      "loss_num": 0.01434326171875,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 302909100,
      "step": 2398
    },
    {
      "epoch": 0.6154043481049188,
      "grad_norm": 176.68228149414062,
      "learning_rate": 5e-06,
      "loss": 0.882,
      "num_input_tokens_seen": 303035200,
      "step": 2399
    },
    {
      "epoch": 0.6154043481049188,
      "loss": 0.9574973583221436,
      "loss_ce": 0.0031516484450548887,
      "loss_iou": 0.435546875,
      "loss_num": 0.016845703125,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 303035200,
      "step": 2399
    },
    {
      "epoch": 0.6156608734688642,
      "grad_norm": 44.34334945678711,
      "learning_rate": 5e-06,
      "loss": 0.8975,
      "num_input_tokens_seen": 303161796,
      "step": 2400
    },
    {
      "epoch": 0.6156608734688642,
      "loss": 0.9140017032623291,
      "loss_ce": 0.001159908133558929,
      "loss_iou": 0.4296875,
      "loss_num": 0.01068115234375,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 303161796,
      "step": 2400
    },
    {
      "epoch": 0.6159173988328096,
      "grad_norm": 33.105735778808594,
      "learning_rate": 5e-06,
      "loss": 0.9074,
      "num_input_tokens_seen": 303287048,
      "step": 2401
    },
    {
      "epoch": 0.6159173988328096,
      "loss": 0.8978307247161865,
      "loss_ce": 0.0008580397116020322,
      "loss_iou": 0.427734375,
      "loss_num": 0.00811767578125,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 303287048,
      "step": 2401
    },
    {
      "epoch": 0.616173924196755,
      "grad_norm": 22.148101806640625,
      "learning_rate": 5e-06,
      "loss": 0.8988,
      "num_input_tokens_seen": 303413252,
      "step": 2402
    },
    {
      "epoch": 0.616173924196755,
      "loss": 0.8386335372924805,
      "loss_ce": 0.0026960265822708607,
      "loss_iou": 0.388671875,
      "loss_num": 0.0113525390625,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 303413252,
      "step": 2402
    },
    {
      "epoch": 0.6164304495607004,
      "grad_norm": 39.31587600708008,
      "learning_rate": 5e-06,
      "loss": 0.908,
      "num_input_tokens_seen": 303539212,
      "step": 2403
    },
    {
      "epoch": 0.6164304495607004,
      "loss": 1.0001246929168701,
      "loss_ce": 0.0015895850956439972,
      "loss_iou": 0.45703125,
      "loss_num": 0.017333984375,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 303539212,
      "step": 2403
    },
    {
      "epoch": 0.6166869749246456,
      "grad_norm": 56.37080764770508,
      "learning_rate": 5e-06,
      "loss": 1.0032,
      "num_input_tokens_seen": 303665312,
      "step": 2404
    },
    {
      "epoch": 0.6166869749246456,
      "loss": 0.9108952879905701,
      "loss_ce": 0.00025074605946429074,
      "loss_iou": 0.427734375,
      "loss_num": 0.0113525390625,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 303665312,
      "step": 2404
    },
    {
      "epoch": 0.616943500288591,
      "grad_norm": 42.014286041259766,
      "learning_rate": 5e-06,
      "loss": 1.0014,
      "num_input_tokens_seen": 303790628,
      "step": 2405
    },
    {
      "epoch": 0.616943500288591,
      "loss": 1.0262646675109863,
      "loss_ce": 0.0003857887350022793,
      "loss_iou": 0.458984375,
      "loss_num": 0.02197265625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 303790628,
      "step": 2405
    },
    {
      "epoch": 0.6172000256525364,
      "grad_norm": 43.7136344909668,
      "learning_rate": 5e-06,
      "loss": 0.9153,
      "num_input_tokens_seen": 303918504,
      "step": 2406
    },
    {
      "epoch": 0.6172000256525364,
      "loss": 0.9639586210250854,
      "loss_ce": 0.002044574823230505,
      "loss_iou": 0.4453125,
      "loss_num": 0.014404296875,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 303918504,
      "step": 2406
    },
    {
      "epoch": 0.6174565510164818,
      "grad_norm": 62.77971267700195,
      "learning_rate": 5e-06,
      "loss": 0.9685,
      "num_input_tokens_seen": 304044668,
      "step": 2407
    },
    {
      "epoch": 0.6174565510164818,
      "loss": 1.000226616859436,
      "loss_ce": 0.0002266664378112182,
      "loss_iou": 0.48046875,
      "loss_num": 0.007720947265625,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 304044668,
      "step": 2407
    },
    {
      "epoch": 0.6177130763804272,
      "grad_norm": 72.70613861083984,
      "learning_rate": 5e-06,
      "loss": 1.025,
      "num_input_tokens_seen": 304170828,
      "step": 2408
    },
    {
      "epoch": 0.6177130763804272,
      "loss": 0.994817316532135,
      "loss_ce": 0.0036063911393284798,
      "loss_iou": 0.458984375,
      "loss_num": 0.01470947265625,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 304170828,
      "step": 2408
    },
    {
      "epoch": 0.6179696017443724,
      "grad_norm": 51.835689544677734,
      "learning_rate": 5e-06,
      "loss": 0.9831,
      "num_input_tokens_seen": 304296324,
      "step": 2409
    },
    {
      "epoch": 0.6179696017443724,
      "loss": 0.9526968598365784,
      "loss_ce": 0.0044547030702233315,
      "loss_iou": 0.4453125,
      "loss_num": 0.01141357421875,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 304296324,
      "step": 2409
    },
    {
      "epoch": 0.6182261271083178,
      "grad_norm": 34.60609817504883,
      "learning_rate": 5e-06,
      "loss": 1.0443,
      "num_input_tokens_seen": 304422616,
      "step": 2410
    },
    {
      "epoch": 0.6182261271083178,
      "loss": 1.059563159942627,
      "loss_ce": 0.00023700429301243275,
      "loss_iou": 0.4609375,
      "loss_num": 0.02734375,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 304422616,
      "step": 2410
    },
    {
      "epoch": 0.6184826524722632,
      "grad_norm": 46.0897331237793,
      "learning_rate": 5e-06,
      "loss": 1.0161,
      "num_input_tokens_seen": 304548808,
      "step": 2411
    },
    {
      "epoch": 0.6184826524722632,
      "loss": 0.9240692853927612,
      "loss_ce": 0.0017059547826647758,
      "loss_iou": 0.43359375,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 304548808,
      "step": 2411
    },
    {
      "epoch": 0.6187391778362086,
      "grad_norm": 63.52092742919922,
      "learning_rate": 5e-06,
      "loss": 1.0172,
      "num_input_tokens_seen": 304675224,
      "step": 2412
    },
    {
      "epoch": 0.6187391778362086,
      "loss": 1.0817303657531738,
      "loss_ce": 0.0016522924415767193,
      "loss_iou": 0.498046875,
      "loss_num": 0.016845703125,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 304675224,
      "step": 2412
    },
    {
      "epoch": 0.618995703200154,
      "grad_norm": 56.15546417236328,
      "learning_rate": 5e-06,
      "loss": 0.9623,
      "num_input_tokens_seen": 304801200,
      "step": 2413
    },
    {
      "epoch": 0.618995703200154,
      "loss": 0.8813201189041138,
      "loss_ce": 0.00046079274034127593,
      "loss_iou": 0.423828125,
      "loss_num": 0.0069580078125,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 304801200,
      "step": 2413
    },
    {
      "epoch": 0.6192522285640992,
      "grad_norm": 49.2623176574707,
      "learning_rate": 5e-06,
      "loss": 1.0095,
      "num_input_tokens_seen": 304927724,
      "step": 2414
    },
    {
      "epoch": 0.6192522285640992,
      "loss": 0.9392759799957275,
      "loss_ce": 0.00031112079159356654,
      "loss_iou": 0.44140625,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 304927724,
      "step": 2414
    },
    {
      "epoch": 0.6195087539280446,
      "grad_norm": 52.596336364746094,
      "learning_rate": 5e-06,
      "loss": 0.9432,
      "num_input_tokens_seen": 305053968,
      "step": 2415
    },
    {
      "epoch": 0.6195087539280446,
      "loss": 0.9761803150177002,
      "loss_ce": 0.0005942760617472231,
      "loss_iou": 0.462890625,
      "loss_num": 0.0101318359375,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 305053968,
      "step": 2415
    },
    {
      "epoch": 0.61976527929199,
      "grad_norm": 53.8277702331543,
      "learning_rate": 5e-06,
      "loss": 0.9526,
      "num_input_tokens_seen": 305180416,
      "step": 2416
    },
    {
      "epoch": 0.61976527929199,
      "loss": 1.0766226053237915,
      "loss_ce": 0.0009390468476340175,
      "loss_iou": 0.490234375,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 305180416,
      "step": 2416
    },
    {
      "epoch": 0.6200218046559354,
      "grad_norm": 49.876991271972656,
      "learning_rate": 5e-06,
      "loss": 0.8889,
      "num_input_tokens_seen": 305306560,
      "step": 2417
    },
    {
      "epoch": 0.6200218046559354,
      "loss": 0.787087082862854,
      "loss_ce": 0.00241913553327322,
      "loss_iou": 0.3671875,
      "loss_num": 0.00970458984375,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 305306560,
      "step": 2417
    },
    {
      "epoch": 0.6202783300198808,
      "grad_norm": 42.91297912597656,
      "learning_rate": 5e-06,
      "loss": 0.902,
      "num_input_tokens_seen": 305433588,
      "step": 2418
    },
    {
      "epoch": 0.6202783300198808,
      "loss": 0.9944955706596375,
      "loss_ce": 0.0013314527459442616,
      "loss_iou": 0.458984375,
      "loss_num": 0.0152587890625,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 305433588,
      "step": 2418
    },
    {
      "epoch": 0.620534855383826,
      "grad_norm": 40.49419403076172,
      "learning_rate": 5e-06,
      "loss": 0.8986,
      "num_input_tokens_seen": 305559180,
      "step": 2419
    },
    {
      "epoch": 0.620534855383826,
      "loss": 0.9334796667098999,
      "loss_ce": 0.002571461256593466,
      "loss_iou": 0.431640625,
      "loss_num": 0.013671875,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 305559180,
      "step": 2419
    },
    {
      "epoch": 0.6207913807477714,
      "grad_norm": 36.625492095947266,
      "learning_rate": 5e-06,
      "loss": 1.0845,
      "num_input_tokens_seen": 305685372,
      "step": 2420
    },
    {
      "epoch": 0.6207913807477714,
      "loss": 1.0503628253936768,
      "loss_ce": 0.00422025378793478,
      "loss_iou": 0.47265625,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 305685372,
      "step": 2420
    },
    {
      "epoch": 0.6210479061117168,
      "grad_norm": 45.93886184692383,
      "learning_rate": 5e-06,
      "loss": 0.9054,
      "num_input_tokens_seen": 305811652,
      "step": 2421
    },
    {
      "epoch": 0.6210479061117168,
      "loss": 0.8115324974060059,
      "loss_ce": 0.0004973037866875529,
      "loss_iou": 0.384765625,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 305811652,
      "step": 2421
    },
    {
      "epoch": 0.6213044314756622,
      "grad_norm": 67.83499145507812,
      "learning_rate": 5e-06,
      "loss": 1.0028,
      "num_input_tokens_seen": 305938484,
      "step": 2422
    },
    {
      "epoch": 0.6213044314756622,
      "loss": 1.1667850017547607,
      "loss_ce": 0.0027225620578974485,
      "loss_iou": 0.5234375,
      "loss_num": 0.023681640625,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 305938484,
      "step": 2422
    },
    {
      "epoch": 0.6215609568396075,
      "grad_norm": 54.7205696105957,
      "learning_rate": 5e-06,
      "loss": 0.9993,
      "num_input_tokens_seen": 306065332,
      "step": 2423
    },
    {
      "epoch": 0.6215609568396075,
      "loss": 1.170240044593811,
      "loss_ce": 0.004224344156682491,
      "loss_iou": 0.51953125,
      "loss_num": 0.0247802734375,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 306065332,
      "step": 2423
    },
    {
      "epoch": 0.6218174822035529,
      "grad_norm": 43.31586456298828,
      "learning_rate": 5e-06,
      "loss": 0.911,
      "num_input_tokens_seen": 306191644,
      "step": 2424
    },
    {
      "epoch": 0.6218174822035529,
      "loss": 0.8625841736793518,
      "loss_ce": 0.001256045768968761,
      "loss_iou": 0.404296875,
      "loss_num": 0.01068115234375,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 306191644,
      "step": 2424
    },
    {
      "epoch": 0.6220740075674982,
      "grad_norm": 24.33938980102539,
      "learning_rate": 5e-06,
      "loss": 0.9781,
      "num_input_tokens_seen": 306317552,
      "step": 2425
    },
    {
      "epoch": 0.6220740075674982,
      "loss": 0.9842906594276428,
      "loss_ce": 0.0028453469276428223,
      "loss_iou": 0.45703125,
      "loss_num": 0.01385498046875,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 306317552,
      "step": 2425
    },
    {
      "epoch": 0.6223305329314436,
      "grad_norm": 31.525400161743164,
      "learning_rate": 5e-06,
      "loss": 0.9093,
      "num_input_tokens_seen": 306444112,
      "step": 2426
    },
    {
      "epoch": 0.6223305329314436,
      "loss": 0.8607596158981323,
      "loss_ce": 0.0008962840074673295,
      "loss_iou": 0.404296875,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 306444112,
      "step": 2426
    },
    {
      "epoch": 0.622587058295389,
      "grad_norm": 42.063987731933594,
      "learning_rate": 5e-06,
      "loss": 0.9972,
      "num_input_tokens_seen": 306570188,
      "step": 2427
    },
    {
      "epoch": 0.622587058295389,
      "loss": 1.0734953880310059,
      "loss_ce": 0.001229823217727244,
      "loss_iou": 0.46484375,
      "loss_num": 0.0289306640625,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 306570188,
      "step": 2427
    },
    {
      "epoch": 0.6228435836593343,
      "grad_norm": 56.7160530090332,
      "learning_rate": 5e-06,
      "loss": 1.0106,
      "num_input_tokens_seen": 306696692,
      "step": 2428
    },
    {
      "epoch": 0.6228435836593343,
      "loss": 1.3337113857269287,
      "loss_ce": 0.0011919128010049462,
      "loss_iou": 0.609375,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 306696692,
      "step": 2428
    },
    {
      "epoch": 0.6231001090232797,
      "grad_norm": 41.77696228027344,
      "learning_rate": 5e-06,
      "loss": 1.0593,
      "num_input_tokens_seen": 306822308,
      "step": 2429
    },
    {
      "epoch": 0.6231001090232797,
      "loss": 1.0048420429229736,
      "loss_ce": 0.004353751428425312,
      "loss_iou": 0.439453125,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 306822308,
      "step": 2429
    },
    {
      "epoch": 0.623356634387225,
      "grad_norm": 26.068958282470703,
      "learning_rate": 5e-06,
      "loss": 1.0531,
      "num_input_tokens_seen": 306949272,
      "step": 2430
    },
    {
      "epoch": 0.623356634387225,
      "loss": 1.3159947395324707,
      "loss_ce": 0.005447814241051674,
      "loss_iou": 0.58203125,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 306949272,
      "step": 2430
    },
    {
      "epoch": 0.6236131597511704,
      "grad_norm": 54.508235931396484,
      "learning_rate": 5e-06,
      "loss": 0.865,
      "num_input_tokens_seen": 307075588,
      "step": 2431
    },
    {
      "epoch": 0.6236131597511704,
      "loss": 0.8327459692955017,
      "loss_ce": 0.0046209916472435,
      "loss_iou": 0.388671875,
      "loss_num": 0.01031494140625,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 307075588,
      "step": 2431
    },
    {
      "epoch": 0.6238696851151158,
      "grad_norm": 53.445064544677734,
      "learning_rate": 5e-06,
      "loss": 0.9169,
      "num_input_tokens_seen": 307202460,
      "step": 2432
    },
    {
      "epoch": 0.6238696851151158,
      "loss": 0.9381344318389893,
      "loss_ce": 0.00014618027489632368,
      "loss_iou": 0.4453125,
      "loss_num": 0.009521484375,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 307202460,
      "step": 2432
    },
    {
      "epoch": 0.6241262104790611,
      "grad_norm": 46.51102066040039,
      "learning_rate": 5e-06,
      "loss": 1.0067,
      "num_input_tokens_seen": 307329056,
      "step": 2433
    },
    {
      "epoch": 0.6241262104790611,
      "loss": 0.9616233110427856,
      "loss_ce": 0.0009299663361161947,
      "loss_iou": 0.427734375,
      "loss_num": 0.02099609375,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 307329056,
      "step": 2433
    },
    {
      "epoch": 0.6243827358430065,
      "grad_norm": 47.65647888183594,
      "learning_rate": 5e-06,
      "loss": 0.9523,
      "num_input_tokens_seen": 307456060,
      "step": 2434
    },
    {
      "epoch": 0.6243827358430065,
      "loss": 0.9719138145446777,
      "loss_ce": 0.0007223976426757872,
      "loss_iou": 0.439453125,
      "loss_num": 0.0185546875,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 307456060,
      "step": 2434
    },
    {
      "epoch": 0.6246392612069518,
      "grad_norm": 56.969383239746094,
      "learning_rate": 5e-06,
      "loss": 1.0714,
      "num_input_tokens_seen": 307581284,
      "step": 2435
    },
    {
      "epoch": 0.6246392612069518,
      "loss": 1.0677063465118408,
      "loss_ce": 0.0008119025733321905,
      "loss_iou": 0.486328125,
      "loss_num": 0.01904296875,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 307581284,
      "step": 2435
    },
    {
      "epoch": 0.6248957865708972,
      "grad_norm": 53.54359817504883,
      "learning_rate": 5e-06,
      "loss": 1.0061,
      "num_input_tokens_seen": 307707380,
      "step": 2436
    },
    {
      "epoch": 0.6248957865708972,
      "loss": 0.8166592121124268,
      "loss_ce": 0.0002529309713281691,
      "loss_iou": 0.388671875,
      "loss_num": 0.0074462890625,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 307707380,
      "step": 2436
    },
    {
      "epoch": 0.6251523119348426,
      "grad_norm": 53.8261604309082,
      "learning_rate": 5e-06,
      "loss": 0.9745,
      "num_input_tokens_seen": 307833580,
      "step": 2437
    },
    {
      "epoch": 0.6251523119348426,
      "loss": 1.0104583501815796,
      "loss_ce": 0.0011809748830273747,
      "loss_iou": 0.4765625,
      "loss_num": 0.01092529296875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 307833580,
      "step": 2437
    },
    {
      "epoch": 0.6254088372987879,
      "grad_norm": 40.563655853271484,
      "learning_rate": 5e-06,
      "loss": 1.0593,
      "num_input_tokens_seen": 307959132,
      "step": 2438
    },
    {
      "epoch": 0.6254088372987879,
      "loss": 0.8795284032821655,
      "loss_ce": 0.0025752554647624493,
      "loss_iou": 0.416015625,
      "loss_num": 0.0086669921875,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 307959132,
      "step": 2438
    },
    {
      "epoch": 0.6256653626627333,
      "grad_norm": 18.454668045043945,
      "learning_rate": 5e-06,
      "loss": 0.929,
      "num_input_tokens_seen": 308085764,
      "step": 2439
    },
    {
      "epoch": 0.6256653626627333,
      "loss": 0.8199399709701538,
      "loss_ce": 0.000603993539698422,
      "loss_iou": 0.384765625,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 308085764,
      "step": 2439
    },
    {
      "epoch": 0.6259218880266786,
      "grad_norm": 39.20863723754883,
      "learning_rate": 5e-06,
      "loss": 0.9786,
      "num_input_tokens_seen": 308211724,
      "step": 2440
    },
    {
      "epoch": 0.6259218880266786,
      "loss": 0.9764639139175415,
      "loss_ce": 0.00038962927646934986,
      "loss_iou": 0.443359375,
      "loss_num": 0.0181884765625,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 308211724,
      "step": 2440
    },
    {
      "epoch": 0.626178413390624,
      "grad_norm": 45.93009948730469,
      "learning_rate": 5e-06,
      "loss": 0.9891,
      "num_input_tokens_seen": 308337612,
      "step": 2441
    },
    {
      "epoch": 0.626178413390624,
      "loss": 1.0349873304367065,
      "loss_ce": 0.00031937434687279165,
      "loss_iou": 0.46875,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 308337612,
      "step": 2441
    },
    {
      "epoch": 0.6264349387545693,
      "grad_norm": 63.89091873168945,
      "learning_rate": 5e-06,
      "loss": 0.9449,
      "num_input_tokens_seen": 308465480,
      "step": 2442
    },
    {
      "epoch": 0.6264349387545693,
      "loss": 0.8075037002563477,
      "loss_ce": 0.000863034394569695,
      "loss_iou": 0.375,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 308465480,
      "step": 2442
    },
    {
      "epoch": 0.6266914641185147,
      "grad_norm": 47.575706481933594,
      "learning_rate": 5e-06,
      "loss": 1.0394,
      "num_input_tokens_seen": 308591852,
      "step": 2443
    },
    {
      "epoch": 0.6266914641185147,
      "loss": 1.0176851749420166,
      "loss_ce": 0.00010702457802835852,
      "loss_iou": 0.470703125,
      "loss_num": 0.01556396484375,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 308591852,
      "step": 2443
    },
    {
      "epoch": 0.6269479894824601,
      "grad_norm": 33.7256965637207,
      "learning_rate": 5e-06,
      "loss": 0.8833,
      "num_input_tokens_seen": 308718332,
      "step": 2444
    },
    {
      "epoch": 0.6269479894824601,
      "loss": 1.031751275062561,
      "loss_ce": 0.0014778072945773602,
      "loss_iou": 0.478515625,
      "loss_num": 0.014892578125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 308718332,
      "step": 2444
    },
    {
      "epoch": 0.6272045148464055,
      "grad_norm": 47.436580657958984,
      "learning_rate": 5e-06,
      "loss": 0.9596,
      "num_input_tokens_seen": 308844500,
      "step": 2445
    },
    {
      "epoch": 0.6272045148464055,
      "loss": 0.8321675062179565,
      "loss_ce": 0.00013626072905026376,
      "loss_iou": 0.3828125,
      "loss_num": 0.0130615234375,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 308844500,
      "step": 2445
    },
    {
      "epoch": 0.6274610402103508,
      "grad_norm": 63.93471908569336,
      "learning_rate": 5e-06,
      "loss": 1.0999,
      "num_input_tokens_seen": 308970852,
      "step": 2446
    },
    {
      "epoch": 0.6274610402103508,
      "loss": 1.1101393699645996,
      "loss_ce": 0.0012526819482445717,
      "loss_iou": 0.4921875,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 308970852,
      "step": 2446
    },
    {
      "epoch": 0.6277175655742961,
      "grad_norm": 48.979671478271484,
      "learning_rate": 5e-06,
      "loss": 1.0583,
      "num_input_tokens_seen": 309096132,
      "step": 2447
    },
    {
      "epoch": 0.6277175655742961,
      "loss": 1.1795204877853394,
      "loss_ce": 0.0008094889344647527,
      "loss_iou": 0.5390625,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 309096132,
      "step": 2447
    },
    {
      "epoch": 0.6279740909382415,
      "grad_norm": 49.110591888427734,
      "learning_rate": 5e-06,
      "loss": 0.9865,
      "num_input_tokens_seen": 309222228,
      "step": 2448
    },
    {
      "epoch": 0.6279740909382415,
      "loss": 0.9869959354400635,
      "loss_ce": 0.0001795334101188928,
      "loss_iou": 0.458984375,
      "loss_num": 0.01397705078125,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 309222228,
      "step": 2448
    },
    {
      "epoch": 0.6282306163021869,
      "grad_norm": 53.28964614868164,
      "learning_rate": 5e-06,
      "loss": 1.1123,
      "num_input_tokens_seen": 309348584,
      "step": 2449
    },
    {
      "epoch": 0.6282306163021869,
      "loss": 1.3824735879898071,
      "loss_ce": 0.0025907293893396854,
      "loss_iou": 0.61328125,
      "loss_num": 0.030517578125,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 309348584,
      "step": 2449
    },
    {
      "epoch": 0.6284871416661323,
      "grad_norm": 69.24656677246094,
      "learning_rate": 5e-06,
      "loss": 0.8532,
      "num_input_tokens_seen": 309474956,
      "step": 2450
    },
    {
      "epoch": 0.6284871416661323,
      "loss": 0.8674707412719727,
      "loss_ce": 0.007119216024875641,
      "loss_iou": 0.4140625,
      "loss_num": 0.0067138671875,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 309474956,
      "step": 2450
    },
    {
      "epoch": 0.6287436670300776,
      "grad_norm": 51.120059967041016,
      "learning_rate": 5e-06,
      "loss": 0.9339,
      "num_input_tokens_seen": 309601740,
      "step": 2451
    },
    {
      "epoch": 0.6287436670300776,
      "loss": 0.9942096471786499,
      "loss_ce": 0.0015338478842750192,
      "loss_iou": 0.458984375,
      "loss_num": 0.01519775390625,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 309601740,
      "step": 2451
    },
    {
      "epoch": 0.6290001923940229,
      "grad_norm": 20.52977180480957,
      "learning_rate": 5e-06,
      "loss": 0.806,
      "num_input_tokens_seen": 309728228,
      "step": 2452
    },
    {
      "epoch": 0.6290001923940229,
      "loss": 0.6880981922149658,
      "loss_ce": 0.0010865030344575644,
      "loss_iou": 0.326171875,
      "loss_num": 0.0068359375,
      "loss_xval": 0.6875,
      "num_input_tokens_seen": 309728228,
      "step": 2452
    },
    {
      "epoch": 0.6292567177579683,
      "grad_norm": 38.78668212890625,
      "learning_rate": 5e-06,
      "loss": 0.9607,
      "num_input_tokens_seen": 309855364,
      "step": 2453
    },
    {
      "epoch": 0.6292567177579683,
      "loss": 0.8277446031570435,
      "loss_ce": 0.00010788270446937531,
      "loss_iou": 0.388671875,
      "loss_num": 0.0103759765625,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 309855364,
      "step": 2453
    },
    {
      "epoch": 0.6295132431219137,
      "grad_norm": 51.809242248535156,
      "learning_rate": 5e-06,
      "loss": 0.9658,
      "num_input_tokens_seen": 309982544,
      "step": 2454
    },
    {
      "epoch": 0.6295132431219137,
      "loss": 0.9454361200332642,
      "loss_ce": 0.002076731063425541,
      "loss_iou": 0.4375,
      "loss_num": 0.01397705078125,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 309982544,
      "step": 2454
    },
    {
      "epoch": 0.6297697684858591,
      "grad_norm": 59.76614761352539,
      "learning_rate": 5e-06,
      "loss": 1.0103,
      "num_input_tokens_seen": 310109036,
      "step": 2455
    },
    {
      "epoch": 0.6297697684858591,
      "loss": 1.0230460166931152,
      "loss_ce": 0.001561575336381793,
      "loss_iou": 0.470703125,
      "loss_num": 0.015625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 310109036,
      "step": 2455
    },
    {
      "epoch": 0.6300262938498044,
      "grad_norm": 44.28806686401367,
      "learning_rate": 5e-06,
      "loss": 1.0503,
      "num_input_tokens_seen": 310234712,
      "step": 2456
    },
    {
      "epoch": 0.6300262938498044,
      "loss": 1.1191718578338623,
      "loss_ce": 0.004425740335136652,
      "loss_iou": 0.515625,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 310234712,
      "step": 2456
    },
    {
      "epoch": 0.6302828192137497,
      "grad_norm": 36.6906623840332,
      "learning_rate": 5e-06,
      "loss": 0.9416,
      "num_input_tokens_seen": 310361988,
      "step": 2457
    },
    {
      "epoch": 0.6302828192137497,
      "loss": 1.0001568794250488,
      "loss_ce": 0.0006451534572988749,
      "loss_iou": 0.462890625,
      "loss_num": 0.01495361328125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 310361988,
      "step": 2457
    },
    {
      "epoch": 0.6305393445776951,
      "grad_norm": 27.16981315612793,
      "learning_rate": 5e-06,
      "loss": 1.0039,
      "num_input_tokens_seen": 310487576,
      "step": 2458
    },
    {
      "epoch": 0.6305393445776951,
      "loss": 1.0839290618896484,
      "loss_ce": 0.0023861126974225044,
      "loss_iou": 0.482421875,
      "loss_num": 0.0228271484375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 310487576,
      "step": 2458
    },
    {
      "epoch": 0.6307958699416405,
      "grad_norm": 58.13850784301758,
      "learning_rate": 5e-06,
      "loss": 0.9212,
      "num_input_tokens_seen": 310613696,
      "step": 2459
    },
    {
      "epoch": 0.6307958699416405,
      "loss": 1.01338529586792,
      "loss_ce": 0.0026430024299770594,
      "loss_iou": 0.453125,
      "loss_num": 0.021240234375,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 310613696,
      "step": 2459
    },
    {
      "epoch": 0.6310523953055859,
      "grad_norm": 37.667747497558594,
      "learning_rate": 5e-06,
      "loss": 0.9937,
      "num_input_tokens_seen": 310739368,
      "step": 2460
    },
    {
      "epoch": 0.6310523953055859,
      "loss": 0.9947527647018433,
      "loss_ce": 0.0006121775368228555,
      "loss_iou": 0.44921875,
      "loss_num": 0.0189208984375,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 310739368,
      "step": 2460
    },
    {
      "epoch": 0.6313089206695311,
      "grad_norm": 30.690032958984375,
      "learning_rate": 5e-06,
      "loss": 0.8858,
      "num_input_tokens_seen": 310865468,
      "step": 2461
    },
    {
      "epoch": 0.6313089206695311,
      "loss": 1.0220526456832886,
      "loss_ce": 0.0010564837139099836,
      "loss_iou": 0.466796875,
      "loss_num": 0.01708984375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 310865468,
      "step": 2461
    },
    {
      "epoch": 0.6315654460334765,
      "grad_norm": 36.148216247558594,
      "learning_rate": 5e-06,
      "loss": 0.9222,
      "num_input_tokens_seen": 310991304,
      "step": 2462
    },
    {
      "epoch": 0.6315654460334765,
      "loss": 1.041717529296875,
      "loss_ce": 0.00021361219114623964,
      "loss_iou": 0.4765625,
      "loss_num": 0.01806640625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 310991304,
      "step": 2462
    },
    {
      "epoch": 0.6318219713974219,
      "grad_norm": 73.86784362792969,
      "learning_rate": 5e-06,
      "loss": 1.0617,
      "num_input_tokens_seen": 311118388,
      "step": 2463
    },
    {
      "epoch": 0.6318219713974219,
      "loss": 1.0863783359527588,
      "loss_ce": 0.002393897157162428,
      "loss_iou": 0.5,
      "loss_num": 0.0162353515625,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 311118388,
      "step": 2463
    },
    {
      "epoch": 0.6320784967613673,
      "grad_norm": 52.54774856567383,
      "learning_rate": 5e-06,
      "loss": 1.152,
      "num_input_tokens_seen": 311245380,
      "step": 2464
    },
    {
      "epoch": 0.6320784967613673,
      "loss": 1.068593978881836,
      "loss_ce": 0.0007228001486510038,
      "loss_iou": 0.50390625,
      "loss_num": 0.01190185546875,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 311245380,
      "step": 2464
    },
    {
      "epoch": 0.6323350221253127,
      "grad_norm": 26.004074096679688,
      "learning_rate": 5e-06,
      "loss": 0.9573,
      "num_input_tokens_seen": 311371692,
      "step": 2465
    },
    {
      "epoch": 0.6323350221253127,
      "loss": 1.0843027830123901,
      "loss_ce": 0.0017832244047895074,
      "loss_iou": 0.5,
      "loss_num": 0.0167236328125,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 311371692,
      "step": 2465
    },
    {
      "epoch": 0.632591547489258,
      "grad_norm": 40.31782150268555,
      "learning_rate": 5e-06,
      "loss": 1.0388,
      "num_input_tokens_seen": 311497888,
      "step": 2466
    },
    {
      "epoch": 0.632591547489258,
      "loss": 1.0369715690612793,
      "loss_ce": 0.0008387021953240037,
      "loss_iou": 0.486328125,
      "loss_num": 0.01287841796875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 311497888,
      "step": 2466
    },
    {
      "epoch": 0.6328480728532033,
      "grad_norm": 43.556365966796875,
      "learning_rate": 5e-06,
      "loss": 1.111,
      "num_input_tokens_seen": 311624316,
      "step": 2467
    },
    {
      "epoch": 0.6328480728532033,
      "loss": 0.9514755010604858,
      "loss_ce": 0.0003036805137526244,
      "loss_iou": 0.447265625,
      "loss_num": 0.01153564453125,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 311624316,
      "step": 2467
    },
    {
      "epoch": 0.6331045982171487,
      "grad_norm": 41.3142204284668,
      "learning_rate": 5e-06,
      "loss": 0.9938,
      "num_input_tokens_seen": 311752044,
      "step": 2468
    },
    {
      "epoch": 0.6331045982171487,
      "loss": 1.0382400751113892,
      "loss_ce": 0.003083840012550354,
      "loss_iou": 0.48046875,
      "loss_num": 0.0152587890625,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 311752044,
      "step": 2468
    },
    {
      "epoch": 0.6333611235810941,
      "grad_norm": 29.828590393066406,
      "learning_rate": 5e-06,
      "loss": 1.0563,
      "num_input_tokens_seen": 311877324,
      "step": 2469
    },
    {
      "epoch": 0.6333611235810941,
      "loss": 1.034632921218872,
      "loss_ce": 0.0004533426254056394,
      "loss_iou": 0.4765625,
      "loss_num": 0.015869140625,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 311877324,
      "step": 2469
    },
    {
      "epoch": 0.6336176489450395,
      "grad_norm": 22.581378936767578,
      "learning_rate": 5e-06,
      "loss": 0.8632,
      "num_input_tokens_seen": 312004224,
      "step": 2470
    },
    {
      "epoch": 0.6336176489450395,
      "loss": 0.8245887756347656,
      "loss_ce": 0.0015907082706689835,
      "loss_iou": 0.3828125,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 312004224,
      "step": 2470
    },
    {
      "epoch": 0.6338741743089849,
      "grad_norm": 57.88581466674805,
      "learning_rate": 5e-06,
      "loss": 1.0075,
      "num_input_tokens_seen": 312131140,
      "step": 2471
    },
    {
      "epoch": 0.6338741743089849,
      "loss": 1.022648811340332,
      "loss_ce": 0.0009202745277434587,
      "loss_iou": 0.46875,
      "loss_num": 0.01708984375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 312131140,
      "step": 2471
    },
    {
      "epoch": 0.6341306996729301,
      "grad_norm": 46.05721664428711,
      "learning_rate": 5e-06,
      "loss": 1.0421,
      "num_input_tokens_seen": 312258300,
      "step": 2472
    },
    {
      "epoch": 0.6341306996729301,
      "loss": 0.9684139490127563,
      "loss_ce": 0.0006405648309737444,
      "loss_iou": 0.458984375,
      "loss_num": 0.01031494140625,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 312258300,
      "step": 2472
    },
    {
      "epoch": 0.6343872250368755,
      "grad_norm": 37.079105377197266,
      "learning_rate": 5e-06,
      "loss": 0.8652,
      "num_input_tokens_seen": 312383840,
      "step": 2473
    },
    {
      "epoch": 0.6343872250368755,
      "loss": 0.7709866762161255,
      "loss_ce": 0.00047885527601465583,
      "loss_iou": 0.369140625,
      "loss_num": 0.006561279296875,
      "loss_xval": 0.76953125,
      "num_input_tokens_seen": 312383840,
      "step": 2473
    },
    {
      "epoch": 0.6346437504008209,
      "grad_norm": 34.36626052856445,
      "learning_rate": 5e-06,
      "loss": 1.0145,
      "num_input_tokens_seen": 312510296,
      "step": 2474
    },
    {
      "epoch": 0.6346437504008209,
      "loss": 1.0918447971343994,
      "loss_ce": 4.7944708057912067e-05,
      "loss_iou": 0.5,
      "loss_num": 0.018310546875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 312510296,
      "step": 2474
    },
    {
      "epoch": 0.6349002757647663,
      "grad_norm": 38.27058410644531,
      "learning_rate": 5e-06,
      "loss": 0.923,
      "num_input_tokens_seen": 312636148,
      "step": 2475
    },
    {
      "epoch": 0.6349002757647663,
      "loss": 0.9423344135284424,
      "loss_ce": 0.0019047094974666834,
      "loss_iou": 0.443359375,
      "loss_num": 0.01068115234375,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 312636148,
      "step": 2475
    },
    {
      "epoch": 0.6351568011287116,
      "grad_norm": 48.85742950439453,
      "learning_rate": 5e-06,
      "loss": 1.1399,
      "num_input_tokens_seen": 312763748,
      "step": 2476
    },
    {
      "epoch": 0.6351568011287116,
      "loss": 1.1814463138580322,
      "loss_ce": 0.0007821816252544522,
      "loss_iou": 0.53125,
      "loss_num": 0.0230712890625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 312763748,
      "step": 2476
    },
    {
      "epoch": 0.6354133264926569,
      "grad_norm": 58.78425979614258,
      "learning_rate": 5e-06,
      "loss": 1.0311,
      "num_input_tokens_seen": 312889716,
      "step": 2477
    },
    {
      "epoch": 0.6354133264926569,
      "loss": 1.067948818206787,
      "loss_ce": 0.002030777046456933,
      "loss_iou": 0.482421875,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 312889716,
      "step": 2477
    },
    {
      "epoch": 0.6356698518566023,
      "grad_norm": 48.85798263549805,
      "learning_rate": 5e-06,
      "loss": 0.9953,
      "num_input_tokens_seen": 313016780,
      "step": 2478
    },
    {
      "epoch": 0.6356698518566023,
      "loss": 0.9967614412307739,
      "loss_ce": 0.001644239411689341,
      "loss_iou": 0.45703125,
      "loss_num": 0.0166015625,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 313016780,
      "step": 2478
    },
    {
      "epoch": 0.6359263772205477,
      "grad_norm": 53.68509292602539,
      "learning_rate": 5e-06,
      "loss": 1.0086,
      "num_input_tokens_seen": 313142452,
      "step": 2479
    },
    {
      "epoch": 0.6359263772205477,
      "loss": 0.9821228981018066,
      "loss_ce": 0.00043347227619960904,
      "loss_iou": 0.455078125,
      "loss_num": 0.01422119140625,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 313142452,
      "step": 2479
    },
    {
      "epoch": 0.6361829025844931,
      "grad_norm": 50.022579193115234,
      "learning_rate": 5e-06,
      "loss": 1.1482,
      "num_input_tokens_seen": 313269064,
      "step": 2480
    },
    {
      "epoch": 0.6361829025844931,
      "loss": 1.2547531127929688,
      "loss_ce": 0.00475321477279067,
      "loss_iou": 0.56640625,
      "loss_num": 0.0234375,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 313269064,
      "step": 2480
    },
    {
      "epoch": 0.6364394279484384,
      "grad_norm": 39.800392150878906,
      "learning_rate": 5e-06,
      "loss": 0.8805,
      "num_input_tokens_seen": 313394932,
      "step": 2481
    },
    {
      "epoch": 0.6364394279484384,
      "loss": 0.8018169403076172,
      "loss_ce": 0.002012226264923811,
      "loss_iou": 0.37890625,
      "loss_num": 0.008544921875,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 313394932,
      "step": 2481
    },
    {
      "epoch": 0.6366959533123837,
      "grad_norm": 43.395320892333984,
      "learning_rate": 5e-06,
      "loss": 0.9681,
      "num_input_tokens_seen": 313520424,
      "step": 2482
    },
    {
      "epoch": 0.6366959533123837,
      "loss": 0.8497616052627563,
      "loss_ce": 0.0006405311869457364,
      "loss_iou": 0.408203125,
      "loss_num": 0.00665283203125,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 313520424,
      "step": 2482
    },
    {
      "epoch": 0.6369524786763291,
      "grad_norm": 45.77923583984375,
      "learning_rate": 5e-06,
      "loss": 1.0746,
      "num_input_tokens_seen": 313647008,
      "step": 2483
    },
    {
      "epoch": 0.6369524786763291,
      "loss": 0.9664580225944519,
      "loss_ce": 0.0006377378012984991,
      "loss_iou": 0.4453125,
      "loss_num": 0.0150146484375,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 313647008,
      "step": 2483
    },
    {
      "epoch": 0.6372090040402745,
      "grad_norm": 60.24766540527344,
      "learning_rate": 5e-06,
      "loss": 0.9391,
      "num_input_tokens_seen": 313774488,
      "step": 2484
    },
    {
      "epoch": 0.6372090040402745,
      "loss": 0.8841963410377502,
      "loss_ce": 0.0018721404485404491,
      "loss_iou": 0.4140625,
      "loss_num": 0.0107421875,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 313774488,
      "step": 2484
    },
    {
      "epoch": 0.6374655294042199,
      "grad_norm": 58.58847427368164,
      "learning_rate": 5e-06,
      "loss": 0.9444,
      "num_input_tokens_seen": 313901560,
      "step": 2485
    },
    {
      "epoch": 0.6374655294042199,
      "loss": 0.7853380441665649,
      "loss_ce": 0.0001817881129682064,
      "loss_iou": 0.373046875,
      "loss_num": 0.00775146484375,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 313901560,
      "step": 2485
    },
    {
      "epoch": 0.6377220547681652,
      "grad_norm": 48.0351448059082,
      "learning_rate": 5e-06,
      "loss": 0.9756,
      "num_input_tokens_seen": 314026672,
      "step": 2486
    },
    {
      "epoch": 0.6377220547681652,
      "loss": 0.8512207269668579,
      "loss_ce": 0.00014651667152065784,
      "loss_iou": 0.400390625,
      "loss_num": 0.00994873046875,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 314026672,
      "step": 2486
    },
    {
      "epoch": 0.6379785801321106,
      "grad_norm": 56.102012634277344,
      "learning_rate": 5e-06,
      "loss": 1.0193,
      "num_input_tokens_seen": 314153436,
      "step": 2487
    },
    {
      "epoch": 0.6379785801321106,
      "loss": 0.9376398324966431,
      "loss_ce": 0.003557785414159298,
      "loss_iou": 0.419921875,
      "loss_num": 0.018798828125,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 314153436,
      "step": 2487
    },
    {
      "epoch": 0.6382351054960559,
      "grad_norm": 60.45938491821289,
      "learning_rate": 5e-06,
      "loss": 1.0177,
      "num_input_tokens_seen": 314279476,
      "step": 2488
    },
    {
      "epoch": 0.6382351054960559,
      "loss": 0.9793537855148315,
      "loss_ce": 0.0008381406078115106,
      "loss_iou": 0.455078125,
      "loss_num": 0.01361083984375,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 314279476,
      "step": 2488
    },
    {
      "epoch": 0.6384916308600013,
      "grad_norm": 38.13401412963867,
      "learning_rate": 5e-06,
      "loss": 1.0787,
      "num_input_tokens_seen": 314404940,
      "step": 2489
    },
    {
      "epoch": 0.6384916308600013,
      "loss": 1.1006993055343628,
      "loss_ce": 0.0010898895561695099,
      "loss_iou": 0.5078125,
      "loss_num": 0.0177001953125,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 314404940,
      "step": 2489
    },
    {
      "epoch": 0.6387481562239467,
      "grad_norm": 48.75522994995117,
      "learning_rate": 5e-06,
      "loss": 1.0053,
      "num_input_tokens_seen": 314531644,
      "step": 2490
    },
    {
      "epoch": 0.6387481562239467,
      "loss": 0.8262951970100403,
      "loss_ce": 0.00012335414066910744,
      "loss_iou": 0.392578125,
      "loss_num": 0.0079345703125,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 314531644,
      "step": 2490
    },
    {
      "epoch": 0.639004681587892,
      "grad_norm": 57.63133239746094,
      "learning_rate": 5e-06,
      "loss": 0.8711,
      "num_input_tokens_seen": 314658012,
      "step": 2491
    },
    {
      "epoch": 0.639004681587892,
      "loss": 0.7972193360328674,
      "loss_ce": 0.0030298929195851088,
      "loss_iou": 0.37890625,
      "loss_num": 0.007110595703125,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 314658012,
      "step": 2491
    },
    {
      "epoch": 0.6392612069518374,
      "grad_norm": 50.777530670166016,
      "learning_rate": 5e-06,
      "loss": 0.9881,
      "num_input_tokens_seen": 314783984,
      "step": 2492
    },
    {
      "epoch": 0.6392612069518374,
      "loss": 0.9365330934524536,
      "loss_ce": 0.0019627877045422792,
      "loss_iou": 0.435546875,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 314783984,
      "step": 2492
    },
    {
      "epoch": 0.6395177323157827,
      "grad_norm": 30.51044464111328,
      "learning_rate": 5e-06,
      "loss": 1.0218,
      "num_input_tokens_seen": 314911264,
      "step": 2493
    },
    {
      "epoch": 0.6395177323157827,
      "loss": 1.036022424697876,
      "loss_ce": 0.0013544856337830424,
      "loss_iou": 0.482421875,
      "loss_num": 0.0137939453125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 314911264,
      "step": 2493
    },
    {
      "epoch": 0.6397742576797281,
      "grad_norm": 35.85038375854492,
      "learning_rate": 5e-06,
      "loss": 1.0062,
      "num_input_tokens_seen": 315037508,
      "step": 2494
    },
    {
      "epoch": 0.6397742576797281,
      "loss": 1.0716043710708618,
      "loss_ce": 0.00031530956039205194,
      "loss_iou": 0.49609375,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 315037508,
      "step": 2494
    },
    {
      "epoch": 0.6400307830436734,
      "grad_norm": 149.6553955078125,
      "learning_rate": 5e-06,
      "loss": 0.9438,
      "num_input_tokens_seen": 315163584,
      "step": 2495
    },
    {
      "epoch": 0.6400307830436734,
      "loss": 0.8392609357833862,
      "loss_ce": 0.0021027191542088985,
      "loss_iou": 0.388671875,
      "loss_num": 0.01190185546875,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 315163584,
      "step": 2495
    },
    {
      "epoch": 0.6402873084076188,
      "grad_norm": 48.40391159057617,
      "learning_rate": 5e-06,
      "loss": 0.9182,
      "num_input_tokens_seen": 315290880,
      "step": 2496
    },
    {
      "epoch": 0.6402873084076188,
      "loss": 0.8231366872787476,
      "loss_ce": 0.0013593407347798347,
      "loss_iou": 0.38671875,
      "loss_num": 0.00982666015625,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 315290880,
      "step": 2496
    },
    {
      "epoch": 0.6405438337715642,
      "grad_norm": 43.44719696044922,
      "learning_rate": 5e-06,
      "loss": 1.0423,
      "num_input_tokens_seen": 315417168,
      "step": 2497
    },
    {
      "epoch": 0.6405438337715642,
      "loss": 0.979767918586731,
      "loss_ce": 0.004914391320198774,
      "loss_iou": 0.443359375,
      "loss_num": 0.017822265625,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 315417168,
      "step": 2497
    },
    {
      "epoch": 0.6408003591355095,
      "grad_norm": 47.518741607666016,
      "learning_rate": 5e-06,
      "loss": 0.9214,
      "num_input_tokens_seen": 315543600,
      "step": 2498
    },
    {
      "epoch": 0.6408003591355095,
      "loss": 0.9051362872123718,
      "loss_ce": 0.000351129740010947,
      "loss_iou": 0.421875,
      "loss_num": 0.012451171875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 315543600,
      "step": 2498
    },
    {
      "epoch": 0.6410568844994549,
      "grad_norm": 61.92799377441406,
      "learning_rate": 5e-06,
      "loss": 0.9488,
      "num_input_tokens_seen": 315669776,
      "step": 2499
    },
    {
      "epoch": 0.6410568844994549,
      "loss": 0.9454058408737183,
      "loss_ce": 0.0010698674013838172,
      "loss_iou": 0.44140625,
      "loss_num": 0.0125732421875,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 315669776,
      "step": 2499
    },
    {
      "epoch": 0.6413134098634002,
      "grad_norm": 44.73543167114258,
      "learning_rate": 5e-06,
      "loss": 0.9597,
      "num_input_tokens_seen": 315795756,
      "step": 2500
    },
    {
      "epoch": 0.6413134098634002,
      "eval_icons_CIoU": 0.1894754022359848,
      "eval_icons_GIoU": 0.14396759308874607,
      "eval_icons_IoU": 0.38933469355106354,
      "eval_icons_MAE_all": 0.033200185745954514,
      "eval_icons_MAE_h": 0.05532575212419033,
      "eval_icons_MAE_w": 0.05543721467256546,
      "eval_icons_MAE_x_boxes": 0.05691156163811684,
      "eval_icons_MAE_y_boxes": 0.05602333880960941,
      "eval_icons_NUM_probability": 0.9996485114097595,
      "eval_icons_inside_bbox": 0.640625,
      "eval_icons_loss": 1.8144516944885254,
      "eval_icons_loss_ce": 7.383912998193409e-05,
      "eval_icons_loss_iou": 0.8223876953125,
      "eval_icons_loss_num": 0.0358123779296875,
      "eval_icons_loss_xval": 1.82421875,
      "eval_icons_runtime": 39.3913,
      "eval_icons_samples_per_second": 1.269,
      "eval_icons_steps_per_second": 0.051,
      "num_input_tokens_seen": 315795756,
      "step": 2500
    },
    {
      "epoch": 0.6413134098634002,
      "eval_screenspot_CIoU": 0.11557815720637639,
      "eval_screenspot_GIoU": 0.1087864339351654,
      "eval_screenspot_IoU": 0.27850545446077984,
      "eval_screenspot_MAE_all": 0.07068674514691035,
      "eval_screenspot_MAE_h": 0.05356825515627861,
      "eval_screenspot_MAE_w": 0.11678829540808995,
      "eval_screenspot_MAE_x_boxes": 0.09224247187376022,
      "eval_screenspot_MAE_y_boxes": 0.045117881149053574,
      "eval_screenspot_NUM_probability": 0.9999234477678934,
      "eval_screenspot_inside_bbox": 0.6225000023841858,
      "eval_screenspot_loss": 2.180006504058838,
      "eval_screenspot_loss_ce": 0.0014279020445731778,
      "eval_screenspot_loss_iou": 0.9212239583333334,
      "eval_screenspot_loss_num": 0.07674662272135417,
      "eval_screenspot_loss_xval": 2.2259114583333335,
      "eval_screenspot_runtime": 68.6871,
      "eval_screenspot_samples_per_second": 1.296,
      "eval_screenspot_steps_per_second": 0.044,
      "num_input_tokens_seen": 315795756,
      "step": 2500
    },
    {
      "epoch": 0.6413134098634002,
      "loss": 2.1584157943725586,
      "loss_ce": 0.001189233735203743,
      "loss_iou": 0.9140625,
      "loss_num": 0.06640625,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 315795756,
      "step": 2500
    },
    {
      "epoch": 0.6415699352273456,
      "grad_norm": 23.59415054321289,
      "learning_rate": 5e-06,
      "loss": 0.93,
      "num_input_tokens_seen": 315922888,
      "step": 2501
    },
    {
      "epoch": 0.6415699352273456,
      "loss": 0.8966366052627563,
      "loss_ce": 0.0006405095336958766,
      "loss_iou": 0.404296875,
      "loss_num": 0.017578125,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 315922888,
      "step": 2501
    },
    {
      "epoch": 0.641826460591291,
      "grad_norm": 22.13914680480957,
      "learning_rate": 5e-06,
      "loss": 0.9547,
      "num_input_tokens_seen": 316048900,
      "step": 2502
    },
    {
      "epoch": 0.641826460591291,
      "loss": 1.2089340686798096,
      "loss_ce": 0.000926303444430232,
      "loss_iou": 0.53125,
      "loss_num": 0.0286865234375,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 316048900,
      "step": 2502
    },
    {
      "epoch": 0.6420829859552363,
      "grad_norm": 22.006704330444336,
      "learning_rate": 5e-06,
      "loss": 0.9344,
      "num_input_tokens_seen": 316173520,
      "step": 2503
    },
    {
      "epoch": 0.6420829859552363,
      "loss": 1.0413873195648193,
      "loss_ce": 0.0062311128713190556,
      "loss_iou": 0.47265625,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 316173520,
      "step": 2503
    },
    {
      "epoch": 0.6423395113191817,
      "grad_norm": 45.18537521362305,
      "learning_rate": 5e-06,
      "loss": 0.9591,
      "num_input_tokens_seen": 316299780,
      "step": 2504
    },
    {
      "epoch": 0.6423395113191817,
      "loss": 0.98471999168396,
      "loss_ce": 0.0010774012189358473,
      "loss_iou": 0.4609375,
      "loss_num": 0.0118408203125,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 316299780,
      "step": 2504
    },
    {
      "epoch": 0.642596036683127,
      "grad_norm": 71.81124877929688,
      "learning_rate": 5e-06,
      "loss": 1.0914,
      "num_input_tokens_seen": 316426540,
      "step": 2505
    },
    {
      "epoch": 0.642596036683127,
      "loss": 1.1884512901306152,
      "loss_ce": 0.0058341859839856625,
      "loss_iou": 0.54296875,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 316426540,
      "step": 2505
    },
    {
      "epoch": 0.6428525620470724,
      "grad_norm": 53.26790237426758,
      "learning_rate": 5e-06,
      "loss": 1.0663,
      "num_input_tokens_seen": 316553300,
      "step": 2506
    },
    {
      "epoch": 0.6428525620470724,
      "loss": 1.0838321447372437,
      "loss_ce": 0.006683701649308205,
      "loss_iou": 0.515625,
      "loss_num": 0.00921630859375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 316553300,
      "step": 2506
    },
    {
      "epoch": 0.6431090874110178,
      "grad_norm": 30.55912971496582,
      "learning_rate": 5e-06,
      "loss": 0.9813,
      "num_input_tokens_seen": 316679356,
      "step": 2507
    },
    {
      "epoch": 0.6431090874110178,
      "loss": 0.8189159631729126,
      "loss_ce": 6.834132364019752e-05,
      "loss_iou": 0.392578125,
      "loss_num": 0.006866455078125,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 316679356,
      "step": 2507
    },
    {
      "epoch": 0.6433656127749631,
      "grad_norm": 38.27816390991211,
      "learning_rate": 5e-06,
      "loss": 0.9711,
      "num_input_tokens_seen": 316805440,
      "step": 2508
    },
    {
      "epoch": 0.6433656127749631,
      "loss": 1.0845415592193604,
      "loss_ce": 0.003486872185021639,
      "loss_iou": 0.51171875,
      "loss_num": 0.011962890625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 316805440,
      "step": 2508
    },
    {
      "epoch": 0.6436221381389085,
      "grad_norm": 62.62095642089844,
      "learning_rate": 5e-06,
      "loss": 0.9779,
      "num_input_tokens_seen": 316931076,
      "step": 2509
    },
    {
      "epoch": 0.6436221381389085,
      "loss": 0.989258885383606,
      "loss_ce": 0.006836992222815752,
      "loss_iou": 0.44921875,
      "loss_num": 0.01708984375,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 316931076,
      "step": 2509
    },
    {
      "epoch": 0.6438786635028538,
      "grad_norm": 47.067626953125,
      "learning_rate": 5e-06,
      "loss": 1.0797,
      "num_input_tokens_seen": 317057464,
      "step": 2510
    },
    {
      "epoch": 0.6438786635028538,
      "loss": 1.0920400619506836,
      "loss_ce": 0.004637722857296467,
      "loss_iou": 0.4921875,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 317057464,
      "step": 2510
    },
    {
      "epoch": 0.6441351888667992,
      "grad_norm": 32.67469024658203,
      "learning_rate": 5e-06,
      "loss": 0.9837,
      "num_input_tokens_seen": 317183812,
      "step": 2511
    },
    {
      "epoch": 0.6441351888667992,
      "loss": 0.8611379861831665,
      "loss_ce": 0.0027395517099648714,
      "loss_iou": 0.40234375,
      "loss_num": 0.01092529296875,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 317183812,
      "step": 2511
    },
    {
      "epoch": 0.6443917142307446,
      "grad_norm": 53.10581970214844,
      "learning_rate": 5e-06,
      "loss": 1.0376,
      "num_input_tokens_seen": 317310148,
      "step": 2512
    },
    {
      "epoch": 0.6443917142307446,
      "loss": 1.024294137954712,
      "loss_ce": 0.0028096886817365885,
      "loss_iou": 0.466796875,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 317310148,
      "step": 2512
    },
    {
      "epoch": 0.64464823959469,
      "grad_norm": 76.71137237548828,
      "learning_rate": 5e-06,
      "loss": 1.0011,
      "num_input_tokens_seen": 317436700,
      "step": 2513
    },
    {
      "epoch": 0.64464823959469,
      "loss": 0.9319745302200317,
      "loss_ce": 0.0013104160316288471,
      "loss_iou": 0.44921875,
      "loss_num": 0.0067138671875,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 317436700,
      "step": 2513
    },
    {
      "epoch": 0.6449047649586352,
      "grad_norm": 111.10372924804688,
      "learning_rate": 5e-06,
      "loss": 1.0588,
      "num_input_tokens_seen": 317564536,
      "step": 2514
    },
    {
      "epoch": 0.6449047649586352,
      "loss": 1.0919809341430664,
      "loss_ce": 0.0006723300321027637,
      "loss_iou": 0.50390625,
      "loss_num": 0.016357421875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 317564536,
      "step": 2514
    },
    {
      "epoch": 0.6451612903225806,
      "grad_norm": 25.80034828186035,
      "learning_rate": 5e-06,
      "loss": 1.0167,
      "num_input_tokens_seen": 317690216,
      "step": 2515
    },
    {
      "epoch": 0.6451612903225806,
      "loss": 1.0635647773742676,
      "loss_ce": 8.824904216453433e-05,
      "loss_iou": 0.494140625,
      "loss_num": 0.014892578125,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 317690216,
      "step": 2515
    },
    {
      "epoch": 0.645417815686526,
      "grad_norm": 49.10334396362305,
      "learning_rate": 5e-06,
      "loss": 0.8933,
      "num_input_tokens_seen": 317816888,
      "step": 2516
    },
    {
      "epoch": 0.645417815686526,
      "loss": 0.8991395831108093,
      "loss_ce": 0.001190381939522922,
      "loss_iou": 0.41796875,
      "loss_num": 0.01220703125,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 317816888,
      "step": 2516
    },
    {
      "epoch": 0.6456743410504714,
      "grad_norm": 58.33970642089844,
      "learning_rate": 5e-06,
      "loss": 1.0141,
      "num_input_tokens_seen": 317943704,
      "step": 2517
    },
    {
      "epoch": 0.6456743410504714,
      "loss": 0.8808072805404663,
      "loss_ce": 0.0004361860337667167,
      "loss_iou": 0.40625,
      "loss_num": 0.0135498046875,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 317943704,
      "step": 2517
    },
    {
      "epoch": 0.6459308664144168,
      "grad_norm": 46.87978744506836,
      "learning_rate": 5e-06,
      "loss": 0.9654,
      "num_input_tokens_seen": 318069668,
      "step": 2518
    },
    {
      "epoch": 0.6459308664144168,
      "loss": 0.9845964908599854,
      "loss_ce": 0.00022149203869048506,
      "loss_iou": 0.46484375,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 318069668,
      "step": 2518
    },
    {
      "epoch": 0.646187391778362,
      "grad_norm": 44.92280960083008,
      "learning_rate": 5e-06,
      "loss": 0.8749,
      "num_input_tokens_seen": 318197216,
      "step": 2519
    },
    {
      "epoch": 0.646187391778362,
      "loss": 0.7968791127204895,
      "loss_ce": 0.0004923823289573193,
      "loss_iou": 0.37890625,
      "loss_num": 0.008056640625,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 318197216,
      "step": 2519
    },
    {
      "epoch": 0.6464439171423074,
      "grad_norm": 45.6769905090332,
      "learning_rate": 5e-06,
      "loss": 1.0586,
      "num_input_tokens_seen": 318323712,
      "step": 2520
    },
    {
      "epoch": 0.6464439171423074,
      "loss": 1.0454797744750977,
      "loss_ce": 0.005440776236355305,
      "loss_iou": 0.48828125,
      "loss_num": 0.01275634765625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 318323712,
      "step": 2520
    },
    {
      "epoch": 0.6467004425062528,
      "grad_norm": 47.695404052734375,
      "learning_rate": 5e-06,
      "loss": 0.997,
      "num_input_tokens_seen": 318449708,
      "step": 2521
    },
    {
      "epoch": 0.6467004425062528,
      "loss": 1.0668721199035645,
      "loss_ce": 0.00486042769625783,
      "loss_iou": 0.48828125,
      "loss_num": 0.017333984375,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 318449708,
      "step": 2521
    },
    {
      "epoch": 0.6469569678701982,
      "grad_norm": 42.857452392578125,
      "learning_rate": 5e-06,
      "loss": 0.9918,
      "num_input_tokens_seen": 318575128,
      "step": 2522
    },
    {
      "epoch": 0.6469569678701982,
      "loss": 1.0272332429885864,
      "loss_ce": 0.0008660528110340238,
      "loss_iou": 0.462890625,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 318575128,
      "step": 2522
    },
    {
      "epoch": 0.6472134932341436,
      "grad_norm": 36.89896011352539,
      "learning_rate": 5e-06,
      "loss": 0.9211,
      "num_input_tokens_seen": 318700912,
      "step": 2523
    },
    {
      "epoch": 0.6472134932341436,
      "loss": 0.9705300331115723,
      "loss_ce": 0.0008034645579755306,
      "loss_iou": 0.443359375,
      "loss_num": 0.0164794921875,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 318700912,
      "step": 2523
    },
    {
      "epoch": 0.6474700185980888,
      "grad_norm": 46.29090118408203,
      "learning_rate": 5e-06,
      "loss": 0.9753,
      "num_input_tokens_seen": 318826324,
      "step": 2524
    },
    {
      "epoch": 0.6474700185980888,
      "loss": 1.1603264808654785,
      "loss_ce": 0.00017029396258294582,
      "loss_iou": 0.52734375,
      "loss_num": 0.0205078125,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 318826324,
      "step": 2524
    },
    {
      "epoch": 0.6477265439620342,
      "grad_norm": 50.32664489746094,
      "learning_rate": 5e-06,
      "loss": 1.0048,
      "num_input_tokens_seen": 318952612,
      "step": 2525
    },
    {
      "epoch": 0.6477265439620342,
      "loss": 1.0178900957107544,
      "loss_ce": 0.004218225833028555,
      "loss_iou": 0.47265625,
      "loss_num": 0.013671875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 318952612,
      "step": 2525
    },
    {
      "epoch": 0.6479830693259796,
      "grad_norm": 64.36626434326172,
      "learning_rate": 5e-06,
      "loss": 1.0053,
      "num_input_tokens_seen": 319079140,
      "step": 2526
    },
    {
      "epoch": 0.6479830693259796,
      "loss": 1.03044855594635,
      "loss_ce": 0.00017510858015157282,
      "loss_iou": 0.484375,
      "loss_num": 0.01214599609375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 319079140,
      "step": 2526
    },
    {
      "epoch": 0.648239594689925,
      "grad_norm": 63.44362258911133,
      "learning_rate": 5e-06,
      "loss": 1.0099,
      "num_input_tokens_seen": 319206096,
      "step": 2527
    },
    {
      "epoch": 0.648239594689925,
      "loss": 0.9730905890464783,
      "loss_ce": 0.003852284513413906,
      "loss_iou": 0.43359375,
      "loss_num": 0.020751953125,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 319206096,
      "step": 2527
    },
    {
      "epoch": 0.6484961200538704,
      "grad_norm": 50.821598052978516,
      "learning_rate": 5e-06,
      "loss": 1.0448,
      "num_input_tokens_seen": 319332544,
      "step": 2528
    },
    {
      "epoch": 0.6484961200538704,
      "loss": 1.1387299299240112,
      "loss_ce": 0.0005463565466925502,
      "loss_iou": 0.51953125,
      "loss_num": 0.0205078125,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 319332544,
      "step": 2528
    },
    {
      "epoch": 0.6487526454178156,
      "grad_norm": 35.26225280761719,
      "learning_rate": 5e-06,
      "loss": 0.9292,
      "num_input_tokens_seen": 319457704,
      "step": 2529
    },
    {
      "epoch": 0.6487526454178156,
      "loss": 0.9400994777679443,
      "loss_ce": 0.0006464060861617327,
      "loss_iou": 0.431640625,
      "loss_num": 0.01513671875,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 319457704,
      "step": 2529
    },
    {
      "epoch": 0.649009170781761,
      "grad_norm": 41.742889404296875,
      "learning_rate": 5e-06,
      "loss": 0.9143,
      "num_input_tokens_seen": 319584008,
      "step": 2530
    },
    {
      "epoch": 0.649009170781761,
      "loss": 0.9822044372558594,
      "loss_ce": 0.0032005212269723415,
      "loss_iou": 0.455078125,
      "loss_num": 0.01361083984375,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 319584008,
      "step": 2530
    },
    {
      "epoch": 0.6492656961457064,
      "grad_norm": 72.13563537597656,
      "learning_rate": 5e-06,
      "loss": 1.0865,
      "num_input_tokens_seen": 319710184,
      "step": 2531
    },
    {
      "epoch": 0.6492656961457064,
      "loss": 1.0516331195831299,
      "loss_ce": 0.00011939967225771397,
      "loss_iou": 0.474609375,
      "loss_num": 0.0205078125,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 319710184,
      "step": 2531
    },
    {
      "epoch": 0.6495222215096518,
      "grad_norm": 82.74921417236328,
      "learning_rate": 5e-06,
      "loss": 0.9771,
      "num_input_tokens_seen": 319836612,
      "step": 2532
    },
    {
      "epoch": 0.6495222215096518,
      "loss": 1.0619401931762695,
      "loss_ce": 0.00041672700899653137,
      "loss_iou": 0.482421875,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 319836612,
      "step": 2532
    },
    {
      "epoch": 0.6497787468735972,
      "grad_norm": 54.184059143066406,
      "learning_rate": 5e-06,
      "loss": 1.0498,
      "num_input_tokens_seen": 319963252,
      "step": 2533
    },
    {
      "epoch": 0.6497787468735972,
      "loss": 1.1017423868179321,
      "loss_ce": 0.0011564084561541677,
      "loss_iou": 0.5,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 319963252,
      "step": 2533
    },
    {
      "epoch": 0.6500352722375425,
      "grad_norm": 51.53678512573242,
      "learning_rate": 5e-06,
      "loss": 1.0902,
      "num_input_tokens_seen": 320088852,
      "step": 2534
    },
    {
      "epoch": 0.6500352722375425,
      "loss": 1.3015151023864746,
      "loss_ce": 0.005128405522555113,
      "loss_iou": 0.58203125,
      "loss_num": 0.0263671875,
      "loss_xval": 1.296875,
      "num_input_tokens_seen": 320088852,
      "step": 2534
    },
    {
      "epoch": 0.6502917976014878,
      "grad_norm": 42.27482223510742,
      "learning_rate": 5e-06,
      "loss": 0.9686,
      "num_input_tokens_seen": 320214944,
      "step": 2535
    },
    {
      "epoch": 0.6502917976014878,
      "loss": 1.0335527658462524,
      "loss_ce": 0.0010820061434060335,
      "loss_iou": 0.46484375,
      "loss_num": 0.020751953125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 320214944,
      "step": 2535
    },
    {
      "epoch": 0.6505483229654332,
      "grad_norm": 114.15023803710938,
      "learning_rate": 5e-06,
      "loss": 0.9784,
      "num_input_tokens_seen": 320341852,
      "step": 2536
    },
    {
      "epoch": 0.6505483229654332,
      "loss": 0.8794183731079102,
      "loss_ce": 0.0017328441608697176,
      "loss_iou": 0.40625,
      "loss_num": 0.01263427734375,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 320341852,
      "step": 2536
    },
    {
      "epoch": 0.6508048483293786,
      "grad_norm": 47.009220123291016,
      "learning_rate": 5e-06,
      "loss": 1.0441,
      "num_input_tokens_seen": 320467920,
      "step": 2537
    },
    {
      "epoch": 0.6508048483293786,
      "loss": 1.2648087739944458,
      "loss_ce": 0.00431071687489748,
      "loss_iou": 0.53515625,
      "loss_num": 0.0380859375,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 320467920,
      "step": 2537
    },
    {
      "epoch": 0.651061373693324,
      "grad_norm": 51.10209655761719,
      "learning_rate": 5e-06,
      "loss": 1.074,
      "num_input_tokens_seen": 320593432,
      "step": 2538
    },
    {
      "epoch": 0.651061373693324,
      "loss": 1.019327163696289,
      "loss_ce": 0.0012607639655470848,
      "loss_iou": 0.46484375,
      "loss_num": 0.01806640625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 320593432,
      "step": 2538
    },
    {
      "epoch": 0.6513178990572693,
      "grad_norm": 69.9461898803711,
      "learning_rate": 5e-06,
      "loss": 1.1117,
      "num_input_tokens_seen": 320720700,
      "step": 2539
    },
    {
      "epoch": 0.6513178990572693,
      "loss": 1.1479278802871704,
      "loss_ce": 0.00022277333482634276,
      "loss_iou": 0.53125,
      "loss_num": 0.016845703125,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 320720700,
      "step": 2539
    },
    {
      "epoch": 0.6515744244212146,
      "grad_norm": 50.35648727416992,
      "learning_rate": 5e-06,
      "loss": 1.0686,
      "num_input_tokens_seen": 320846244,
      "step": 2540
    },
    {
      "epoch": 0.6515744244212146,
      "loss": 1.0237176418304443,
      "loss_ce": 0.0002800257643684745,
      "loss_iou": 0.4765625,
      "loss_num": 0.0140380859375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 320846244,
      "step": 2540
    },
    {
      "epoch": 0.65183094978516,
      "grad_norm": 22.305009841918945,
      "learning_rate": 5e-06,
      "loss": 0.8449,
      "num_input_tokens_seen": 320971512,
      "step": 2541
    },
    {
      "epoch": 0.65183094978516,
      "loss": 0.6406305432319641,
      "loss_ce": 0.0004938304773531854,
      "loss_iou": 0.306640625,
      "loss_num": 0.0054931640625,
      "loss_xval": 0.640625,
      "num_input_tokens_seen": 320971512,
      "step": 2541
    },
    {
      "epoch": 0.6520874751491054,
      "grad_norm": 27.07823944091797,
      "learning_rate": 5e-06,
      "loss": 1.0071,
      "num_input_tokens_seen": 321097656,
      "step": 2542
    },
    {
      "epoch": 0.6520874751491054,
      "loss": 1.2131917476654053,
      "loss_ce": 0.0012776607181876898,
      "loss_iou": 0.546875,
      "loss_num": 0.0230712890625,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 321097656,
      "step": 2542
    },
    {
      "epoch": 0.6523440005130507,
      "grad_norm": 28.77030372619629,
      "learning_rate": 5e-06,
      "loss": 1.0164,
      "num_input_tokens_seen": 321224284,
      "step": 2543
    },
    {
      "epoch": 0.6523440005130507,
      "loss": 0.9516527056694031,
      "loss_ce": 0.0009691096493043005,
      "loss_iou": 0.44140625,
      "loss_num": 0.0137939453125,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 321224284,
      "step": 2543
    },
    {
      "epoch": 0.6526005258769961,
      "grad_norm": 35.22871017456055,
      "learning_rate": 5e-06,
      "loss": 0.9432,
      "num_input_tokens_seen": 321350976,
      "step": 2544
    },
    {
      "epoch": 0.6526005258769961,
      "loss": 0.8475707769393921,
      "loss_ce": 0.00479731522500515,
      "loss_iou": 0.380859375,
      "loss_num": 0.0166015625,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 321350976,
      "step": 2544
    },
    {
      "epoch": 0.6528570512409414,
      "grad_norm": 71.83428192138672,
      "learning_rate": 5e-06,
      "loss": 0.9466,
      "num_input_tokens_seen": 321478208,
      "step": 2545
    },
    {
      "epoch": 0.6528570512409414,
      "loss": 0.9686086177825928,
      "loss_ce": 0.0013235016958788037,
      "loss_iou": 0.455078125,
      "loss_num": 0.0118408203125,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 321478208,
      "step": 2545
    },
    {
      "epoch": 0.6531135766048868,
      "grad_norm": 60.73153305053711,
      "learning_rate": 5e-06,
      "loss": 1.0345,
      "num_input_tokens_seen": 321605096,
      "step": 2546
    },
    {
      "epoch": 0.6531135766048868,
      "loss": 1.1399184465408325,
      "loss_ce": 0.0007583254482597113,
      "loss_iou": 0.51953125,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 321605096,
      "step": 2546
    },
    {
      "epoch": 0.6533701019688322,
      "grad_norm": 59.767982482910156,
      "learning_rate": 5e-06,
      "loss": 1.0058,
      "num_input_tokens_seen": 321731936,
      "step": 2547
    },
    {
      "epoch": 0.6533701019688322,
      "loss": 0.9773869514465332,
      "loss_ce": 0.001800987869501114,
      "loss_iou": 0.4453125,
      "loss_num": 0.0169677734375,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 321731936,
      "step": 2547
    },
    {
      "epoch": 0.6536266273327775,
      "grad_norm": 51.63563537597656,
      "learning_rate": 5e-06,
      "loss": 0.9713,
      "num_input_tokens_seen": 321858464,
      "step": 2548
    },
    {
      "epoch": 0.6536266273327775,
      "loss": 0.9061453342437744,
      "loss_ce": 0.0008718846365809441,
      "loss_iou": 0.423828125,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 321858464,
      "step": 2548
    },
    {
      "epoch": 0.6538831526967229,
      "grad_norm": 36.578731536865234,
      "learning_rate": 5e-06,
      "loss": 0.9314,
      "num_input_tokens_seen": 321984984,
      "step": 2549
    },
    {
      "epoch": 0.6538831526967229,
      "loss": 0.7994917035102844,
      "loss_ce": 0.002616706769913435,
      "loss_iou": 0.359375,
      "loss_num": 0.015380859375,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 321984984,
      "step": 2549
    },
    {
      "epoch": 0.6541396780606682,
      "grad_norm": 53.078128814697266,
      "learning_rate": 5e-06,
      "loss": 0.9987,
      "num_input_tokens_seen": 322111476,
      "step": 2550
    },
    {
      "epoch": 0.6541396780606682,
      "loss": 1.1092263460159302,
      "loss_ce": 0.0013161643873900175,
      "loss_iou": 0.5078125,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 322111476,
      "step": 2550
    },
    {
      "epoch": 0.6543962034246136,
      "grad_norm": 61.14692306518555,
      "learning_rate": 5e-06,
      "loss": 0.9398,
      "num_input_tokens_seen": 322238732,
      "step": 2551
    },
    {
      "epoch": 0.6543962034246136,
      "loss": 0.8002679347991943,
      "loss_ce": 0.0011956471716985106,
      "loss_iou": 0.376953125,
      "loss_num": 0.009521484375,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 322238732,
      "step": 2551
    },
    {
      "epoch": 0.654652728788559,
      "grad_norm": 46.45836639404297,
      "learning_rate": 5e-06,
      "loss": 0.9514,
      "num_input_tokens_seen": 322363184,
      "step": 2552
    },
    {
      "epoch": 0.654652728788559,
      "loss": 0.9463776350021362,
      "loss_ce": 0.0010651350021362305,
      "loss_iou": 0.4375,
      "loss_num": 0.0142822265625,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 322363184,
      "step": 2552
    },
    {
      "epoch": 0.6549092541525043,
      "grad_norm": 39.87617111206055,
      "learning_rate": 5e-06,
      "loss": 0.934,
      "num_input_tokens_seen": 322490044,
      "step": 2553
    },
    {
      "epoch": 0.6549092541525043,
      "loss": 0.9073050022125244,
      "loss_ce": 0.0010549655416980386,
      "loss_iou": 0.43359375,
      "loss_num": 0.0078125,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 322490044,
      "step": 2553
    },
    {
      "epoch": 0.6551657795164497,
      "grad_norm": 47.76124572753906,
      "learning_rate": 5e-06,
      "loss": 1.0452,
      "num_input_tokens_seen": 322616152,
      "step": 2554
    },
    {
      "epoch": 0.6551657795164497,
      "loss": 1.3401833772659302,
      "loss_ce": 0.0042458572424948215,
      "loss_iou": 0.6015625,
      "loss_num": 0.026123046875,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 322616152,
      "step": 2554
    },
    {
      "epoch": 0.6554223048803951,
      "grad_norm": 69.3962631225586,
      "learning_rate": 5e-06,
      "loss": 0.8953,
      "num_input_tokens_seen": 322742764,
      "step": 2555
    },
    {
      "epoch": 0.6554223048803951,
      "loss": 0.8622629642486572,
      "loss_ce": 0.00093482417287305,
      "loss_iou": 0.3984375,
      "loss_num": 0.012939453125,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 322742764,
      "step": 2555
    },
    {
      "epoch": 0.6556788302443404,
      "grad_norm": 48.42595291137695,
      "learning_rate": 5e-06,
      "loss": 0.9537,
      "num_input_tokens_seen": 322869668,
      "step": 2556
    },
    {
      "epoch": 0.6556788302443404,
      "loss": 0.9341844320297241,
      "loss_ce": 0.00010241439304081723,
      "loss_iou": 0.447265625,
      "loss_num": 0.00799560546875,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 322869668,
      "step": 2556
    },
    {
      "epoch": 0.6559353556082858,
      "grad_norm": 133.43043518066406,
      "learning_rate": 5e-06,
      "loss": 1.0679,
      "num_input_tokens_seen": 322996704,
      "step": 2557
    },
    {
      "epoch": 0.6559353556082858,
      "loss": 1.2168223857879639,
      "loss_ce": 0.002466895617544651,
      "loss_iou": 0.5546875,
      "loss_num": 0.020263671875,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 322996704,
      "step": 2557
    },
    {
      "epoch": 0.6561918809722311,
      "grad_norm": 56.74580383300781,
      "learning_rate": 5e-06,
      "loss": 1.0205,
      "num_input_tokens_seen": 323122892,
      "step": 2558
    },
    {
      "epoch": 0.6561918809722311,
      "loss": 1.127679467201233,
      "loss_ce": 0.00023803164367564023,
      "loss_iou": 0.5234375,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 323122892,
      "step": 2558
    },
    {
      "epoch": 0.6564484063361765,
      "grad_norm": 53.315433502197266,
      "learning_rate": 5e-06,
      "loss": 1.0803,
      "num_input_tokens_seen": 323249196,
      "step": 2559
    },
    {
      "epoch": 0.6564484063361765,
      "loss": 1.070936918258667,
      "loss_ce": 0.0011127182515338063,
      "loss_iou": 0.5,
      "loss_num": 0.013916015625,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 323249196,
      "step": 2559
    },
    {
      "epoch": 0.6567049317001219,
      "grad_norm": 52.62623977661133,
      "learning_rate": 5e-06,
      "loss": 0.8037,
      "num_input_tokens_seen": 323375368,
      "step": 2560
    },
    {
      "epoch": 0.6567049317001219,
      "loss": 0.8856045603752136,
      "loss_ce": 0.00010653733625076711,
      "loss_iou": 0.408203125,
      "loss_num": 0.01397705078125,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 323375368,
      "step": 2560
    },
    {
      "epoch": 0.6569614570640672,
      "grad_norm": 140.98773193359375,
      "learning_rate": 5e-06,
      "loss": 0.9971,
      "num_input_tokens_seen": 323500776,
      "step": 2561
    },
    {
      "epoch": 0.6569614570640672,
      "loss": 1.021779179573059,
      "loss_ce": 0.003224445739760995,
      "loss_iou": 0.4765625,
      "loss_num": 0.0130615234375,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 323500776,
      "step": 2561
    },
    {
      "epoch": 0.6572179824280125,
      "grad_norm": 60.800437927246094,
      "learning_rate": 5e-06,
      "loss": 0.843,
      "num_input_tokens_seen": 323627980,
      "step": 2562
    },
    {
      "epoch": 0.6572179824280125,
      "loss": 1.0431504249572754,
      "loss_ce": 0.002379023004323244,
      "loss_iou": 0.48046875,
      "loss_num": 0.015869140625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 323627980,
      "step": 2562
    },
    {
      "epoch": 0.6574745077919579,
      "grad_norm": 48.72665023803711,
      "learning_rate": 5e-06,
      "loss": 1.0235,
      "num_input_tokens_seen": 323753764,
      "step": 2563
    },
    {
      "epoch": 0.6574745077919579,
      "loss": 1.0337119102478027,
      "loss_ce": 0.0019735852256417274,
      "loss_iou": 0.4765625,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 323753764,
      "step": 2563
    },
    {
      "epoch": 0.6577310331559033,
      "grad_norm": 38.067832946777344,
      "learning_rate": 5e-06,
      "loss": 0.9222,
      "num_input_tokens_seen": 323879928,
      "step": 2564
    },
    {
      "epoch": 0.6577310331559033,
      "loss": 1.0303575992584229,
      "loss_ce": 0.002525636926293373,
      "loss_iou": 0.46484375,
      "loss_num": 0.01953125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 323879928,
      "step": 2564
    },
    {
      "epoch": 0.6579875585198487,
      "grad_norm": 80.7061767578125,
      "learning_rate": 5e-06,
      "loss": 0.9469,
      "num_input_tokens_seen": 324005148,
      "step": 2565
    },
    {
      "epoch": 0.6579875585198487,
      "loss": 0.952646791934967,
      "loss_ce": 0.0002542136353440583,
      "loss_iou": 0.443359375,
      "loss_num": 0.01348876953125,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 324005148,
      "step": 2565
    },
    {
      "epoch": 0.658244083883794,
      "grad_norm": 26.289743423461914,
      "learning_rate": 5e-06,
      "loss": 1.0903,
      "num_input_tokens_seen": 324133056,
      "step": 2566
    },
    {
      "epoch": 0.658244083883794,
      "loss": 1.0004773139953613,
      "loss_ce": 0.0034068753011524677,
      "loss_iou": 0.447265625,
      "loss_num": 0.0208740234375,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 324133056,
      "step": 2566
    },
    {
      "epoch": 0.6585006092477393,
      "grad_norm": 37.30583190917969,
      "learning_rate": 5e-06,
      "loss": 0.9683,
      "num_input_tokens_seen": 324259220,
      "step": 2567
    },
    {
      "epoch": 0.6585006092477393,
      "loss": 1.1844403743743896,
      "loss_ce": 0.002555547747761011,
      "loss_iou": 0.53125,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 324259220,
      "step": 2567
    },
    {
      "epoch": 0.6587571346116847,
      "grad_norm": 52.61225509643555,
      "learning_rate": 5e-06,
      "loss": 0.9213,
      "num_input_tokens_seen": 324384648,
      "step": 2568
    },
    {
      "epoch": 0.6587571346116847,
      "loss": 0.7872378826141357,
      "loss_ce": 0.0037906006909906864,
      "loss_iou": 0.365234375,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 324384648,
      "step": 2568
    },
    {
      "epoch": 0.6590136599756301,
      "grad_norm": 36.730262756347656,
      "learning_rate": 5e-06,
      "loss": 0.9374,
      "num_input_tokens_seen": 324509764,
      "step": 2569
    },
    {
      "epoch": 0.6590136599756301,
      "loss": 0.8289806842803955,
      "loss_ce": 0.0003673451137728989,
      "loss_iou": 0.392578125,
      "loss_num": 0.0084228515625,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 324509764,
      "step": 2569
    },
    {
      "epoch": 0.6592701853395755,
      "grad_norm": 20.297969818115234,
      "learning_rate": 5e-06,
      "loss": 0.9325,
      "num_input_tokens_seen": 324636200,
      "step": 2570
    },
    {
      "epoch": 0.6592701853395755,
      "loss": 0.8867063522338867,
      "loss_ce": 0.0009641729993745685,
      "loss_iou": 0.416015625,
      "loss_num": 0.010986328125,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 324636200,
      "step": 2570
    },
    {
      "epoch": 0.6595267107035208,
      "grad_norm": 28.509300231933594,
      "learning_rate": 5e-06,
      "loss": 1.0163,
      "num_input_tokens_seen": 324763080,
      "step": 2571
    },
    {
      "epoch": 0.6595267107035208,
      "loss": 1.1916611194610596,
      "loss_ce": 0.000743173121009022,
      "loss_iou": 0.53515625,
      "loss_num": 0.024169921875,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 324763080,
      "step": 2571
    },
    {
      "epoch": 0.6597832360674661,
      "grad_norm": 46.672637939453125,
      "learning_rate": 5e-06,
      "loss": 0.9832,
      "num_input_tokens_seen": 324889748,
      "step": 2572
    },
    {
      "epoch": 0.6597832360674661,
      "loss": 1.0805200338363647,
      "loss_ce": 0.00044189533218741417,
      "loss_iou": 0.490234375,
      "loss_num": 0.020263671875,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 324889748,
      "step": 2572
    },
    {
      "epoch": 0.6600397614314115,
      "grad_norm": 44.58865737915039,
      "learning_rate": 5e-06,
      "loss": 1.0301,
      "num_input_tokens_seen": 325017076,
      "step": 2573
    },
    {
      "epoch": 0.6600397614314115,
      "loss": 0.9069502949714661,
      "loss_ce": 0.0002119986602338031,
      "loss_iou": 0.4296875,
      "loss_num": 0.00927734375,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 325017076,
      "step": 2573
    },
    {
      "epoch": 0.6602962867953569,
      "grad_norm": 47.87212371826172,
      "learning_rate": 5e-06,
      "loss": 0.9088,
      "num_input_tokens_seen": 325143588,
      "step": 2574
    },
    {
      "epoch": 0.6602962867953569,
      "loss": 0.8963819742202759,
      "loss_ce": 0.0008741815690882504,
      "loss_iou": 0.421875,
      "loss_num": 0.010498046875,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 325143588,
      "step": 2574
    },
    {
      "epoch": 0.6605528121593023,
      "grad_norm": 78.64407348632812,
      "learning_rate": 5e-06,
      "loss": 0.9949,
      "num_input_tokens_seen": 325268836,
      "step": 2575
    },
    {
      "epoch": 0.6605528121593023,
      "loss": 1.231353998184204,
      "loss_ce": 0.0018617615569382906,
      "loss_iou": 0.5390625,
      "loss_num": 0.02978515625,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 325268836,
      "step": 2575
    },
    {
      "epoch": 0.6608093375232477,
      "grad_norm": 62.79936599731445,
      "learning_rate": 5e-06,
      "loss": 0.9037,
      "num_input_tokens_seen": 325394712,
      "step": 2576
    },
    {
      "epoch": 0.6608093375232477,
      "loss": 0.9758100509643555,
      "loss_ce": 0.0014448176370933652,
      "loss_iou": 0.4375,
      "loss_num": 0.02001953125,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 325394712,
      "step": 2576
    },
    {
      "epoch": 0.6610658628871929,
      "grad_norm": 57.34217834472656,
      "learning_rate": 5e-06,
      "loss": 0.9979,
      "num_input_tokens_seen": 325521336,
      "step": 2577
    },
    {
      "epoch": 0.6610658628871929,
      "loss": 0.9856201410293579,
      "loss_ce": 0.00026858298224397004,
      "loss_iou": 0.4609375,
      "loss_num": 0.0128173828125,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 325521336,
      "step": 2577
    },
    {
      "epoch": 0.6613223882511383,
      "grad_norm": 40.77871322631836,
      "learning_rate": 5e-06,
      "loss": 0.9735,
      "num_input_tokens_seen": 325648140,
      "step": 2578
    },
    {
      "epoch": 0.6613223882511383,
      "loss": 0.7677271366119385,
      "loss_ce": 0.00014898774679750204,
      "loss_iou": 0.365234375,
      "loss_num": 0.007568359375,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 325648140,
      "step": 2578
    },
    {
      "epoch": 0.6615789136150837,
      "grad_norm": 56.08229064941406,
      "learning_rate": 5e-06,
      "loss": 0.9773,
      "num_input_tokens_seen": 325774620,
      "step": 2579
    },
    {
      "epoch": 0.6615789136150837,
      "loss": 0.8560376167297363,
      "loss_ce": 0.0008130334899760783,
      "loss_iou": 0.404296875,
      "loss_num": 0.00909423828125,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 325774620,
      "step": 2579
    },
    {
      "epoch": 0.6618354389790291,
      "grad_norm": 51.157928466796875,
      "learning_rate": 5e-06,
      "loss": 1.021,
      "num_input_tokens_seen": 325901264,
      "step": 2580
    },
    {
      "epoch": 0.6618354389790291,
      "loss": 0.8419246077537537,
      "loss_ce": 0.0006160178454592824,
      "loss_iou": 0.39453125,
      "loss_num": 0.010498046875,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 325901264,
      "step": 2580
    },
    {
      "epoch": 0.6620919643429745,
      "grad_norm": 50.69013977050781,
      "learning_rate": 5e-06,
      "loss": 0.9693,
      "num_input_tokens_seen": 326027708,
      "step": 2581
    },
    {
      "epoch": 0.6620919643429745,
      "loss": 1.0594018697738647,
      "loss_ce": 0.004226113203912973,
      "loss_iou": 0.49609375,
      "loss_num": 0.012939453125,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 326027708,
      "step": 2581
    },
    {
      "epoch": 0.6623484897069197,
      "grad_norm": 121.15338134765625,
      "learning_rate": 5e-06,
      "loss": 0.9881,
      "num_input_tokens_seen": 326154376,
      "step": 2582
    },
    {
      "epoch": 0.6623484897069197,
      "loss": 1.1084377765655518,
      "loss_ce": 0.001015805988572538,
      "loss_iou": 0.50390625,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 326154376,
      "step": 2582
    },
    {
      "epoch": 0.6626050150708651,
      "grad_norm": 61.08228302001953,
      "learning_rate": 5e-06,
      "loss": 1.0139,
      "num_input_tokens_seen": 326280432,
      "step": 2583
    },
    {
      "epoch": 0.6626050150708651,
      "loss": 0.8925979733467102,
      "loss_ce": 0.0005081618437543511,
      "loss_iou": 0.4140625,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 326280432,
      "step": 2583
    },
    {
      "epoch": 0.6628615404348105,
      "grad_norm": 35.20524978637695,
      "learning_rate": 5e-06,
      "loss": 0.9465,
      "num_input_tokens_seen": 326406812,
      "step": 2584
    },
    {
      "epoch": 0.6628615404348105,
      "loss": 1.0542138814926147,
      "loss_ce": 0.0014795222086831927,
      "loss_iou": 0.4765625,
      "loss_num": 0.020263671875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 326406812,
      "step": 2584
    },
    {
      "epoch": 0.6631180657987559,
      "grad_norm": 50.86079025268555,
      "learning_rate": 5e-06,
      "loss": 0.9724,
      "num_input_tokens_seen": 326533680,
      "step": 2585
    },
    {
      "epoch": 0.6631180657987559,
      "loss": 0.8301674127578735,
      "loss_ce": 8.923219866119325e-05,
      "loss_iou": 0.390625,
      "loss_num": 0.00958251953125,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 326533680,
      "step": 2585
    },
    {
      "epoch": 0.6633745911627013,
      "grad_norm": 68.34303283691406,
      "learning_rate": 5e-06,
      "loss": 0.933,
      "num_input_tokens_seen": 326660376,
      "step": 2586
    },
    {
      "epoch": 0.6633745911627013,
      "loss": 0.867810845375061,
      "loss_ce": 0.00013504312664736062,
      "loss_iou": 0.412109375,
      "loss_num": 0.00897216796875,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 326660376,
      "step": 2586
    },
    {
      "epoch": 0.6636311165266465,
      "grad_norm": 49.95848083496094,
      "learning_rate": 5e-06,
      "loss": 0.9739,
      "num_input_tokens_seen": 326786964,
      "step": 2587
    },
    {
      "epoch": 0.6636311165266465,
      "loss": 0.9336749315261841,
      "loss_ce": 0.0010577525245025754,
      "loss_iou": 0.435546875,
      "loss_num": 0.012451171875,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 326786964,
      "step": 2587
    },
    {
      "epoch": 0.6638876418905919,
      "grad_norm": 37.53621292114258,
      "learning_rate": 5e-06,
      "loss": 0.9877,
      "num_input_tokens_seen": 326912772,
      "step": 2588
    },
    {
      "epoch": 0.6638876418905919,
      "loss": 0.9066030383110046,
      "loss_ce": 0.0003530262620188296,
      "loss_iou": 0.4375,
      "loss_num": 0.006622314453125,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 326912772,
      "step": 2588
    },
    {
      "epoch": 0.6641441672545373,
      "grad_norm": 29.56305694580078,
      "learning_rate": 5e-06,
      "loss": 0.9645,
      "num_input_tokens_seen": 327039104,
      "step": 2589
    },
    {
      "epoch": 0.6641441672545373,
      "loss": 0.9219417572021484,
      "loss_ce": 0.0005550056230276823,
      "loss_iou": 0.421875,
      "loss_num": 0.015380859375,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 327039104,
      "step": 2589
    },
    {
      "epoch": 0.6644006926184827,
      "grad_norm": 45.28819274902344,
      "learning_rate": 5e-06,
      "loss": 1.0259,
      "num_input_tokens_seen": 327164716,
      "step": 2590
    },
    {
      "epoch": 0.6644006926184827,
      "loss": 1.0519031286239624,
      "loss_ce": 0.002098442055284977,
      "loss_iou": 0.48046875,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 327164716,
      "step": 2590
    },
    {
      "epoch": 0.664657217982428,
      "grad_norm": 48.15447235107422,
      "learning_rate": 5e-06,
      "loss": 0.9972,
      "num_input_tokens_seen": 327290484,
      "step": 2591
    },
    {
      "epoch": 0.664657217982428,
      "loss": 0.9134647250175476,
      "loss_ce": 0.0003788552130572498,
      "loss_iou": 0.435546875,
      "loss_num": 0.0087890625,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 327290484,
      "step": 2591
    },
    {
      "epoch": 0.6649137433463733,
      "grad_norm": 54.98477554321289,
      "learning_rate": 5e-06,
      "loss": 0.9299,
      "num_input_tokens_seen": 327416936,
      "step": 2592
    },
    {
      "epoch": 0.6649137433463733,
      "loss": 0.8780367970466614,
      "loss_ce": 0.0003512462426442653,
      "loss_iou": 0.41015625,
      "loss_num": 0.01141357421875,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 327416936,
      "step": 2592
    },
    {
      "epoch": 0.6651702687103187,
      "grad_norm": 58.28336715698242,
      "learning_rate": 5e-06,
      "loss": 1.0213,
      "num_input_tokens_seen": 327543848,
      "step": 2593
    },
    {
      "epoch": 0.6651702687103187,
      "loss": 1.259503722190857,
      "loss_ce": 0.0002263898350065574,
      "loss_iou": 0.57421875,
      "loss_num": 0.0224609375,
      "loss_xval": 1.2578125,
      "num_input_tokens_seen": 327543848,
      "step": 2593
    },
    {
      "epoch": 0.6654267940742641,
      "grad_norm": 60.74911117553711,
      "learning_rate": 5e-06,
      "loss": 0.9964,
      "num_input_tokens_seen": 327670360,
      "step": 2594
    },
    {
      "epoch": 0.6654267940742641,
      "loss": 0.8540535569190979,
      "loss_ce": 0.0005379447829909623,
      "loss_iou": 0.40625,
      "loss_num": 0.0078125,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 327670360,
      "step": 2594
    },
    {
      "epoch": 0.6656833194382095,
      "grad_norm": 44.802677154541016,
      "learning_rate": 5e-06,
      "loss": 0.9963,
      "num_input_tokens_seen": 327796636,
      "step": 2595
    },
    {
      "epoch": 0.6656833194382095,
      "loss": 1.0499944686889648,
      "loss_ce": 0.0011662642937153578,
      "loss_iou": 0.48046875,
      "loss_num": 0.017822265625,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 327796636,
      "step": 2595
    },
    {
      "epoch": 0.6659398448021548,
      "grad_norm": 43.667240142822266,
      "learning_rate": 5e-06,
      "loss": 0.9097,
      "num_input_tokens_seen": 327921956,
      "step": 2596
    },
    {
      "epoch": 0.6659398448021548,
      "loss": 1.2363719940185547,
      "loss_ce": 0.00492672435939312,
      "loss_iou": 0.53515625,
      "loss_num": 0.032470703125,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 327921956,
      "step": 2596
    },
    {
      "epoch": 0.6661963701661002,
      "grad_norm": 49.90669631958008,
      "learning_rate": 5e-06,
      "loss": 1.0292,
      "num_input_tokens_seen": 328048468,
      "step": 2597
    },
    {
      "epoch": 0.6661963701661002,
      "loss": 0.9330325722694397,
      "loss_ce": 0.00041541692917235196,
      "loss_iou": 0.44140625,
      "loss_num": 0.00970458984375,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 328048468,
      "step": 2597
    },
    {
      "epoch": 0.6664528955300455,
      "grad_norm": 54.853179931640625,
      "learning_rate": 5e-06,
      "loss": 1.0659,
      "num_input_tokens_seen": 328173756,
      "step": 2598
    },
    {
      "epoch": 0.6664528955300455,
      "loss": 1.071955680847168,
      "loss_ce": 0.0026196991093456745,
      "loss_iou": 0.5,
      "loss_num": 0.01312255859375,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 328173756,
      "step": 2598
    },
    {
      "epoch": 0.6667094208939909,
      "grad_norm": 48.6937255859375,
      "learning_rate": 5e-06,
      "loss": 1.0304,
      "num_input_tokens_seen": 328300296,
      "step": 2599
    },
    {
      "epoch": 0.6667094208939909,
      "loss": 1.1512596607208252,
      "loss_ce": 0.0008689466631039977,
      "loss_iou": 0.5234375,
      "loss_num": 0.0198974609375,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 328300296,
      "step": 2599
    },
    {
      "epoch": 0.6669659462579363,
      "grad_norm": 49.37694549560547,
      "learning_rate": 5e-06,
      "loss": 0.8213,
      "num_input_tokens_seen": 328425796,
      "step": 2600
    },
    {
      "epoch": 0.6669659462579363,
      "loss": 0.8191945552825928,
      "loss_ce": 0.0005910039180889726,
      "loss_iou": 0.384765625,
      "loss_num": 0.009765625,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 328425796,
      "step": 2600
    },
    {
      "epoch": 0.6672224716218816,
      "grad_norm": 62.02981185913086,
      "learning_rate": 5e-06,
      "loss": 1.0209,
      "num_input_tokens_seen": 328551904,
      "step": 2601
    },
    {
      "epoch": 0.6672224716218816,
      "loss": 1.0754212141036987,
      "loss_ce": 0.00022586580598726869,
      "loss_iou": 0.5,
      "loss_num": 0.01483154296875,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 328551904,
      "step": 2601
    },
    {
      "epoch": 0.667478996985827,
      "grad_norm": 36.73429870605469,
      "learning_rate": 5e-06,
      "loss": 0.9028,
      "num_input_tokens_seen": 328678148,
      "step": 2602
    },
    {
      "epoch": 0.667478996985827,
      "loss": 0.8765177130699158,
      "loss_ce": 0.0034708520397543907,
      "loss_iou": 0.416015625,
      "loss_num": 0.00830078125,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 328678148,
      "step": 2602
    },
    {
      "epoch": 0.6677355223497723,
      "grad_norm": 43.596805572509766,
      "learning_rate": 5e-06,
      "loss": 0.9298,
      "num_input_tokens_seen": 328803636,
      "step": 2603
    },
    {
      "epoch": 0.6677355223497723,
      "loss": 0.822252631187439,
      "loss_ce": 0.0004752951208502054,
      "loss_iou": 0.390625,
      "loss_num": 0.00836181640625,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 328803636,
      "step": 2603
    },
    {
      "epoch": 0.6679920477137177,
      "grad_norm": 58.305667877197266,
      "learning_rate": 5e-06,
      "loss": 0.829,
      "num_input_tokens_seen": 328928916,
      "step": 2604
    },
    {
      "epoch": 0.6679920477137177,
      "loss": 0.7055681347846985,
      "loss_ce": 0.000489999249111861,
      "loss_iou": 0.33203125,
      "loss_num": 0.008056640625,
      "loss_xval": 0.703125,
      "num_input_tokens_seen": 328928916,
      "step": 2604
    },
    {
      "epoch": 0.668248573077663,
      "grad_norm": 41.25015640258789,
      "learning_rate": 5e-06,
      "loss": 0.977,
      "num_input_tokens_seen": 329054296,
      "step": 2605
    },
    {
      "epoch": 0.668248573077663,
      "loss": 0.8563076257705688,
      "loss_ce": 0.00035060258232988417,
      "loss_iou": 0.412109375,
      "loss_num": 0.006683349609375,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 329054296,
      "step": 2605
    },
    {
      "epoch": 0.6685050984416084,
      "grad_norm": 17.951494216918945,
      "learning_rate": 5e-06,
      "loss": 0.8571,
      "num_input_tokens_seen": 329181108,
      "step": 2606
    },
    {
      "epoch": 0.6685050984416084,
      "loss": 0.9497910141944885,
      "loss_ce": 0.0015487968921661377,
      "loss_iou": 0.447265625,
      "loss_num": 0.0103759765625,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 329181108,
      "step": 2606
    },
    {
      "epoch": 0.6687616238055538,
      "grad_norm": 28.445119857788086,
      "learning_rate": 5e-06,
      "loss": 0.8681,
      "num_input_tokens_seen": 329307088,
      "step": 2607
    },
    {
      "epoch": 0.6687616238055538,
      "loss": 0.6227301359176636,
      "loss_ce": 0.00017157517140731215,
      "loss_iou": 0.296875,
      "loss_num": 0.005523681640625,
      "loss_xval": 0.62109375,
      "num_input_tokens_seen": 329307088,
      "step": 2607
    },
    {
      "epoch": 0.6690181491694991,
      "grad_norm": 60.301429748535156,
      "learning_rate": 5e-06,
      "loss": 0.9719,
      "num_input_tokens_seen": 329433844,
      "step": 2608
    },
    {
      "epoch": 0.6690181491694991,
      "loss": 0.8493772745132446,
      "loss_ce": 0.0005003456026315689,
      "loss_iou": 0.400390625,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 329433844,
      "step": 2608
    },
    {
      "epoch": 0.6692746745334445,
      "grad_norm": 64.60432434082031,
      "learning_rate": 5e-06,
      "loss": 1.0147,
      "num_input_tokens_seen": 329560060,
      "step": 2609
    },
    {
      "epoch": 0.6692746745334445,
      "loss": 0.8359988927841187,
      "loss_ce": 0.0010379781015217304,
      "loss_iou": 0.384765625,
      "loss_num": 0.01287841796875,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 329560060,
      "step": 2609
    },
    {
      "epoch": 0.6695311998973899,
      "grad_norm": 48.75896072387695,
      "learning_rate": 5e-06,
      "loss": 0.8759,
      "num_input_tokens_seen": 329686476,
      "step": 2610
    },
    {
      "epoch": 0.6695311998973899,
      "loss": 0.8272218704223633,
      "loss_ce": 7.33964770915918e-05,
      "loss_iou": 0.3828125,
      "loss_num": 0.01190185546875,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 329686476,
      "step": 2610
    },
    {
      "epoch": 0.6697877252613352,
      "grad_norm": 39.09230041503906,
      "learning_rate": 5e-06,
      "loss": 0.9767,
      "num_input_tokens_seen": 329813240,
      "step": 2611
    },
    {
      "epoch": 0.6697877252613352,
      "loss": 1.2717763185501099,
      "loss_ce": 0.0017568380571901798,
      "loss_iou": 0.5625,
      "loss_num": 0.0296630859375,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 329813240,
      "step": 2611
    },
    {
      "epoch": 0.6700442506252806,
      "grad_norm": 53.445068359375,
      "learning_rate": 5e-06,
      "loss": 1.0295,
      "num_input_tokens_seen": 329940128,
      "step": 2612
    },
    {
      "epoch": 0.6700442506252806,
      "loss": 0.9662352800369263,
      "loss_ce": 0.00041496381163597107,
      "loss_iou": 0.451171875,
      "loss_num": 0.0125732421875,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 329940128,
      "step": 2612
    },
    {
      "epoch": 0.6703007759892259,
      "grad_norm": 59.1682243347168,
      "learning_rate": 5e-06,
      "loss": 0.9191,
      "num_input_tokens_seen": 330066240,
      "step": 2613
    },
    {
      "epoch": 0.6703007759892259,
      "loss": 1.0424437522888184,
      "loss_ce": 0.0024047736078500748,
      "loss_iou": 0.474609375,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 330066240,
      "step": 2613
    },
    {
      "epoch": 0.6705573013531713,
      "grad_norm": 53.199684143066406,
      "learning_rate": 5e-06,
      "loss": 1.0157,
      "num_input_tokens_seen": 330192580,
      "step": 2614
    },
    {
      "epoch": 0.6705573013531713,
      "loss": 0.9505829215049744,
      "loss_ce": 0.00038759096059948206,
      "loss_iou": 0.443359375,
      "loss_num": 0.0126953125,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 330192580,
      "step": 2614
    },
    {
      "epoch": 0.6708138267171166,
      "grad_norm": 54.543704986572266,
      "learning_rate": 5e-06,
      "loss": 0.8584,
      "num_input_tokens_seen": 330319744,
      "step": 2615
    },
    {
      "epoch": 0.6708138267171166,
      "loss": 0.9499923586845398,
      "loss_ce": 0.0007736086845397949,
      "loss_iou": 0.44921875,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 330319744,
      "step": 2615
    },
    {
      "epoch": 0.671070352081062,
      "grad_norm": 50.70442581176758,
      "learning_rate": 5e-06,
      "loss": 0.9683,
      "num_input_tokens_seen": 330446004,
      "step": 2616
    },
    {
      "epoch": 0.671070352081062,
      "loss": 0.9763659238815308,
      "loss_ce": 0.001756608602590859,
      "loss_iou": 0.453125,
      "loss_num": 0.01397705078125,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 330446004,
      "step": 2616
    },
    {
      "epoch": 0.6713268774450074,
      "grad_norm": 39.5313835144043,
      "learning_rate": 5e-06,
      "loss": 0.8941,
      "num_input_tokens_seen": 330572832,
      "step": 2617
    },
    {
      "epoch": 0.6713268774450074,
      "loss": 0.8067336082458496,
      "loss_ce": 9.297236829297617e-05,
      "loss_iou": 0.388671875,
      "loss_num": 0.005706787109375,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 330572832,
      "step": 2617
    },
    {
      "epoch": 0.6715834028089528,
      "grad_norm": 47.32804870605469,
      "learning_rate": 5e-06,
      "loss": 1.0336,
      "num_input_tokens_seen": 330699568,
      "step": 2618
    },
    {
      "epoch": 0.6715834028089528,
      "loss": 1.0725769996643066,
      "loss_ce": 0.00055544706992805,
      "loss_iou": 0.484375,
      "loss_num": 0.0205078125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 330699568,
      "step": 2618
    },
    {
      "epoch": 0.6718399281728981,
      "grad_norm": 76.59149932861328,
      "learning_rate": 5e-06,
      "loss": 1.0651,
      "num_input_tokens_seen": 330826532,
      "step": 2619
    },
    {
      "epoch": 0.6718399281728981,
      "loss": 1.193537712097168,
      "loss_ce": 0.000666723761241883,
      "loss_iou": 0.53515625,
      "loss_num": 0.0247802734375,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 330826532,
      "step": 2619
    },
    {
      "epoch": 0.6720964535368434,
      "grad_norm": 50.16630172729492,
      "learning_rate": 5e-06,
      "loss": 1.1236,
      "num_input_tokens_seen": 330952620,
      "step": 2620
    },
    {
      "epoch": 0.6720964535368434,
      "loss": 1.0960618257522583,
      "loss_ce": 0.0003586825623642653,
      "loss_iou": 0.515625,
      "loss_num": 0.0125732421875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 330952620,
      "step": 2620
    },
    {
      "epoch": 0.6723529789007888,
      "grad_norm": 22.544261932373047,
      "learning_rate": 5e-06,
      "loss": 0.8174,
      "num_input_tokens_seen": 331079216,
      "step": 2621
    },
    {
      "epoch": 0.6723529789007888,
      "loss": 0.8145396709442139,
      "loss_ce": 8.658501610625535e-05,
      "loss_iou": 0.3828125,
      "loss_num": 0.009521484375,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 331079216,
      "step": 2621
    },
    {
      "epoch": 0.6726095042647342,
      "grad_norm": 21.712814331054688,
      "learning_rate": 5e-06,
      "loss": 1.0115,
      "num_input_tokens_seen": 331206072,
      "step": 2622
    },
    {
      "epoch": 0.6726095042647342,
      "loss": 0.732024073600769,
      "loss_ce": 0.002287733368575573,
      "loss_iou": 0.341796875,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 331206072,
      "step": 2622
    },
    {
      "epoch": 0.6728660296286796,
      "grad_norm": 24.271188735961914,
      "learning_rate": 5e-06,
      "loss": 0.8571,
      "num_input_tokens_seen": 331332124,
      "step": 2623
    },
    {
      "epoch": 0.6728660296286796,
      "loss": 0.7758426666259766,
      "loss_ce": 0.0004520603106357157,
      "loss_iou": 0.359375,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 331332124,
      "step": 2623
    },
    {
      "epoch": 0.6731225549926249,
      "grad_norm": 45.45386505126953,
      "learning_rate": 5e-06,
      "loss": 1.0615,
      "num_input_tokens_seen": 331459184,
      "step": 2624
    },
    {
      "epoch": 0.6731225549926249,
      "loss": 1.170393943786621,
      "loss_ce": 0.0012045535258948803,
      "loss_iou": 0.498046875,
      "loss_num": 0.034423828125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 331459184,
      "step": 2624
    },
    {
      "epoch": 0.6733790803565702,
      "grad_norm": 52.11981201171875,
      "learning_rate": 5e-06,
      "loss": 1.0992,
      "num_input_tokens_seen": 331585340,
      "step": 2625
    },
    {
      "epoch": 0.6733790803565702,
      "loss": 1.1299861669540405,
      "loss_ce": 0.00010332637612009421,
      "loss_iou": 0.51171875,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 331585340,
      "step": 2625
    },
    {
      "epoch": 0.6736356057205156,
      "grad_norm": 67.46333312988281,
      "learning_rate": 5e-06,
      "loss": 1.1056,
      "num_input_tokens_seen": 331711172,
      "step": 2626
    },
    {
      "epoch": 0.6736356057205156,
      "loss": 1.1611733436584473,
      "loss_ce": 0.0005287847598083317,
      "loss_iou": 0.51171875,
      "loss_num": 0.02685546875,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 331711172,
      "step": 2626
    },
    {
      "epoch": 0.673892131084461,
      "grad_norm": 59.92705154418945,
      "learning_rate": 5e-06,
      "loss": 1.0489,
      "num_input_tokens_seen": 331837380,
      "step": 2627
    },
    {
      "epoch": 0.673892131084461,
      "loss": 1.3939323425292969,
      "loss_ce": 0.00037761940620839596,
      "loss_iou": 0.62109375,
      "loss_num": 0.0311279296875,
      "loss_xval": 1.390625,
      "num_input_tokens_seen": 331837380,
      "step": 2627
    },
    {
      "epoch": 0.6741486564484064,
      "grad_norm": 59.04011154174805,
      "learning_rate": 5e-06,
      "loss": 0.9846,
      "num_input_tokens_seen": 331964920,
      "step": 2628
    },
    {
      "epoch": 0.6741486564484064,
      "loss": 1.0295162200927734,
      "loss_ce": 0.0011959560215473175,
      "loss_iou": 0.46875,
      "loss_num": 0.0185546875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 331964920,
      "step": 2628
    },
    {
      "epoch": 0.6744051818123517,
      "grad_norm": 50.19484329223633,
      "learning_rate": 5e-06,
      "loss": 0.9816,
      "num_input_tokens_seen": 332091676,
      "step": 2629
    },
    {
      "epoch": 0.6744051818123517,
      "loss": 0.95802241563797,
      "loss_ce": 0.0039207953959703445,
      "loss_iou": 0.443359375,
      "loss_num": 0.01348876953125,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 332091676,
      "step": 2629
    },
    {
      "epoch": 0.674661707176297,
      "grad_norm": 21.684646606445312,
      "learning_rate": 5e-06,
      "loss": 0.9122,
      "num_input_tokens_seen": 332217816,
      "step": 2630
    },
    {
      "epoch": 0.674661707176297,
      "loss": 0.8740447163581848,
      "loss_ce": 0.004415811970829964,
      "loss_iou": 0.39453125,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 332217816,
      "step": 2630
    },
    {
      "epoch": 0.6749182325402424,
      "grad_norm": 36.10974884033203,
      "learning_rate": 5e-06,
      "loss": 0.9735,
      "num_input_tokens_seen": 332344256,
      "step": 2631
    },
    {
      "epoch": 0.6749182325402424,
      "loss": 1.1013665199279785,
      "loss_ce": 0.0010248173493891954,
      "loss_iou": 0.515625,
      "loss_num": 0.0135498046875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 332344256,
      "step": 2631
    },
    {
      "epoch": 0.6751747579041878,
      "grad_norm": 61.22284698486328,
      "learning_rate": 5e-06,
      "loss": 0.9698,
      "num_input_tokens_seen": 332470276,
      "step": 2632
    },
    {
      "epoch": 0.6751747579041878,
      "loss": 0.8887766599655151,
      "loss_ce": 0.00034897681325674057,
      "loss_iou": 0.421875,
      "loss_num": 0.00927734375,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 332470276,
      "step": 2632
    },
    {
      "epoch": 0.6754312832681332,
      "grad_norm": 50.0896110534668,
      "learning_rate": 5e-06,
      "loss": 1.0844,
      "num_input_tokens_seen": 332596684,
      "step": 2633
    },
    {
      "epoch": 0.6754312832681332,
      "loss": 1.210376501083374,
      "loss_ce": 0.004321814514696598,
      "loss_iou": 0.53515625,
      "loss_num": 0.026611328125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 332596684,
      "step": 2633
    },
    {
      "epoch": 0.6756878086320784,
      "grad_norm": 32.03232192993164,
      "learning_rate": 5e-06,
      "loss": 0.9061,
      "num_input_tokens_seen": 332722220,
      "step": 2634
    },
    {
      "epoch": 0.6756878086320784,
      "loss": 0.9343405365943909,
      "loss_ce": 0.0007467715768143535,
      "loss_iou": 0.439453125,
      "loss_num": 0.01104736328125,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 332722220,
      "step": 2634
    },
    {
      "epoch": 0.6759443339960238,
      "grad_norm": 39.76304626464844,
      "learning_rate": 5e-06,
      "loss": 0.9524,
      "num_input_tokens_seen": 332847480,
      "step": 2635
    },
    {
      "epoch": 0.6759443339960238,
      "loss": 0.9822904467582703,
      "loss_ce": 0.0008451397297903895,
      "loss_iou": 0.4609375,
      "loss_num": 0.01214599609375,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 332847480,
      "step": 2635
    },
    {
      "epoch": 0.6762008593599692,
      "grad_norm": 70.54532623291016,
      "learning_rate": 5e-06,
      "loss": 0.943,
      "num_input_tokens_seen": 332973584,
      "step": 2636
    },
    {
      "epoch": 0.6762008593599692,
      "loss": 0.9069019556045532,
      "loss_ce": 0.00016367467469535768,
      "loss_iou": 0.423828125,
      "loss_num": 0.01177978515625,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 332973584,
      "step": 2636
    },
    {
      "epoch": 0.6764573847239146,
      "grad_norm": 41.901947021484375,
      "learning_rate": 5e-06,
      "loss": 0.9125,
      "num_input_tokens_seen": 333098256,
      "step": 2637
    },
    {
      "epoch": 0.6764573847239146,
      "loss": 0.9805340766906738,
      "loss_ce": 0.002262656344100833,
      "loss_iou": 0.4453125,
      "loss_num": 0.0174560546875,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 333098256,
      "step": 2637
    },
    {
      "epoch": 0.67671391008786,
      "grad_norm": 39.998374938964844,
      "learning_rate": 5e-06,
      "loss": 0.9543,
      "num_input_tokens_seen": 333224072,
      "step": 2638
    },
    {
      "epoch": 0.67671391008786,
      "loss": 1.0625267028808594,
      "loss_ce": 0.0005150529905222356,
      "loss_iou": 0.50390625,
      "loss_num": 0.01123046875,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 333224072,
      "step": 2638
    },
    {
      "epoch": 0.6769704354518054,
      "grad_norm": 39.6991081237793,
      "learning_rate": 5e-06,
      "loss": 0.9621,
      "num_input_tokens_seen": 333350020,
      "step": 2639
    },
    {
      "epoch": 0.6769704354518054,
      "loss": 0.9661704897880554,
      "loss_ce": 0.0003502287436276674,
      "loss_iou": 0.451171875,
      "loss_num": 0.0126953125,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 333350020,
      "step": 2639
    },
    {
      "epoch": 0.6772269608157506,
      "grad_norm": 44.844139099121094,
      "learning_rate": 5e-06,
      "loss": 0.8583,
      "num_input_tokens_seen": 333477040,
      "step": 2640
    },
    {
      "epoch": 0.6772269608157506,
      "loss": 0.851862370967865,
      "loss_ce": 0.002741270000115037,
      "loss_iou": 0.40234375,
      "loss_num": 0.00872802734375,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 333477040,
      "step": 2640
    },
    {
      "epoch": 0.677483486179696,
      "grad_norm": 70.47373962402344,
      "learning_rate": 5e-06,
      "loss": 1.0566,
      "num_input_tokens_seen": 333603772,
      "step": 2641
    },
    {
      "epoch": 0.677483486179696,
      "loss": 1.0638738870620728,
      "loss_ce": 0.0018621678464114666,
      "loss_iou": 0.490234375,
      "loss_num": 0.0166015625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 333603772,
      "step": 2641
    },
    {
      "epoch": 0.6777400115436414,
      "grad_norm": 44.66590118408203,
      "learning_rate": 5e-06,
      "loss": 0.838,
      "num_input_tokens_seen": 333729416,
      "step": 2642
    },
    {
      "epoch": 0.6777400115436414,
      "loss": 0.7406109571456909,
      "loss_ce": 0.000620744307525456,
      "loss_iou": 0.349609375,
      "loss_num": 0.0084228515625,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 333729416,
      "step": 2642
    },
    {
      "epoch": 0.6779965369075868,
      "grad_norm": 37.84136962890625,
      "learning_rate": 5e-06,
      "loss": 0.8783,
      "num_input_tokens_seen": 333856588,
      "step": 2643
    },
    {
      "epoch": 0.6779965369075868,
      "loss": 0.8214726448059082,
      "loss_ce": 0.0006718781078234315,
      "loss_iou": 0.392578125,
      "loss_num": 0.0069580078125,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 333856588,
      "step": 2643
    },
    {
      "epoch": 0.6782530622715321,
      "grad_norm": 39.2398567199707,
      "learning_rate": 5e-06,
      "loss": 1.1343,
      "num_input_tokens_seen": 333982456,
      "step": 2644
    },
    {
      "epoch": 0.6782530622715321,
      "loss": 1.3410954475402832,
      "loss_ce": 0.002716601826250553,
      "loss_iou": 0.58203125,
      "loss_num": 0.034912109375,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 333982456,
      "step": 2644
    },
    {
      "epoch": 0.6785095876354774,
      "grad_norm": 58.09175109863281,
      "learning_rate": 5e-06,
      "loss": 0.9793,
      "num_input_tokens_seen": 334110220,
      "step": 2645
    },
    {
      "epoch": 0.6785095876354774,
      "loss": 1.2050714492797852,
      "loss_ce": 0.002434713765978813,
      "loss_iou": 0.5390625,
      "loss_num": 0.0244140625,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 334110220,
      "step": 2645
    },
    {
      "epoch": 0.6787661129994228,
      "grad_norm": 51.74338912963867,
      "learning_rate": 5e-06,
      "loss": 1.032,
      "num_input_tokens_seen": 334236800,
      "step": 2646
    },
    {
      "epoch": 0.6787661129994228,
      "loss": 0.8497709035873413,
      "loss_ce": 0.002602929947897792,
      "loss_iou": 0.400390625,
      "loss_num": 0.00958251953125,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 334236800,
      "step": 2646
    },
    {
      "epoch": 0.6790226383633682,
      "grad_norm": 35.887535095214844,
      "learning_rate": 5e-06,
      "loss": 1.0008,
      "num_input_tokens_seen": 334362132,
      "step": 2647
    },
    {
      "epoch": 0.6790226383633682,
      "loss": 0.7992653250694275,
      "loss_ce": 0.001413752674125135,
      "loss_iou": 0.369140625,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 334362132,
      "step": 2647
    },
    {
      "epoch": 0.6792791637273136,
      "grad_norm": 37.054656982421875,
      "learning_rate": 5e-06,
      "loss": 0.915,
      "num_input_tokens_seen": 334487020,
      "step": 2648
    },
    {
      "epoch": 0.6792791637273136,
      "loss": 0.9035756587982178,
      "loss_ce": 0.0004994976334273815,
      "loss_iou": 0.427734375,
      "loss_num": 0.00946044921875,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 334487020,
      "step": 2648
    },
    {
      "epoch": 0.6795356890912589,
      "grad_norm": 86.69132232666016,
      "learning_rate": 5e-06,
      "loss": 1.0476,
      "num_input_tokens_seen": 334614148,
      "step": 2649
    },
    {
      "epoch": 0.6795356890912589,
      "loss": 1.0119752883911133,
      "loss_ce": 0.003674438688904047,
      "loss_iou": 0.482421875,
      "loss_num": 0.00909423828125,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 334614148,
      "step": 2649
    },
    {
      "epoch": 0.6797922144552042,
      "grad_norm": 58.45771408081055,
      "learning_rate": 5e-06,
      "loss": 1.002,
      "num_input_tokens_seen": 334740044,
      "step": 2650
    },
    {
      "epoch": 0.6797922144552042,
      "loss": 1.0325878858566284,
      "loss_ce": 0.004755828063935041,
      "loss_iou": 0.47265625,
      "loss_num": 0.0162353515625,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 334740044,
      "step": 2650
    },
    {
      "epoch": 0.6800487398191496,
      "grad_norm": 36.90290069580078,
      "learning_rate": 5e-06,
      "loss": 0.9857,
      "num_input_tokens_seen": 334866680,
      "step": 2651
    },
    {
      "epoch": 0.6800487398191496,
      "loss": 0.838642418384552,
      "loss_ce": 0.0002635386190377176,
      "loss_iou": 0.40234375,
      "loss_num": 0.007049560546875,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 334866680,
      "step": 2651
    },
    {
      "epoch": 0.680305265183095,
      "grad_norm": 30.725276947021484,
      "learning_rate": 5e-06,
      "loss": 0.9262,
      "num_input_tokens_seen": 334993188,
      "step": 2652
    },
    {
      "epoch": 0.680305265183095,
      "loss": 0.7201814651489258,
      "loss_ce": 0.00045490573393180966,
      "loss_iou": 0.341796875,
      "loss_num": 0.006866455078125,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 334993188,
      "step": 2652
    },
    {
      "epoch": 0.6805617905470404,
      "grad_norm": 59.09490966796875,
      "learning_rate": 5e-06,
      "loss": 0.9335,
      "num_input_tokens_seen": 335120428,
      "step": 2653
    },
    {
      "epoch": 0.6805617905470404,
      "loss": 0.8974853754043579,
      "loss_ce": 0.004907255060970783,
      "loss_iou": 0.42578125,
      "loss_num": 0.0078125,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 335120428,
      "step": 2653
    },
    {
      "epoch": 0.6808183159109857,
      "grad_norm": 55.028114318847656,
      "learning_rate": 5e-06,
      "loss": 1.0219,
      "num_input_tokens_seen": 335245748,
      "step": 2654
    },
    {
      "epoch": 0.6808183159109857,
      "loss": 1.1647305488586426,
      "loss_ce": 0.0011563095031306148,
      "loss_iou": 0.52734375,
      "loss_num": 0.021240234375,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 335245748,
      "step": 2654
    },
    {
      "epoch": 0.681074841274931,
      "grad_norm": 26.385570526123047,
      "learning_rate": 5e-06,
      "loss": 0.8858,
      "num_input_tokens_seen": 335371108,
      "step": 2655
    },
    {
      "epoch": 0.681074841274931,
      "loss": 0.7679165601730347,
      "loss_ce": 0.0003384568844921887,
      "loss_iou": 0.359375,
      "loss_num": 0.0096435546875,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 335371108,
      "step": 2655
    },
    {
      "epoch": 0.6813313666388764,
      "grad_norm": 41.15224838256836,
      "learning_rate": 5e-06,
      "loss": 0.9392,
      "num_input_tokens_seen": 335497760,
      "step": 2656
    },
    {
      "epoch": 0.6813313666388764,
      "loss": 0.9213315844535828,
      "loss_ce": 0.0018979882588610053,
      "loss_iou": 0.42578125,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 335497760,
      "step": 2656
    },
    {
      "epoch": 0.6815878920028218,
      "grad_norm": 53.84215545654297,
      "learning_rate": 5e-06,
      "loss": 0.9773,
      "num_input_tokens_seen": 335624792,
      "step": 2657
    },
    {
      "epoch": 0.6815878920028218,
      "loss": 0.9436874985694885,
      "loss_ce": 8.397691999562085e-05,
      "loss_iou": 0.4296875,
      "loss_num": 0.016845703125,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 335624792,
      "step": 2657
    },
    {
      "epoch": 0.6818444173667672,
      "grad_norm": 48.227294921875,
      "learning_rate": 5e-06,
      "loss": 1.0054,
      "num_input_tokens_seen": 335751152,
      "step": 2658
    },
    {
      "epoch": 0.6818444173667672,
      "loss": 0.9750728607177734,
      "loss_ce": 0.0024166181683540344,
      "loss_iou": 0.447265625,
      "loss_num": 0.015625,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 335751152,
      "step": 2658
    },
    {
      "epoch": 0.6821009427307125,
      "grad_norm": 41.31946563720703,
      "learning_rate": 5e-06,
      "loss": 0.9794,
      "num_input_tokens_seen": 335877780,
      "step": 2659
    },
    {
      "epoch": 0.6821009427307125,
      "loss": 0.9192448258399963,
      "loss_ce": 0.00322920735925436,
      "loss_iou": 0.416015625,
      "loss_num": 0.016357421875,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 335877780,
      "step": 2659
    },
    {
      "epoch": 0.6823574680946578,
      "grad_norm": 56.505393981933594,
      "learning_rate": 5e-06,
      "loss": 1.0202,
      "num_input_tokens_seen": 336004252,
      "step": 2660
    },
    {
      "epoch": 0.6823574680946578,
      "loss": 0.9573144912719727,
      "loss_ce": 0.003212913405150175,
      "loss_iou": 0.439453125,
      "loss_num": 0.01513671875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 336004252,
      "step": 2660
    },
    {
      "epoch": 0.6826139934586032,
      "grad_norm": 101.24784851074219,
      "learning_rate": 5e-06,
      "loss": 0.9807,
      "num_input_tokens_seen": 336131160,
      "step": 2661
    },
    {
      "epoch": 0.6826139934586032,
      "loss": 0.8865087032318115,
      "loss_ce": 0.0012548131635412574,
      "loss_iou": 0.427734375,
      "loss_num": 0.005767822265625,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 336131160,
      "step": 2661
    },
    {
      "epoch": 0.6828705188225486,
      "grad_norm": 49.149051666259766,
      "learning_rate": 5e-06,
      "loss": 0.9886,
      "num_input_tokens_seen": 336257948,
      "step": 2662
    },
    {
      "epoch": 0.6828705188225486,
      "loss": 1.0268540382385254,
      "loss_ce": 0.0019517116015776992,
      "loss_iou": 0.466796875,
      "loss_num": 0.0184326171875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 336257948,
      "step": 2662
    },
    {
      "epoch": 0.683127044186494,
      "grad_norm": 27.82670783996582,
      "learning_rate": 5e-06,
      "loss": 0.9931,
      "num_input_tokens_seen": 336383532,
      "step": 2663
    },
    {
      "epoch": 0.683127044186494,
      "loss": 0.956154465675354,
      "loss_ce": 0.0005880504613742232,
      "loss_iou": 0.44140625,
      "loss_num": 0.0146484375,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 336383532,
      "step": 2663
    },
    {
      "epoch": 0.6833835695504393,
      "grad_norm": 32.34475326538086,
      "learning_rate": 5e-06,
      "loss": 0.9423,
      "num_input_tokens_seen": 336509344,
      "step": 2664
    },
    {
      "epoch": 0.6833835695504393,
      "loss": 0.9320732951164246,
      "loss_ce": 0.004338920582085848,
      "loss_iou": 0.4375,
      "loss_num": 0.01092529296875,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 336509344,
      "step": 2664
    },
    {
      "epoch": 0.6836400949143847,
      "grad_norm": 41.593528747558594,
      "learning_rate": 5e-06,
      "loss": 1.0129,
      "num_input_tokens_seen": 336636124,
      "step": 2665
    },
    {
      "epoch": 0.6836400949143847,
      "loss": 1.1943963766098022,
      "loss_ce": 0.0005486942827701569,
      "loss_iou": 0.53125,
      "loss_num": 0.0263671875,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 336636124,
      "step": 2665
    },
    {
      "epoch": 0.68389662027833,
      "grad_norm": 39.749794006347656,
      "learning_rate": 5e-06,
      "loss": 0.8781,
      "num_input_tokens_seen": 336762276,
      "step": 2666
    },
    {
      "epoch": 0.68389662027833,
      "loss": 0.8173080682754517,
      "loss_ce": 0.0006576706655323505,
      "loss_iou": 0.3828125,
      "loss_num": 0.01031494140625,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 336762276,
      "step": 2666
    },
    {
      "epoch": 0.6841531456422754,
      "grad_norm": 53.206905364990234,
      "learning_rate": 5e-06,
      "loss": 0.9554,
      "num_input_tokens_seen": 336889712,
      "step": 2667
    },
    {
      "epoch": 0.6841531456422754,
      "loss": 0.9869515299797058,
      "loss_ce": 0.002820669673383236,
      "loss_iou": 0.443359375,
      "loss_num": 0.01953125,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 336889712,
      "step": 2667
    },
    {
      "epoch": 0.6844096710062207,
      "grad_norm": 43.915008544921875,
      "learning_rate": 5e-06,
      "loss": 1.0257,
      "num_input_tokens_seen": 337016016,
      "step": 2668
    },
    {
      "epoch": 0.6844096710062207,
      "loss": 0.8745729923248291,
      "loss_ce": 0.001526065170764923,
      "loss_iou": 0.4140625,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 337016016,
      "step": 2668
    },
    {
      "epoch": 0.6846661963701661,
      "grad_norm": 29.643739700317383,
      "learning_rate": 5e-06,
      "loss": 0.9069,
      "num_input_tokens_seen": 337143872,
      "step": 2669
    },
    {
      "epoch": 0.6846661963701661,
      "loss": 0.9747914671897888,
      "loss_ce": 0.0011586518958210945,
      "loss_iou": 0.44921875,
      "loss_num": 0.01519775390625,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 337143872,
      "step": 2669
    },
    {
      "epoch": 0.6849227217341115,
      "grad_norm": 41.910369873046875,
      "learning_rate": 5e-06,
      "loss": 0.9872,
      "num_input_tokens_seen": 337269896,
      "step": 2670
    },
    {
      "epoch": 0.6849227217341115,
      "loss": 1.0998716354370117,
      "loss_ce": 0.0012388963950797915,
      "loss_iou": 0.48828125,
      "loss_num": 0.02490234375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 337269896,
      "step": 2670
    },
    {
      "epoch": 0.6851792470980568,
      "grad_norm": 34.42910385131836,
      "learning_rate": 5e-06,
      "loss": 0.9444,
      "num_input_tokens_seen": 337396240,
      "step": 2671
    },
    {
      "epoch": 0.6851792470980568,
      "loss": 0.8935791254043579,
      "loss_ce": 0.00466315308585763,
      "loss_iou": 0.41015625,
      "loss_num": 0.01397705078125,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 337396240,
      "step": 2671
    },
    {
      "epoch": 0.6854357724620022,
      "grad_norm": 34.492427825927734,
      "learning_rate": 5e-06,
      "loss": 0.9888,
      "num_input_tokens_seen": 337522984,
      "step": 2672
    },
    {
      "epoch": 0.6854357724620022,
      "loss": 0.9644553065299988,
      "loss_ce": 0.004982654936611652,
      "loss_iou": 0.44921875,
      "loss_num": 0.012451171875,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 337522984,
      "step": 2672
    },
    {
      "epoch": 0.6856922978259475,
      "grad_norm": 24.0233097076416,
      "learning_rate": 5e-06,
      "loss": 0.8885,
      "num_input_tokens_seen": 337649404,
      "step": 2673
    },
    {
      "epoch": 0.6856922978259475,
      "loss": 0.9603058695793152,
      "loss_ce": 0.0018098073778674006,
      "loss_iou": 0.4453125,
      "loss_num": 0.01348876953125,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 337649404,
      "step": 2673
    },
    {
      "epoch": 0.6859488231898929,
      "grad_norm": 42.25082015991211,
      "learning_rate": 5e-06,
      "loss": 1.1109,
      "num_input_tokens_seen": 337774848,
      "step": 2674
    },
    {
      "epoch": 0.6859488231898929,
      "loss": 1.2508373260498047,
      "loss_ce": 0.0018139845924451947,
      "loss_iou": 0.56640625,
      "loss_num": 0.02294921875,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 337774848,
      "step": 2674
    },
    {
      "epoch": 0.6862053485538383,
      "grad_norm": 36.796085357666016,
      "learning_rate": 5e-06,
      "loss": 1.0127,
      "num_input_tokens_seen": 337900608,
      "step": 2675
    },
    {
      "epoch": 0.6862053485538383,
      "loss": 0.84504234790802,
      "loss_ce": 7.160591485444456e-05,
      "loss_iou": 0.39453125,
      "loss_num": 0.010986328125,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 337900608,
      "step": 2675
    },
    {
      "epoch": 0.6864618739177836,
      "grad_norm": 50.710540771484375,
      "learning_rate": 5e-06,
      "loss": 0.9681,
      "num_input_tokens_seen": 338027120,
      "step": 2676
    },
    {
      "epoch": 0.6864618739177836,
      "loss": 1.051001787185669,
      "loss_ce": 0.0011971069034188986,
      "loss_iou": 0.466796875,
      "loss_num": 0.0228271484375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 338027120,
      "step": 2676
    },
    {
      "epoch": 0.686718399281729,
      "grad_norm": 41.053321838378906,
      "learning_rate": 5e-06,
      "loss": 1.0076,
      "num_input_tokens_seen": 338152516,
      "step": 2677
    },
    {
      "epoch": 0.686718399281729,
      "loss": 1.1055819988250732,
      "loss_ce": 0.0015782143454998732,
      "loss_iou": 0.5078125,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 338152516,
      "step": 2677
    },
    {
      "epoch": 0.6869749246456743,
      "grad_norm": 25.512685775756836,
      "learning_rate": 5e-06,
      "loss": 0.8785,
      "num_input_tokens_seen": 338278136,
      "step": 2678
    },
    {
      "epoch": 0.6869749246456743,
      "loss": 0.7821996212005615,
      "loss_ce": 0.0002172474196413532,
      "loss_iou": 0.375,
      "loss_num": 0.006622314453125,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 338278136,
      "step": 2678
    },
    {
      "epoch": 0.6872314500096197,
      "grad_norm": 35.911598205566406,
      "learning_rate": 5e-06,
      "loss": 1.0224,
      "num_input_tokens_seen": 338403848,
      "step": 2679
    },
    {
      "epoch": 0.6872314500096197,
      "loss": 1.0616683959960938,
      "loss_ce": 0.0013656590599566698,
      "loss_iou": 0.478515625,
      "loss_num": 0.020263671875,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 338403848,
      "step": 2679
    },
    {
      "epoch": 0.6874879753735651,
      "grad_norm": 77.37936401367188,
      "learning_rate": 5e-06,
      "loss": 1.0095,
      "num_input_tokens_seen": 338530972,
      "step": 2680
    },
    {
      "epoch": 0.6874879753735651,
      "loss": 0.9487123489379883,
      "loss_ce": 0.00047017098404467106,
      "loss_iou": 0.4453125,
      "loss_num": 0.0118408203125,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 338530972,
      "step": 2680
    },
    {
      "epoch": 0.6877445007375104,
      "grad_norm": 42.757564544677734,
      "learning_rate": 5e-06,
      "loss": 0.9868,
      "num_input_tokens_seen": 338656348,
      "step": 2681
    },
    {
      "epoch": 0.6877445007375104,
      "loss": 0.9803095459938049,
      "loss_ce": 0.00032907279091887176,
      "loss_iou": 0.46484375,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 338656348,
      "step": 2681
    },
    {
      "epoch": 0.6880010261014557,
      "grad_norm": 42.65533447265625,
      "learning_rate": 5e-06,
      "loss": 0.7984,
      "num_input_tokens_seen": 338782484,
      "step": 2682
    },
    {
      "epoch": 0.6880010261014557,
      "loss": 0.7567192316055298,
      "loss_ce": 0.0023246773052960634,
      "loss_iou": 0.34765625,
      "loss_num": 0.01165771484375,
      "loss_xval": 0.75390625,
      "num_input_tokens_seen": 338782484,
      "step": 2682
    },
    {
      "epoch": 0.6882575514654011,
      "grad_norm": 58.975624084472656,
      "learning_rate": 5e-06,
      "loss": 0.8581,
      "num_input_tokens_seen": 338909052,
      "step": 2683
    },
    {
      "epoch": 0.6882575514654011,
      "loss": 0.8836138844490051,
      "loss_ce": 6.895825936226174e-05,
      "loss_iou": 0.419921875,
      "loss_num": 0.008544921875,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 338909052,
      "step": 2683
    },
    {
      "epoch": 0.6885140768293465,
      "grad_norm": 51.10431671142578,
      "learning_rate": 5e-06,
      "loss": 0.9764,
      "num_input_tokens_seen": 339035220,
      "step": 2684
    },
    {
      "epoch": 0.6885140768293465,
      "loss": 0.9259170293807983,
      "loss_ce": 0.00013576692435890436,
      "loss_iou": 0.423828125,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 339035220,
      "step": 2684
    },
    {
      "epoch": 0.6887706021932919,
      "grad_norm": 43.108421325683594,
      "learning_rate": 5e-06,
      "loss": 1.0269,
      "num_input_tokens_seen": 339161712,
      "step": 2685
    },
    {
      "epoch": 0.6887706021932919,
      "loss": 1.107222318649292,
      "loss_ce": 0.00688056368380785,
      "loss_iou": 0.48828125,
      "loss_num": 0.0247802734375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 339161712,
      "step": 2685
    },
    {
      "epoch": 0.6890271275572373,
      "grad_norm": 50.314964294433594,
      "learning_rate": 5e-06,
      "loss": 1.0085,
      "num_input_tokens_seen": 339288076,
      "step": 2686
    },
    {
      "epoch": 0.6890271275572373,
      "loss": 1.1594195365905762,
      "loss_ce": 0.0046343812718987465,
      "loss_iou": 0.5078125,
      "loss_num": 0.0283203125,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 339288076,
      "step": 2686
    },
    {
      "epoch": 0.6892836529211825,
      "grad_norm": 73.81104278564453,
      "learning_rate": 5e-06,
      "loss": 0.9643,
      "num_input_tokens_seen": 339414844,
      "step": 2687
    },
    {
      "epoch": 0.6892836529211825,
      "loss": 1.0992200374603271,
      "loss_ce": 0.00449356809258461,
      "loss_iou": 0.48828125,
      "loss_num": 0.0234375,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 339414844,
      "step": 2687
    },
    {
      "epoch": 0.6895401782851279,
      "grad_norm": 54.181095123291016,
      "learning_rate": 5e-06,
      "loss": 1.1201,
      "num_input_tokens_seen": 339541108,
      "step": 2688
    },
    {
      "epoch": 0.6895401782851279,
      "loss": 1.049062728881836,
      "loss_ce": 0.0007228367030620575,
      "loss_iou": 0.494140625,
      "loss_num": 0.01220703125,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 339541108,
      "step": 2688
    },
    {
      "epoch": 0.6897967036490733,
      "grad_norm": 26.643260955810547,
      "learning_rate": 5e-06,
      "loss": 0.8724,
      "num_input_tokens_seen": 339666892,
      "step": 2689
    },
    {
      "epoch": 0.6897967036490733,
      "loss": 0.8100067377090454,
      "loss_ce": 0.0016571050509810448,
      "loss_iou": 0.37890625,
      "loss_num": 0.010498046875,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 339666892,
      "step": 2689
    },
    {
      "epoch": 0.6900532290130187,
      "grad_norm": 30.400203704833984,
      "learning_rate": 5e-06,
      "loss": 0.9468,
      "num_input_tokens_seen": 339793796,
      "step": 2690
    },
    {
      "epoch": 0.6900532290130187,
      "loss": 0.9118818044662476,
      "loss_ce": 0.0012372962664812803,
      "loss_iou": 0.427734375,
      "loss_num": 0.010986328125,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 339793796,
      "step": 2690
    },
    {
      "epoch": 0.6903097543769641,
      "grad_norm": 45.60205841064453,
      "learning_rate": 5e-06,
      "loss": 0.9926,
      "num_input_tokens_seen": 339920916,
      "step": 2691
    },
    {
      "epoch": 0.6903097543769641,
      "loss": 0.9568983316421509,
      "loss_ce": 0.00182017358019948,
      "loss_iou": 0.427734375,
      "loss_num": 0.01953125,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 339920916,
      "step": 2691
    },
    {
      "epoch": 0.6905662797409093,
      "grad_norm": 32.39512252807617,
      "learning_rate": 5e-06,
      "loss": 0.8911,
      "num_input_tokens_seen": 340046044,
      "step": 2692
    },
    {
      "epoch": 0.6905662797409093,
      "loss": 0.8389978408813477,
      "loss_ce": 0.0003747821319848299,
      "loss_iou": 0.40625,
      "loss_num": 0.00506591796875,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 340046044,
      "step": 2692
    },
    {
      "epoch": 0.6908228051048547,
      "grad_norm": 40.34032440185547,
      "learning_rate": 5e-06,
      "loss": 0.9729,
      "num_input_tokens_seen": 340172784,
      "step": 2693
    },
    {
      "epoch": 0.6908228051048547,
      "loss": 0.8655314445495605,
      "loss_ce": 0.0017619330901652575,
      "loss_iou": 0.39453125,
      "loss_num": 0.01513671875,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 340172784,
      "step": 2693
    },
    {
      "epoch": 0.6910793304688001,
      "grad_norm": 38.03837203979492,
      "learning_rate": 5e-06,
      "loss": 1.0056,
      "num_input_tokens_seen": 340297676,
      "step": 2694
    },
    {
      "epoch": 0.6910793304688001,
      "loss": 0.8204924464225769,
      "loss_ce": 0.00017995102098211646,
      "loss_iou": 0.390625,
      "loss_num": 0.0074462890625,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 340297676,
      "step": 2694
    },
    {
      "epoch": 0.6913358558327455,
      "grad_norm": 52.592254638671875,
      "learning_rate": 5e-06,
      "loss": 0.9584,
      "num_input_tokens_seen": 340424468,
      "step": 2695
    },
    {
      "epoch": 0.6913358558327455,
      "loss": 0.932125985622406,
      "loss_ce": 0.0009736352949403226,
      "loss_iou": 0.4296875,
      "loss_num": 0.01416015625,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 340424468,
      "step": 2695
    },
    {
      "epoch": 0.6915923811966909,
      "grad_norm": 68.29264068603516,
      "learning_rate": 5e-06,
      "loss": 0.8313,
      "num_input_tokens_seen": 340550840,
      "step": 2696
    },
    {
      "epoch": 0.6915923811966909,
      "loss": 1.0239650011062622,
      "loss_ce": 0.003457213519141078,
      "loss_iou": 0.474609375,
      "loss_num": 0.01446533203125,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 340550840,
      "step": 2696
    },
    {
      "epoch": 0.6918489065606361,
      "grad_norm": 48.940948486328125,
      "learning_rate": 5e-06,
      "loss": 1.0045,
      "num_input_tokens_seen": 340677096,
      "step": 2697
    },
    {
      "epoch": 0.6918489065606361,
      "loss": 0.881516695022583,
      "loss_ce": 0.0006573515711352229,
      "loss_iou": 0.41015625,
      "loss_num": 0.01171875,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 340677096,
      "step": 2697
    },
    {
      "epoch": 0.6921054319245815,
      "grad_norm": 38.74660110473633,
      "learning_rate": 5e-06,
      "loss": 0.9172,
      "num_input_tokens_seen": 340803316,
      "step": 2698
    },
    {
      "epoch": 0.6921054319245815,
      "loss": 1.0077579021453857,
      "loss_ce": 0.0009219619678333402,
      "loss_iou": 0.4765625,
      "loss_num": 0.01019287109375,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 340803316,
      "step": 2698
    },
    {
      "epoch": 0.6923619572885269,
      "grad_norm": 54.396278381347656,
      "learning_rate": 5e-06,
      "loss": 1.0235,
      "num_input_tokens_seen": 340929376,
      "step": 2699
    },
    {
      "epoch": 0.6923619572885269,
      "loss": 1.018249750137329,
      "loss_ce": 0.0006715651834383607,
      "loss_iou": 0.466796875,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 340929376,
      "step": 2699
    },
    {
      "epoch": 0.6926184826524723,
      "grad_norm": 70.2328109741211,
      "learning_rate": 5e-06,
      "loss": 0.988,
      "num_input_tokens_seen": 341055360,
      "step": 2700
    },
    {
      "epoch": 0.6926184826524723,
      "loss": 0.9376966953277588,
      "loss_ce": 0.0001966974523384124,
      "loss_iou": 0.431640625,
      "loss_num": 0.01470947265625,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 341055360,
      "step": 2700
    },
    {
      "epoch": 0.6928750080164177,
      "grad_norm": 51.26341247558594,
      "learning_rate": 5e-06,
      "loss": 0.901,
      "num_input_tokens_seen": 341181828,
      "step": 2701
    },
    {
      "epoch": 0.6928750080164177,
      "loss": 0.8426923155784607,
      "loss_ce": 0.002360300859436393,
      "loss_iou": 0.40234375,
      "loss_num": 0.007232666015625,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 341181828,
      "step": 2701
    },
    {
      "epoch": 0.6931315333803629,
      "grad_norm": 60.08789825439453,
      "learning_rate": 5e-06,
      "loss": 0.9972,
      "num_input_tokens_seen": 341306808,
      "step": 2702
    },
    {
      "epoch": 0.6931315333803629,
      "loss": 0.8673467636108398,
      "loss_ce": 0.001135853584855795,
      "loss_iou": 0.400390625,
      "loss_num": 0.01300048828125,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 341306808,
      "step": 2702
    },
    {
      "epoch": 0.6933880587443083,
      "grad_norm": 52.51971435546875,
      "learning_rate": 5e-06,
      "loss": 1.1221,
      "num_input_tokens_seen": 341433696,
      "step": 2703
    },
    {
      "epoch": 0.6933880587443083,
      "loss": 0.8270750045776367,
      "loss_ce": 0.0004148438456468284,
      "loss_iou": 0.396484375,
      "loss_num": 0.00701904296875,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 341433696,
      "step": 2703
    },
    {
      "epoch": 0.6936445841082537,
      "grad_norm": 67.77469635009766,
      "learning_rate": 5e-06,
      "loss": 0.9738,
      "num_input_tokens_seen": 341559752,
      "step": 2704
    },
    {
      "epoch": 0.6936445841082537,
      "loss": 0.8000087738037109,
      "loss_ce": 0.001180693507194519,
      "loss_iou": 0.380859375,
      "loss_num": 0.00762939453125,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 341559752,
      "step": 2704
    },
    {
      "epoch": 0.6939011094721991,
      "grad_norm": 46.74452590942383,
      "learning_rate": 5e-06,
      "loss": 1.0463,
      "num_input_tokens_seen": 341685812,
      "step": 2705
    },
    {
      "epoch": 0.6939011094721991,
      "loss": 0.964853048324585,
      "loss_ce": 0.004647955764085054,
      "loss_iou": 0.443359375,
      "loss_num": 0.01483154296875,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 341685812,
      "step": 2705
    },
    {
      "epoch": 0.6941576348361445,
      "grad_norm": 24.56528091430664,
      "learning_rate": 5e-06,
      "loss": 0.9229,
      "num_input_tokens_seen": 341810548,
      "step": 2706
    },
    {
      "epoch": 0.6941576348361445,
      "loss": 0.9695167541503906,
      "loss_ce": 0.004184698220342398,
      "loss_iou": 0.43359375,
      "loss_num": 0.01953125,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 341810548,
      "step": 2706
    },
    {
      "epoch": 0.6944141602000898,
      "grad_norm": 36.977413177490234,
      "learning_rate": 5e-06,
      "loss": 0.8667,
      "num_input_tokens_seen": 341937488,
      "step": 2707
    },
    {
      "epoch": 0.6944141602000898,
      "loss": 0.8739184141159058,
      "loss_ce": 0.0008715341100469232,
      "loss_iou": 0.4140625,
      "loss_num": 0.0087890625,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 341937488,
      "step": 2707
    },
    {
      "epoch": 0.6946706855640351,
      "grad_norm": 59.94297790527344,
      "learning_rate": 5e-06,
      "loss": 0.9319,
      "num_input_tokens_seen": 342064388,
      "step": 2708
    },
    {
      "epoch": 0.6946706855640351,
      "loss": 0.9138249158859253,
      "loss_ce": 0.0012272614985704422,
      "loss_iou": 0.42578125,
      "loss_num": 0.01220703125,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 342064388,
      "step": 2708
    },
    {
      "epoch": 0.6949272109279805,
      "grad_norm": 43.3054084777832,
      "learning_rate": 5e-06,
      "loss": 0.9617,
      "num_input_tokens_seen": 342191664,
      "step": 2709
    },
    {
      "epoch": 0.6949272109279805,
      "loss": 1.0077342987060547,
      "loss_ce": 0.0004100327496416867,
      "loss_iou": 0.466796875,
      "loss_num": 0.01483154296875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 342191664,
      "step": 2709
    },
    {
      "epoch": 0.6951837362919259,
      "grad_norm": 43.03889465332031,
      "learning_rate": 5e-06,
      "loss": 0.854,
      "num_input_tokens_seen": 342317860,
      "step": 2710
    },
    {
      "epoch": 0.6951837362919259,
      "loss": 0.580342710018158,
      "loss_ce": 0.0009970084065571427,
      "loss_iou": 0.27734375,
      "loss_num": 0.004730224609375,
      "loss_xval": 0.578125,
      "num_input_tokens_seen": 342317860,
      "step": 2710
    },
    {
      "epoch": 0.6954402616558713,
      "grad_norm": 61.31053161621094,
      "learning_rate": 5e-06,
      "loss": 0.9481,
      "num_input_tokens_seen": 342443800,
      "step": 2711
    },
    {
      "epoch": 0.6954402616558713,
      "loss": 0.8608295917510986,
      "loss_ce": 0.0004779960436280817,
      "loss_iou": 0.3984375,
      "loss_num": 0.01312255859375,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 342443800,
      "step": 2711
    },
    {
      "epoch": 0.6956967870198166,
      "grad_norm": 70.694091796875,
      "learning_rate": 5e-06,
      "loss": 1.0076,
      "num_input_tokens_seen": 342571276,
      "step": 2712
    },
    {
      "epoch": 0.6956967870198166,
      "loss": 0.9104338884353638,
      "loss_ce": 0.0022307434119284153,
      "loss_iou": 0.427734375,
      "loss_num": 0.010498046875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 342571276,
      "step": 2712
    },
    {
      "epoch": 0.6959533123837619,
      "grad_norm": 44.73869323730469,
      "learning_rate": 5e-06,
      "loss": 1.1443,
      "num_input_tokens_seen": 342697340,
      "step": 2713
    },
    {
      "epoch": 0.6959533123837619,
      "loss": 0.7460817098617554,
      "loss_ce": 0.00023210421204566956,
      "loss_iou": 0.361328125,
      "loss_num": 0.005096435546875,
      "loss_xval": 0.74609375,
      "num_input_tokens_seen": 342697340,
      "step": 2713
    },
    {
      "epoch": 0.6962098377477073,
      "grad_norm": 27.575767517089844,
      "learning_rate": 5e-06,
      "loss": 0.9685,
      "num_input_tokens_seen": 342823164,
      "step": 2714
    },
    {
      "epoch": 0.6962098377477073,
      "loss": 0.9147521257400513,
      "loss_ce": 0.002398640615865588,
      "loss_iou": 0.419921875,
      "loss_num": 0.0145263671875,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 342823164,
      "step": 2714
    },
    {
      "epoch": 0.6964663631116527,
      "grad_norm": 20.031452178955078,
      "learning_rate": 5e-06,
      "loss": 0.9287,
      "num_input_tokens_seen": 342949252,
      "step": 2715
    },
    {
      "epoch": 0.6964663631116527,
      "loss": 1.0050671100616455,
      "loss_ce": 0.0011608228087425232,
      "loss_iou": 0.443359375,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 342949252,
      "step": 2715
    },
    {
      "epoch": 0.696722888475598,
      "grad_norm": 46.31381607055664,
      "learning_rate": 5e-06,
      "loss": 0.8859,
      "num_input_tokens_seen": 343075168,
      "step": 2716
    },
    {
      "epoch": 0.696722888475598,
      "loss": 0.8170726299285889,
      "loss_ce": 0.002131205517798662,
      "loss_iou": 0.37890625,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 343075168,
      "step": 2716
    },
    {
      "epoch": 0.6969794138395434,
      "grad_norm": 30.96465492248535,
      "learning_rate": 5e-06,
      "loss": 0.9029,
      "num_input_tokens_seen": 343200668,
      "step": 2717
    },
    {
      "epoch": 0.6969794138395434,
      "loss": 0.8198245763778687,
      "loss_ce": 0.004639067221432924,
      "loss_iou": 0.3828125,
      "loss_num": 0.00970458984375,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 343200668,
      "step": 2717
    },
    {
      "epoch": 0.6972359392034887,
      "grad_norm": 27.06302261352539,
      "learning_rate": 5e-06,
      "loss": 0.8512,
      "num_input_tokens_seen": 343326740,
      "step": 2718
    },
    {
      "epoch": 0.6972359392034887,
      "loss": 0.8156639337539673,
      "loss_ce": 0.0009666308760643005,
      "loss_iou": 0.390625,
      "loss_num": 0.006622314453125,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 343326740,
      "step": 2718
    },
    {
      "epoch": 0.6974924645674341,
      "grad_norm": 56.046234130859375,
      "learning_rate": 5e-06,
      "loss": 1.0681,
      "num_input_tokens_seen": 343453308,
      "step": 2719
    },
    {
      "epoch": 0.6974924645674341,
      "loss": 1.1742287874221802,
      "loss_ce": 0.0008889258606359363,
      "loss_iou": 0.5390625,
      "loss_num": 0.019775390625,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 343453308,
      "step": 2719
    },
    {
      "epoch": 0.6977489899313795,
      "grad_norm": 50.78541946411133,
      "learning_rate": 5e-06,
      "loss": 1.0008,
      "num_input_tokens_seen": 343580252,
      "step": 2720
    },
    {
      "epoch": 0.6977489899313795,
      "loss": 0.8661501407623291,
      "loss_ce": 0.0004274618113413453,
      "loss_iou": 0.412109375,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 343580252,
      "step": 2720
    },
    {
      "epoch": 0.6980055152953248,
      "grad_norm": 29.01540756225586,
      "learning_rate": 5e-06,
      "loss": 0.9604,
      "num_input_tokens_seen": 343707200,
      "step": 2721
    },
    {
      "epoch": 0.6980055152953248,
      "loss": 1.0122689008712769,
      "loss_ce": 0.003479864913970232,
      "loss_iou": 0.43359375,
      "loss_num": 0.0281982421875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 343707200,
      "step": 2721
    },
    {
      "epoch": 0.6982620406592702,
      "grad_norm": 27.238037109375,
      "learning_rate": 5e-06,
      "loss": 0.9249,
      "num_input_tokens_seen": 343832400,
      "step": 2722
    },
    {
      "epoch": 0.6982620406592702,
      "loss": 1.0170339345932007,
      "loss_ce": 0.0001882256183307618,
      "loss_iou": 0.462890625,
      "loss_num": 0.01806640625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 343832400,
      "step": 2722
    },
    {
      "epoch": 0.6985185660232155,
      "grad_norm": 46.13434600830078,
      "learning_rate": 5e-06,
      "loss": 0.9796,
      "num_input_tokens_seen": 343958812,
      "step": 2723
    },
    {
      "epoch": 0.6985185660232155,
      "loss": 0.9416297674179077,
      "loss_ce": 0.00022354410612024367,
      "loss_iou": 0.431640625,
      "loss_num": 0.0155029296875,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 343958812,
      "step": 2723
    },
    {
      "epoch": 0.6987750913871609,
      "grad_norm": 48.49302673339844,
      "learning_rate": 5e-06,
      "loss": 0.9929,
      "num_input_tokens_seen": 344085444,
      "step": 2724
    },
    {
      "epoch": 0.6987750913871609,
      "loss": 0.9323444366455078,
      "loss_ce": 0.0007038245094008744,
      "loss_iou": 0.423828125,
      "loss_num": 0.016845703125,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 344085444,
      "step": 2724
    },
    {
      "epoch": 0.6990316167511063,
      "grad_norm": 36.19751739501953,
      "learning_rate": 5e-06,
      "loss": 0.9032,
      "num_input_tokens_seen": 344209756,
      "step": 2725
    },
    {
      "epoch": 0.6990316167511063,
      "loss": 1.071138620376587,
      "loss_ce": 0.003755764337256551,
      "loss_iou": 0.4921875,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 344209756,
      "step": 2725
    },
    {
      "epoch": 0.6992881421150516,
      "grad_norm": 49.690773010253906,
      "learning_rate": 5e-06,
      "loss": 0.9939,
      "num_input_tokens_seen": 344335968,
      "step": 2726
    },
    {
      "epoch": 0.6992881421150516,
      "loss": 0.7603789567947388,
      "loss_ce": 0.0001250756613444537,
      "loss_iou": 0.36328125,
      "loss_num": 0.006317138671875,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 344335968,
      "step": 2726
    },
    {
      "epoch": 0.699544667478997,
      "grad_norm": 42.81621170043945,
      "learning_rate": 5e-06,
      "loss": 0.9928,
      "num_input_tokens_seen": 344460832,
      "step": 2727
    },
    {
      "epoch": 0.699544667478997,
      "loss": 0.8613684177398682,
      "loss_ce": 0.0007726994226686656,
      "loss_iou": 0.404296875,
      "loss_num": 0.0101318359375,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 344460832,
      "step": 2727
    },
    {
      "epoch": 0.6998011928429424,
      "grad_norm": 38.60797119140625,
      "learning_rate": 5e-06,
      "loss": 0.9436,
      "num_input_tokens_seen": 344586736,
      "step": 2728
    },
    {
      "epoch": 0.6998011928429424,
      "loss": 1.0093849897384644,
      "loss_ce": 0.0010842228075489402,
      "loss_iou": 0.46484375,
      "loss_num": 0.01556396484375,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 344586736,
      "step": 2728
    },
    {
      "epoch": 0.7000577182068877,
      "grad_norm": 48.785133361816406,
      "learning_rate": 5e-06,
      "loss": 1.0519,
      "num_input_tokens_seen": 344714164,
      "step": 2729
    },
    {
      "epoch": 0.7000577182068877,
      "loss": 1.0924474000930786,
      "loss_ce": 0.001382911577820778,
      "loss_iou": 0.48046875,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 344714164,
      "step": 2729
    },
    {
      "epoch": 0.700314243570833,
      "grad_norm": 51.45332717895508,
      "learning_rate": 5e-06,
      "loss": 0.9612,
      "num_input_tokens_seen": 344839424,
      "step": 2730
    },
    {
      "epoch": 0.700314243570833,
      "loss": 1.1332001686096191,
      "loss_ce": 0.000875901139806956,
      "loss_iou": 0.51953125,
      "loss_num": 0.0177001953125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 344839424,
      "step": 2730
    },
    {
      "epoch": 0.7005707689347784,
      "grad_norm": 56.605979919433594,
      "learning_rate": 5e-06,
      "loss": 0.9612,
      "num_input_tokens_seen": 344966432,
      "step": 2731
    },
    {
      "epoch": 0.7005707689347784,
      "loss": 0.680854082107544,
      "loss_ce": 0.0006783228600397706,
      "loss_iou": 0.32421875,
      "loss_num": 0.006500244140625,
      "loss_xval": 0.6796875,
      "num_input_tokens_seen": 344966432,
      "step": 2731
    },
    {
      "epoch": 0.7008272942987238,
      "grad_norm": 59.15030288696289,
      "learning_rate": 5e-06,
      "loss": 1.0101,
      "num_input_tokens_seen": 345092688,
      "step": 2732
    },
    {
      "epoch": 0.7008272942987238,
      "loss": 1.1291640996932983,
      "loss_ce": 0.001234367024153471,
      "loss_iou": 0.5,
      "loss_num": 0.025634765625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 345092688,
      "step": 2732
    },
    {
      "epoch": 0.7010838196626692,
      "grad_norm": 54.446998596191406,
      "learning_rate": 5e-06,
      "loss": 1.0027,
      "num_input_tokens_seen": 345218600,
      "step": 2733
    },
    {
      "epoch": 0.7010838196626692,
      "loss": 0.974226713180542,
      "loss_ce": 0.0010821908945217729,
      "loss_iou": 0.453125,
      "loss_num": 0.01373291015625,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 345218600,
      "step": 2733
    },
    {
      "epoch": 0.7013403450266145,
      "grad_norm": 47.244693756103516,
      "learning_rate": 5e-06,
      "loss": 0.9379,
      "num_input_tokens_seen": 345344412,
      "step": 2734
    },
    {
      "epoch": 0.7013403450266145,
      "loss": 0.7605173587799072,
      "loss_ce": 0.00612280610948801,
      "loss_iou": 0.3359375,
      "loss_num": 0.0167236328125,
      "loss_xval": 0.75390625,
      "num_input_tokens_seen": 345344412,
      "step": 2734
    },
    {
      "epoch": 0.7015968703905598,
      "grad_norm": 52.274749755859375,
      "learning_rate": 5e-06,
      "loss": 0.9242,
      "num_input_tokens_seen": 345471132,
      "step": 2735
    },
    {
      "epoch": 0.7015968703905598,
      "loss": 0.9396077394485474,
      "loss_ce": 0.0011311790440231562,
      "loss_iou": 0.44140625,
      "loss_num": 0.010986328125,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 345471132,
      "step": 2735
    },
    {
      "epoch": 0.7018533957545052,
      "grad_norm": 52.662445068359375,
      "learning_rate": 5e-06,
      "loss": 0.8902,
      "num_input_tokens_seen": 345597072,
      "step": 2736
    },
    {
      "epoch": 0.7018533957545052,
      "loss": 0.9931719899177551,
      "loss_ce": 0.001961018657311797,
      "loss_iou": 0.466796875,
      "loss_num": 0.01123046875,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 345597072,
      "step": 2736
    },
    {
      "epoch": 0.7021099211184506,
      "grad_norm": 43.66284942626953,
      "learning_rate": 5e-06,
      "loss": 0.8943,
      "num_input_tokens_seen": 345722988,
      "step": 2737
    },
    {
      "epoch": 0.7021099211184506,
      "loss": 0.9050257205963135,
      "loss_ce": 0.0004846805240958929,
      "loss_iou": 0.423828125,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 345722988,
      "step": 2737
    },
    {
      "epoch": 0.702366446482396,
      "grad_norm": 40.173011779785156,
      "learning_rate": 5e-06,
      "loss": 1.0511,
      "num_input_tokens_seen": 345848864,
      "step": 2738
    },
    {
      "epoch": 0.702366446482396,
      "loss": 1.1606736183166504,
      "loss_ce": 0.0014939035754650831,
      "loss_iou": 0.53125,
      "loss_num": 0.020263671875,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 345848864,
      "step": 2738
    },
    {
      "epoch": 0.7026229718463413,
      "grad_norm": 44.485721588134766,
      "learning_rate": 5e-06,
      "loss": 0.9568,
      "num_input_tokens_seen": 345975356,
      "step": 2739
    },
    {
      "epoch": 0.7026229718463413,
      "loss": 0.9853274822235107,
      "loss_ce": 0.0029056090861558914,
      "loss_iou": 0.45703125,
      "loss_num": 0.01336669921875,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 345975356,
      "step": 2739
    },
    {
      "epoch": 0.7028794972102866,
      "grad_norm": 47.67707061767578,
      "learning_rate": 5e-06,
      "loss": 0.9212,
      "num_input_tokens_seen": 346101964,
      "step": 2740
    },
    {
      "epoch": 0.7028794972102866,
      "loss": 0.9242393374443054,
      "loss_ce": 0.00041123118717223406,
      "loss_iou": 0.43359375,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 346101964,
      "step": 2740
    },
    {
      "epoch": 0.703136022574232,
      "grad_norm": 59.65712356567383,
      "learning_rate": 5e-06,
      "loss": 1.0614,
      "num_input_tokens_seen": 346228932,
      "step": 2741
    },
    {
      "epoch": 0.703136022574232,
      "loss": 1.0530009269714355,
      "loss_ce": 0.003196177538484335,
      "loss_iou": 0.482421875,
      "loss_num": 0.01708984375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 346228932,
      "step": 2741
    },
    {
      "epoch": 0.7033925479381774,
      "grad_norm": 73.4288558959961,
      "learning_rate": 5e-06,
      "loss": 0.9609,
      "num_input_tokens_seen": 346354428,
      "step": 2742
    },
    {
      "epoch": 0.7033925479381774,
      "loss": 0.8972429633140564,
      "loss_ce": 0.00027029725606553257,
      "loss_iou": 0.41796875,
      "loss_num": 0.01239013671875,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 346354428,
      "step": 2742
    },
    {
      "epoch": 0.7036490733021228,
      "grad_norm": 52.2337646484375,
      "learning_rate": 5e-06,
      "loss": 1.0075,
      "num_input_tokens_seen": 346481648,
      "step": 2743
    },
    {
      "epoch": 0.7036490733021228,
      "loss": 0.996415376663208,
      "loss_ce": 0.000321689760312438,
      "loss_iou": 0.466796875,
      "loss_num": 0.0125732421875,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 346481648,
      "step": 2743
    },
    {
      "epoch": 0.703905598666068,
      "grad_norm": 70.82198333740234,
      "learning_rate": 5e-06,
      "loss": 0.8422,
      "num_input_tokens_seen": 346608712,
      "step": 2744
    },
    {
      "epoch": 0.703905598666068,
      "loss": 0.8751461505889893,
      "loss_ce": 0.0006344427238218486,
      "loss_iou": 0.4140625,
      "loss_num": 0.009765625,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 346608712,
      "step": 2744
    },
    {
      "epoch": 0.7041621240300134,
      "grad_norm": 47.04059982299805,
      "learning_rate": 5e-06,
      "loss": 0.9012,
      "num_input_tokens_seen": 346734952,
      "step": 2745
    },
    {
      "epoch": 0.7041621240300134,
      "loss": 0.8897431492805481,
      "loss_ce": 0.0005829878500662744,
      "loss_iou": 0.408203125,
      "loss_num": 0.014404296875,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 346734952,
      "step": 2745
    },
    {
      "epoch": 0.7044186493939588,
      "grad_norm": 38.32073211669922,
      "learning_rate": 5e-06,
      "loss": 0.9106,
      "num_input_tokens_seen": 346861996,
      "step": 2746
    },
    {
      "epoch": 0.7044186493939588,
      "loss": 0.9947875142097473,
      "loss_ce": 0.0006469347281381488,
      "loss_iou": 0.4609375,
      "loss_num": 0.0146484375,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 346861996,
      "step": 2746
    },
    {
      "epoch": 0.7046751747579042,
      "grad_norm": 42.436500549316406,
      "learning_rate": 5e-06,
      "loss": 0.9792,
      "num_input_tokens_seen": 346988088,
      "step": 2747
    },
    {
      "epoch": 0.7046751747579042,
      "loss": 1.012819766998291,
      "loss_ce": 0.0011009767185896635,
      "loss_iou": 0.470703125,
      "loss_num": 0.014404296875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 346988088,
      "step": 2747
    },
    {
      "epoch": 0.7049317001218496,
      "grad_norm": 55.620479583740234,
      "learning_rate": 5e-06,
      "loss": 0.9742,
      "num_input_tokens_seen": 347115828,
      "step": 2748
    },
    {
      "epoch": 0.7049317001218496,
      "loss": 0.902011513710022,
      "loss_ce": 0.00015605230873916298,
      "loss_iou": 0.421875,
      "loss_num": 0.0120849609375,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 347115828,
      "step": 2748
    },
    {
      "epoch": 0.705188225485795,
      "grad_norm": 57.51042175292969,
      "learning_rate": 5e-06,
      "loss": 0.9742,
      "num_input_tokens_seen": 347242860,
      "step": 2749
    },
    {
      "epoch": 0.705188225485795,
      "loss": 0.9435006380081177,
      "loss_ce": 0.00404755724593997,
      "loss_iou": 0.44140625,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 347242860,
      "step": 2749
    },
    {
      "epoch": 0.7054447508497402,
      "grad_norm": 52.022430419921875,
      "learning_rate": 5e-06,
      "loss": 1.1115,
      "num_input_tokens_seen": 347370100,
      "step": 2750
    },
    {
      "epoch": 0.7054447508497402,
      "eval_icons_CIoU": 0.18221151363104582,
      "eval_icons_GIoU": 0.1368772443383932,
      "eval_icons_IoU": 0.38818876445293427,
      "eval_icons_MAE_all": 0.030386446975171566,
      "eval_icons_MAE_h": 0.049249306321144104,
      "eval_icons_MAE_w": 0.05771993286907673,
      "eval_icons_MAE_x_boxes": 0.05737135373055935,
      "eval_icons_MAE_y_boxes": 0.0471673384308815,
      "eval_icons_NUM_probability": 0.9998241066932678,
      "eval_icons_inside_bbox": 0.6840277910232544,
      "eval_icons_loss": 1.771482229232788,
      "eval_icons_loss_ce": 0.00019089464331045747,
      "eval_icons_loss_iou": 0.7828369140625,
      "eval_icons_loss_num": 0.02957916259765625,
      "eval_icons_loss_xval": 1.713623046875,
      "eval_icons_runtime": 45.2576,
      "eval_icons_samples_per_second": 1.105,
      "eval_icons_steps_per_second": 0.044,
      "num_input_tokens_seen": 347370100,
      "step": 2750
    },
    {
      "epoch": 0.7054447508497402,
      "eval_screenspot_CIoU": 0.10589539259672165,
      "eval_screenspot_GIoU": 0.09083433945973714,
      "eval_screenspot_IoU": 0.27689432601133984,
      "eval_screenspot_MAE_all": 0.0770096021393935,
      "eval_screenspot_MAE_h": 0.0668790986140569,
      "eval_screenspot_MAE_w": 0.12235869218905766,
      "eval_screenspot_MAE_x_boxes": 0.1048525075117747,
      "eval_screenspot_MAE_y_boxes": 0.054055714358886085,
      "eval_screenspot_NUM_probability": 0.9999255339304606,
      "eval_screenspot_inside_bbox": 0.5674999952316284,
      "eval_screenspot_loss": 2.2556326389312744,
      "eval_screenspot_loss_ce": 0.0011050066289802392,
      "eval_screenspot_loss_iou": 0.9358723958333334,
      "eval_screenspot_loss_num": 0.0831298828125,
      "eval_screenspot_loss_xval": 2.2884114583333335,
      "eval_screenspot_runtime": 78.1765,
      "eval_screenspot_samples_per_second": 1.138,
      "eval_screenspot_steps_per_second": 0.038,
      "num_input_tokens_seen": 347370100,
      "step": 2750
    },
    {
      "epoch": 0.7054447508497402,
      "loss": 2.2458667755126953,
      "loss_ce": 0.0007495533209294081,
      "loss_iou": 0.93359375,
      "loss_num": 0.0751953125,
      "loss_xval": 2.25,
      "num_input_tokens_seen": 347370100,
      "step": 2750
    },
    {
      "epoch": 0.7057012762136856,
      "grad_norm": 56.50239562988281,
      "learning_rate": 5e-06,
      "loss": 1.0143,
      "num_input_tokens_seen": 347495844,
      "step": 2751
    },
    {
      "epoch": 0.7057012762136856,
      "loss": 1.1214866638183594,
      "loss_ce": 0.0028343352023512125,
      "loss_iou": 0.5078125,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 347495844,
      "step": 2751
    },
    {
      "epoch": 0.705957801577631,
      "grad_norm": 33.508575439453125,
      "learning_rate": 5e-06,
      "loss": 1.009,
      "num_input_tokens_seen": 347621700,
      "step": 2752
    },
    {
      "epoch": 0.705957801577631,
      "loss": 0.8885220289230347,
      "loss_ce": 0.0030239580664783716,
      "loss_iou": 0.388671875,
      "loss_num": 0.021240234375,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 347621700,
      "step": 2752
    },
    {
      "epoch": 0.7062143269415764,
      "grad_norm": 24.315092086791992,
      "learning_rate": 5e-06,
      "loss": 0.8856,
      "num_input_tokens_seen": 347748220,
      "step": 2753
    },
    {
      "epoch": 0.7062143269415764,
      "loss": 1.0310553312301636,
      "loss_ce": 0.00029359152540564537,
      "loss_iou": 0.48046875,
      "loss_num": 0.01409912109375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 347748220,
      "step": 2753
    },
    {
      "epoch": 0.7064708523055218,
      "grad_norm": 24.774351119995117,
      "learning_rate": 5e-06,
      "loss": 1.0362,
      "num_input_tokens_seen": 347874724,
      "step": 2754
    },
    {
      "epoch": 0.7064708523055218,
      "loss": 0.9249798059463501,
      "loss_ce": 0.0011517030652612448,
      "loss_iou": 0.4296875,
      "loss_num": 0.01263427734375,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 347874724,
      "step": 2754
    },
    {
      "epoch": 0.706727377669467,
      "grad_norm": 23.18147850036621,
      "learning_rate": 5e-06,
      "loss": 0.8126,
      "num_input_tokens_seen": 348001268,
      "step": 2755
    },
    {
      "epoch": 0.706727377669467,
      "loss": 0.8833861351013184,
      "loss_ce": 0.0049681575037539005,
      "loss_iou": 0.400390625,
      "loss_num": 0.015380859375,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 348001268,
      "step": 2755
    },
    {
      "epoch": 0.7069839030334124,
      "grad_norm": 33.20205307006836,
      "learning_rate": 5e-06,
      "loss": 0.9715,
      "num_input_tokens_seen": 348127100,
      "step": 2756
    },
    {
      "epoch": 0.7069839030334124,
      "loss": 0.9705176949501038,
      "loss_ce": 0.0012794225476682186,
      "loss_iou": 0.44921875,
      "loss_num": 0.0142822265625,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 348127100,
      "step": 2756
    },
    {
      "epoch": 0.7072404283973578,
      "grad_norm": 39.273651123046875,
      "learning_rate": 5e-06,
      "loss": 0.845,
      "num_input_tokens_seen": 348253460,
      "step": 2757
    },
    {
      "epoch": 0.7072404283973578,
      "loss": 0.881648063659668,
      "loss_ce": 0.0015211014542728662,
      "loss_iou": 0.40234375,
      "loss_num": 0.01483154296875,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 348253460,
      "step": 2757
    },
    {
      "epoch": 0.7074969537613032,
      "grad_norm": 43.06827926635742,
      "learning_rate": 5e-06,
      "loss": 0.8867,
      "num_input_tokens_seen": 348378712,
      "step": 2758
    },
    {
      "epoch": 0.7074969537613032,
      "loss": 0.9092092514038086,
      "loss_ce": 0.0005179053987376392,
      "loss_iou": 0.427734375,
      "loss_num": 0.0106201171875,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 348378712,
      "step": 2758
    },
    {
      "epoch": 0.7077534791252486,
      "grad_norm": 54.80629348754883,
      "learning_rate": 5e-06,
      "loss": 1.0831,
      "num_input_tokens_seen": 348503928,
      "step": 2759
    },
    {
      "epoch": 0.7077534791252486,
      "loss": 0.9923757314682007,
      "loss_ce": 0.004094492178410292,
      "loss_iou": 0.43359375,
      "loss_num": 0.02392578125,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 348503928,
      "step": 2759
    },
    {
      "epoch": 0.7080100044891938,
      "grad_norm": 61.461116790771484,
      "learning_rate": 5e-06,
      "loss": 0.947,
      "num_input_tokens_seen": 348631084,
      "step": 2760
    },
    {
      "epoch": 0.7080100044891938,
      "loss": 0.9746453762054443,
      "loss_ce": 0.0021112486720085144,
      "loss_iou": 0.443359375,
      "loss_num": 0.01708984375,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 348631084,
      "step": 2760
    },
    {
      "epoch": 0.7082665298531392,
      "grad_norm": 60.19892883300781,
      "learning_rate": 5e-06,
      "loss": 0.8887,
      "num_input_tokens_seen": 348757784,
      "step": 2761
    },
    {
      "epoch": 0.7082665298531392,
      "loss": 0.7793081402778625,
      "loss_ce": 0.0014761117054149508,
      "loss_iou": 0.369140625,
      "loss_num": 0.0079345703125,
      "loss_xval": 0.77734375,
      "num_input_tokens_seen": 348757784,
      "step": 2761
    },
    {
      "epoch": 0.7085230552170846,
      "grad_norm": 53.89301300048828,
      "learning_rate": 5e-06,
      "loss": 0.8104,
      "num_input_tokens_seen": 348884572,
      "step": 2762
    },
    {
      "epoch": 0.7085230552170846,
      "loss": 0.8208542466163635,
      "loss_ce": 0.0002975719980895519,
      "loss_iou": 0.388671875,
      "loss_num": 0.00897216796875,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 348884572,
      "step": 2762
    },
    {
      "epoch": 0.70877958058103,
      "grad_norm": 50.10633850097656,
      "learning_rate": 5e-06,
      "loss": 1.0352,
      "num_input_tokens_seen": 349009984,
      "step": 2763
    },
    {
      "epoch": 0.70877958058103,
      "loss": 1.0226970911026,
      "loss_ce": 0.0026775544974952936,
      "loss_iou": 0.474609375,
      "loss_num": 0.01422119140625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 349009984,
      "step": 2763
    },
    {
      "epoch": 0.7090361059449753,
      "grad_norm": 34.07736587524414,
      "learning_rate": 5e-06,
      "loss": 0.9485,
      "num_input_tokens_seen": 349137032,
      "step": 2764
    },
    {
      "epoch": 0.7090361059449753,
      "loss": 0.9381955862045288,
      "loss_ce": 0.00020727534138131887,
      "loss_iou": 0.42578125,
      "loss_num": 0.0167236328125,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 349137032,
      "step": 2764
    },
    {
      "epoch": 0.7092926313089206,
      "grad_norm": 83.81598663330078,
      "learning_rate": 5e-06,
      "loss": 0.8864,
      "num_input_tokens_seen": 349263400,
      "step": 2765
    },
    {
      "epoch": 0.7092926313089206,
      "loss": 0.9453906416893005,
      "loss_ce": 0.0015429839259013534,
      "loss_iou": 0.43359375,
      "loss_num": 0.015625,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 349263400,
      "step": 2765
    },
    {
      "epoch": 0.709549156672866,
      "grad_norm": 65.54422760009766,
      "learning_rate": 5e-06,
      "loss": 0.9968,
      "num_input_tokens_seen": 349389204,
      "step": 2766
    },
    {
      "epoch": 0.709549156672866,
      "loss": 0.8402853012084961,
      "loss_ce": 0.0004415850853547454,
      "loss_iou": 0.400390625,
      "loss_num": 0.00738525390625,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 349389204,
      "step": 2766
    },
    {
      "epoch": 0.7098056820368114,
      "grad_norm": 50.178218841552734,
      "learning_rate": 5e-06,
      "loss": 0.9494,
      "num_input_tokens_seen": 349515204,
      "step": 2767
    },
    {
      "epoch": 0.7098056820368114,
      "loss": 1.1371309757232666,
      "loss_ce": 0.0004122306127101183,
      "loss_iou": 0.5078125,
      "loss_num": 0.023681640625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 349515204,
      "step": 2767
    },
    {
      "epoch": 0.7100622074007568,
      "grad_norm": 194.0366973876953,
      "learning_rate": 5e-06,
      "loss": 1.025,
      "num_input_tokens_seen": 349642856,
      "step": 2768
    },
    {
      "epoch": 0.7100622074007568,
      "loss": 0.981565535068512,
      "loss_ce": 0.005491356831043959,
      "loss_iou": 0.44921875,
      "loss_num": 0.0155029296875,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 349642856,
      "step": 2768
    },
    {
      "epoch": 0.7103187327647021,
      "grad_norm": 43.64764404296875,
      "learning_rate": 5e-06,
      "loss": 0.9401,
      "num_input_tokens_seen": 349769116,
      "step": 2769
    },
    {
      "epoch": 0.7103187327647021,
      "loss": 0.9813637137413025,
      "loss_ce": 0.008463321253657341,
      "loss_iou": 0.43359375,
      "loss_num": 0.0216064453125,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 349769116,
      "step": 2769
    },
    {
      "epoch": 0.7105752581286475,
      "grad_norm": 53.964969635009766,
      "learning_rate": 5e-06,
      "loss": 0.9251,
      "num_input_tokens_seen": 349896016,
      "step": 2770
    },
    {
      "epoch": 0.7105752581286475,
      "loss": 0.9335019588470459,
      "loss_ce": 0.0003965099749621004,
      "loss_iou": 0.439453125,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 349896016,
      "step": 2770
    },
    {
      "epoch": 0.7108317834925928,
      "grad_norm": 74.40316772460938,
      "learning_rate": 5e-06,
      "loss": 1.0022,
      "num_input_tokens_seen": 350023356,
      "step": 2771
    },
    {
      "epoch": 0.7108317834925928,
      "loss": 0.9753098487854004,
      "loss_ce": 0.00021217142057139426,
      "loss_iou": 0.453125,
      "loss_num": 0.01416015625,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 350023356,
      "step": 2771
    },
    {
      "epoch": 0.7110883088565382,
      "grad_norm": 44.26226043701172,
      "learning_rate": 5e-06,
      "loss": 1.1925,
      "num_input_tokens_seen": 350149440,
      "step": 2772
    },
    {
      "epoch": 0.7110883088565382,
      "loss": 1.3607394695281982,
      "loss_ce": 0.004782530479133129,
      "loss_iou": 0.61328125,
      "loss_num": 0.0262451171875,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 350149440,
      "step": 2772
    },
    {
      "epoch": 0.7113448342204836,
      "grad_norm": 35.82310485839844,
      "learning_rate": 5e-06,
      "loss": 0.9185,
      "num_input_tokens_seen": 350274996,
      "step": 2773
    },
    {
      "epoch": 0.7113448342204836,
      "loss": 1.07904052734375,
      "loss_ce": 0.0009155577281489968,
      "loss_iou": 0.486328125,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 350274996,
      "step": 2773
    },
    {
      "epoch": 0.7116013595844289,
      "grad_norm": 51.07183837890625,
      "learning_rate": 5e-06,
      "loss": 0.9482,
      "num_input_tokens_seen": 350402640,
      "step": 2774
    },
    {
      "epoch": 0.7116013595844289,
      "loss": 1.0929245948791504,
      "loss_ce": 0.0006394553347490728,
      "loss_iou": 0.490234375,
      "loss_num": 0.021728515625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 350402640,
      "step": 2774
    },
    {
      "epoch": 0.7118578849483743,
      "grad_norm": 43.68464660644531,
      "learning_rate": 5e-06,
      "loss": 1.0508,
      "num_input_tokens_seen": 350529320,
      "step": 2775
    },
    {
      "epoch": 0.7118578849483743,
      "loss": 1.1623339653015137,
      "loss_ce": 0.0031542929355055094,
      "loss_iou": 0.52734375,
      "loss_num": 0.02099609375,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 350529320,
      "step": 2775
    },
    {
      "epoch": 0.7121144103123196,
      "grad_norm": 50.21672439575195,
      "learning_rate": 5e-06,
      "loss": 0.9472,
      "num_input_tokens_seen": 350656784,
      "step": 2776
    },
    {
      "epoch": 0.7121144103123196,
      "loss": 0.960762619972229,
      "loss_ce": 0.0008017014479264617,
      "loss_iou": 0.453125,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 350656784,
      "step": 2776
    },
    {
      "epoch": 0.712370935676265,
      "grad_norm": 50.02055358886719,
      "learning_rate": 5e-06,
      "loss": 1.1525,
      "num_input_tokens_seen": 350783280,
      "step": 2777
    },
    {
      "epoch": 0.712370935676265,
      "loss": 1.1245322227478027,
      "loss_ce": 0.0029502154793590307,
      "loss_iou": 0.51953125,
      "loss_num": 0.01708984375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 350783280,
      "step": 2777
    },
    {
      "epoch": 0.7126274610402104,
      "grad_norm": 42.00356674194336,
      "learning_rate": 5e-06,
      "loss": 0.8743,
      "num_input_tokens_seen": 350909456,
      "step": 2778
    },
    {
      "epoch": 0.7126274610402104,
      "loss": 0.8946172595024109,
      "loss_ce": 0.0010625626891851425,
      "loss_iou": 0.4140625,
      "loss_num": 0.012939453125,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 350909456,
      "step": 2778
    },
    {
      "epoch": 0.7128839864041557,
      "grad_norm": 53.19773483276367,
      "learning_rate": 5e-06,
      "loss": 0.9403,
      "num_input_tokens_seen": 351035720,
      "step": 2779
    },
    {
      "epoch": 0.7128839864041557,
      "loss": 0.9870266914367676,
      "loss_ce": 0.0006985502550378442,
      "loss_iou": 0.46484375,
      "loss_num": 0.01153564453125,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 351035720,
      "step": 2779
    },
    {
      "epoch": 0.7131405117681011,
      "grad_norm": 72.55758666992188,
      "learning_rate": 5e-06,
      "loss": 0.838,
      "num_input_tokens_seen": 351162636,
      "step": 2780
    },
    {
      "epoch": 0.7131405117681011,
      "loss": 0.8825046420097351,
      "loss_ce": 0.000912790244910866,
      "loss_iou": 0.41796875,
      "loss_num": 0.009033203125,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 351162636,
      "step": 2780
    },
    {
      "epoch": 0.7133970371320464,
      "grad_norm": 44.77214431762695,
      "learning_rate": 5e-06,
      "loss": 1.0648,
      "num_input_tokens_seen": 351288584,
      "step": 2781
    },
    {
      "epoch": 0.7133970371320464,
      "loss": 0.9679480791091919,
      "loss_ce": 0.000662887585349381,
      "loss_iou": 0.4609375,
      "loss_num": 0.00927734375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 351288584,
      "step": 2781
    },
    {
      "epoch": 0.7136535624959918,
      "grad_norm": 22.387264251708984,
      "learning_rate": 5e-06,
      "loss": 0.985,
      "num_input_tokens_seen": 351414900,
      "step": 2782
    },
    {
      "epoch": 0.7136535624959918,
      "loss": 0.9609547853469849,
      "loss_ce": 0.000993857509456575,
      "loss_iou": 0.44140625,
      "loss_num": 0.0150146484375,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 351414900,
      "step": 2782
    },
    {
      "epoch": 0.7139100878599371,
      "grad_norm": 35.68178939819336,
      "learning_rate": 5e-06,
      "loss": 0.9186,
      "num_input_tokens_seen": 351541616,
      "step": 2783
    },
    {
      "epoch": 0.7139100878599371,
      "loss": 0.8436436653137207,
      "loss_ce": 0.0016026501543819904,
      "loss_iou": 0.37890625,
      "loss_num": 0.0169677734375,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 351541616,
      "step": 2783
    },
    {
      "epoch": 0.7141666132238825,
      "grad_norm": 41.338600158691406,
      "learning_rate": 5e-06,
      "loss": 0.9077,
      "num_input_tokens_seen": 351670516,
      "step": 2784
    },
    {
      "epoch": 0.7141666132238825,
      "loss": 0.703155517578125,
      "loss_ce": 0.0024719128850847483,
      "loss_iou": 0.330078125,
      "loss_num": 0.00836181640625,
      "loss_xval": 0.69921875,
      "num_input_tokens_seen": 351670516,
      "step": 2784
    },
    {
      "epoch": 0.7144231385878279,
      "grad_norm": 45.5844841003418,
      "learning_rate": 5e-06,
      "loss": 0.9989,
      "num_input_tokens_seen": 351796880,
      "step": 2785
    },
    {
      "epoch": 0.7144231385878279,
      "loss": 1.1670355796813965,
      "loss_ce": 0.0005317461909726262,
      "loss_iou": 0.5234375,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 351796880,
      "step": 2785
    },
    {
      "epoch": 0.7146796639517732,
      "grad_norm": 38.859500885009766,
      "learning_rate": 5e-06,
      "loss": 0.8286,
      "num_input_tokens_seen": 351923828,
      "step": 2786
    },
    {
      "epoch": 0.7146796639517732,
      "loss": 0.8668532371520996,
      "loss_ce": 0.000642305938526988,
      "loss_iou": 0.396484375,
      "loss_num": 0.0147705078125,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 351923828,
      "step": 2786
    },
    {
      "epoch": 0.7149361893157186,
      "grad_norm": 50.20237731933594,
      "learning_rate": 5e-06,
      "loss": 0.9814,
      "num_input_tokens_seen": 352049704,
      "step": 2787
    },
    {
      "epoch": 0.7149361893157186,
      "loss": 0.8779653310775757,
      "loss_ce": 0.0010121985105797648,
      "loss_iou": 0.416015625,
      "loss_num": 0.00921630859375,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 352049704,
      "step": 2787
    },
    {
      "epoch": 0.7151927146796639,
      "grad_norm": 37.611289978027344,
      "learning_rate": 5e-06,
      "loss": 0.9453,
      "num_input_tokens_seen": 352175568,
      "step": 2788
    },
    {
      "epoch": 0.7151927146796639,
      "loss": 0.9001970291137695,
      "loss_ce": 0.0005388229619711637,
      "loss_iou": 0.40625,
      "loss_num": 0.0177001953125,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 352175568,
      "step": 2788
    },
    {
      "epoch": 0.7154492400436093,
      "grad_norm": 47.84310531616211,
      "learning_rate": 5e-06,
      "loss": 0.9853,
      "num_input_tokens_seen": 352302844,
      "step": 2789
    },
    {
      "epoch": 0.7154492400436093,
      "loss": 0.9561954140663147,
      "loss_ce": 0.002582116983830929,
      "loss_iou": 0.4375,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 352302844,
      "step": 2789
    },
    {
      "epoch": 0.7157057654075547,
      "grad_norm": 45.53949737548828,
      "learning_rate": 5e-06,
      "loss": 0.8535,
      "num_input_tokens_seen": 352428584,
      "step": 2790
    },
    {
      "epoch": 0.7157057654075547,
      "loss": 0.9420002698898315,
      "loss_ce": 0.0005940085975453258,
      "loss_iou": 0.412109375,
      "loss_num": 0.0235595703125,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 352428584,
      "step": 2790
    },
    {
      "epoch": 0.7159622907715001,
      "grad_norm": 68.96114349365234,
      "learning_rate": 5e-06,
      "loss": 0.959,
      "num_input_tokens_seen": 352556272,
      "step": 2791
    },
    {
      "epoch": 0.7159622907715001,
      "loss": 0.9124839305877686,
      "loss_ce": 0.000862844055518508,
      "loss_iou": 0.419921875,
      "loss_num": 0.0145263671875,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 352556272,
      "step": 2791
    },
    {
      "epoch": 0.7162188161354454,
      "grad_norm": 44.24248123168945,
      "learning_rate": 5e-06,
      "loss": 1.0669,
      "num_input_tokens_seen": 352680992,
      "step": 2792
    },
    {
      "epoch": 0.7162188161354454,
      "loss": 1.0508984327316284,
      "loss_ce": 0.00011717645975295454,
      "loss_iou": 0.4921875,
      "loss_num": 0.0133056640625,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 352680992,
      "step": 2792
    },
    {
      "epoch": 0.7164753414993907,
      "grad_norm": 48.47018814086914,
      "learning_rate": 5e-06,
      "loss": 0.9928,
      "num_input_tokens_seen": 352807984,
      "step": 2793
    },
    {
      "epoch": 0.7164753414993907,
      "loss": 0.9425259232521057,
      "loss_ce": 0.00014312152052298188,
      "loss_iou": 0.439453125,
      "loss_num": 0.01300048828125,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 352807984,
      "step": 2793
    },
    {
      "epoch": 0.7167318668633361,
      "grad_norm": 48.998779296875,
      "learning_rate": 5e-06,
      "loss": 1.0337,
      "num_input_tokens_seen": 352933992,
      "step": 2794
    },
    {
      "epoch": 0.7167318668633361,
      "loss": 0.8462742567062378,
      "loss_ce": 0.0005711799603886902,
      "loss_iou": 0.3984375,
      "loss_num": 0.00927734375,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 352933992,
      "step": 2794
    },
    {
      "epoch": 0.7169883922272815,
      "grad_norm": 32.27525329589844,
      "learning_rate": 5e-06,
      "loss": 0.9177,
      "num_input_tokens_seen": 353060692,
      "step": 2795
    },
    {
      "epoch": 0.7169883922272815,
      "loss": 0.9208483695983887,
      "loss_ce": 0.0006823799922131002,
      "loss_iou": 0.431640625,
      "loss_num": 0.01123046875,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 353060692,
      "step": 2795
    },
    {
      "epoch": 0.7172449175912269,
      "grad_norm": 70.03369140625,
      "learning_rate": 5e-06,
      "loss": 1.0554,
      "num_input_tokens_seen": 353187684,
      "step": 2796
    },
    {
      "epoch": 0.7172449175912269,
      "loss": 1.1553441286087036,
      "loss_ce": 0.001535541843622923,
      "loss_iou": 0.515625,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 353187684,
      "step": 2796
    },
    {
      "epoch": 0.7175014429551722,
      "grad_norm": 44.487857818603516,
      "learning_rate": 5e-06,
      "loss": 0.9593,
      "num_input_tokens_seen": 353313620,
      "step": 2797
    },
    {
      "epoch": 0.7175014429551722,
      "loss": 0.9535285234451294,
      "loss_ce": 0.0008917720406316221,
      "loss_iou": 0.453125,
      "loss_num": 0.00946044921875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 353313620,
      "step": 2797
    },
    {
      "epoch": 0.7177579683191175,
      "grad_norm": 19.193157196044922,
      "learning_rate": 5e-06,
      "loss": 0.8899,
      "num_input_tokens_seen": 353439896,
      "step": 2798
    },
    {
      "epoch": 0.7177579683191175,
      "loss": 0.9076510071754456,
      "loss_ce": 0.001889252569526434,
      "loss_iou": 0.4140625,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 353439896,
      "step": 2798
    },
    {
      "epoch": 0.7180144936830629,
      "grad_norm": 30.17259979248047,
      "learning_rate": 5e-06,
      "loss": 0.8296,
      "num_input_tokens_seen": 353566496,
      "step": 2799
    },
    {
      "epoch": 0.7180144936830629,
      "loss": 0.9245446920394897,
      "loss_ce": 0.0007165212882682681,
      "loss_iou": 0.42578125,
      "loss_num": 0.014404296875,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 353566496,
      "step": 2799
    },
    {
      "epoch": 0.7182710190470083,
      "grad_norm": 73.41886901855469,
      "learning_rate": 5e-06,
      "loss": 0.9407,
      "num_input_tokens_seen": 353692728,
      "step": 2800
    },
    {
      "epoch": 0.7182710190470083,
      "loss": 0.8926745057106018,
      "loss_ce": 0.0010729453060775995,
      "loss_iou": 0.40234375,
      "loss_num": 0.017822265625,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 353692728,
      "step": 2800
    },
    {
      "epoch": 0.7185275444109537,
      "grad_norm": 54.74946212768555,
      "learning_rate": 5e-06,
      "loss": 1.0948,
      "num_input_tokens_seen": 353819004,
      "step": 2801
    },
    {
      "epoch": 0.7185275444109537,
      "loss": 1.0816195011138916,
      "loss_ce": 0.002029532566666603,
      "loss_iou": 0.490234375,
      "loss_num": 0.0198974609375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 353819004,
      "step": 2801
    },
    {
      "epoch": 0.718784069774899,
      "grad_norm": 21.141510009765625,
      "learning_rate": 5e-06,
      "loss": 0.9458,
      "num_input_tokens_seen": 353945880,
      "step": 2802
    },
    {
      "epoch": 0.718784069774899,
      "loss": 0.906072199344635,
      "loss_ce": 0.000310474366415292,
      "loss_iou": 0.41796875,
      "loss_num": 0.0142822265625,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 353945880,
      "step": 2802
    },
    {
      "epoch": 0.7190405951388443,
      "grad_norm": 30.580053329467773,
      "learning_rate": 5e-06,
      "loss": 0.8545,
      "num_input_tokens_seen": 354072260,
      "step": 2803
    },
    {
      "epoch": 0.7190405951388443,
      "loss": 0.8698553442955017,
      "loss_ce": 0.0002264417998958379,
      "loss_iou": 0.419921875,
      "loss_num": 0.006317138671875,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 354072260,
      "step": 2803
    },
    {
      "epoch": 0.7192971205027897,
      "grad_norm": 56.03858184814453,
      "learning_rate": 5e-06,
      "loss": 0.8927,
      "num_input_tokens_seen": 354199704,
      "step": 2804
    },
    {
      "epoch": 0.7192971205027897,
      "loss": 1.030813455581665,
      "loss_ce": 0.002004914451390505,
      "loss_iou": 0.466796875,
      "loss_num": 0.018798828125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 354199704,
      "step": 2804
    },
    {
      "epoch": 0.7195536458667351,
      "grad_norm": 58.24660110473633,
      "learning_rate": 5e-06,
      "loss": 0.9771,
      "num_input_tokens_seen": 354326296,
      "step": 2805
    },
    {
      "epoch": 0.7195536458667351,
      "loss": 0.9549286365509033,
      "loss_ce": 0.0008271246333606541,
      "loss_iou": 0.44140625,
      "loss_num": 0.01416015625,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 354326296,
      "step": 2805
    },
    {
      "epoch": 0.7198101712306805,
      "grad_norm": 49.21638488769531,
      "learning_rate": 5e-06,
      "loss": 1.01,
      "num_input_tokens_seen": 354452416,
      "step": 2806
    },
    {
      "epoch": 0.7198101712306805,
      "loss": 1.0798671245574951,
      "loss_ce": 0.0007655572262592614,
      "loss_iou": 0.484375,
      "loss_num": 0.0220947265625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 354452416,
      "step": 2806
    },
    {
      "epoch": 0.7200666965946257,
      "grad_norm": 56.945655822753906,
      "learning_rate": 5e-06,
      "loss": 0.9735,
      "num_input_tokens_seen": 354579052,
      "step": 2807
    },
    {
      "epoch": 0.7200666965946257,
      "loss": 1.0302178859710693,
      "loss_ce": 0.0009209836134687066,
      "loss_iou": 0.4765625,
      "loss_num": 0.01483154296875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 354579052,
      "step": 2807
    },
    {
      "epoch": 0.7203232219585711,
      "grad_norm": 64.86836242675781,
      "learning_rate": 5e-06,
      "loss": 0.8812,
      "num_input_tokens_seen": 354706604,
      "step": 2808
    },
    {
      "epoch": 0.7203232219585711,
      "loss": 0.8263351321220398,
      "loss_ce": 0.0016280682757496834,
      "loss_iou": 0.38671875,
      "loss_num": 0.00994873046875,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 354706604,
      "step": 2808
    },
    {
      "epoch": 0.7205797473225165,
      "grad_norm": 51.22687530517578,
      "learning_rate": 5e-06,
      "loss": 0.8996,
      "num_input_tokens_seen": 354832924,
      "step": 2809
    },
    {
      "epoch": 0.7205797473225165,
      "loss": 0.9596093893051147,
      "loss_ce": 0.00013671658234670758,
      "loss_iou": 0.451171875,
      "loss_num": 0.0113525390625,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 354832924,
      "step": 2809
    },
    {
      "epoch": 0.7208362726864619,
      "grad_norm": 34.734073638916016,
      "learning_rate": 5e-06,
      "loss": 0.9301,
      "num_input_tokens_seen": 354959556,
      "step": 2810
    },
    {
      "epoch": 0.7208362726864619,
      "loss": 0.8900448083877563,
      "loss_ce": 0.0003963771741837263,
      "loss_iou": 0.408203125,
      "loss_num": 0.01470947265625,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 354959556,
      "step": 2810
    },
    {
      "epoch": 0.7210927980504073,
      "grad_norm": 41.50166320800781,
      "learning_rate": 5e-06,
      "loss": 0.9234,
      "num_input_tokens_seen": 355085776,
      "step": 2811
    },
    {
      "epoch": 0.7210927980504073,
      "loss": 0.9190911650657654,
      "loss_ce": 0.0016106865368783474,
      "loss_iou": 0.4296875,
      "loss_num": 0.01190185546875,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 355085776,
      "step": 2811
    },
    {
      "epoch": 0.7213493234143525,
      "grad_norm": 55.22750473022461,
      "learning_rate": 5e-06,
      "loss": 0.9103,
      "num_input_tokens_seen": 355213272,
      "step": 2812
    },
    {
      "epoch": 0.7213493234143525,
      "loss": 1.0459450483322144,
      "loss_ce": 0.0019998103380203247,
      "loss_iou": 0.46484375,
      "loss_num": 0.0224609375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 355213272,
      "step": 2812
    },
    {
      "epoch": 0.7216058487782979,
      "grad_norm": 47.21759033203125,
      "learning_rate": 5e-06,
      "loss": 0.9078,
      "num_input_tokens_seen": 355339552,
      "step": 2813
    },
    {
      "epoch": 0.7216058487782979,
      "loss": 0.8720395565032959,
      "loss_ce": 0.0024106630589812994,
      "loss_iou": 0.416015625,
      "loss_num": 0.00775146484375,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 355339552,
      "step": 2813
    },
    {
      "epoch": 0.7218623741422433,
      "grad_norm": 52.06370162963867,
      "learning_rate": 5e-06,
      "loss": 0.8907,
      "num_input_tokens_seen": 355467080,
      "step": 2814
    },
    {
      "epoch": 0.7218623741422433,
      "loss": 1.166247844696045,
      "loss_ce": 0.0021853891666978598,
      "loss_iou": 0.52734375,
      "loss_num": 0.022216796875,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 355467080,
      "step": 2814
    },
    {
      "epoch": 0.7221188995061887,
      "grad_norm": 43.77872085571289,
      "learning_rate": 5e-06,
      "loss": 1.1128,
      "num_input_tokens_seen": 355593732,
      "step": 2815
    },
    {
      "epoch": 0.7221188995061887,
      "loss": 1.0303559303283691,
      "loss_ce": 0.0005707253003492951,
      "loss_iou": 0.474609375,
      "loss_num": 0.0159912109375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 355593732,
      "step": 2815
    },
    {
      "epoch": 0.7223754248701341,
      "grad_norm": 43.35484313964844,
      "learning_rate": 5e-06,
      "loss": 0.9373,
      "num_input_tokens_seen": 355720060,
      "step": 2816
    },
    {
      "epoch": 0.7223754248701341,
      "loss": 0.9670222997665405,
      "loss_ce": 0.0021785483695566654,
      "loss_iou": 0.4375,
      "loss_num": 0.0181884765625,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 355720060,
      "step": 2816
    },
    {
      "epoch": 0.7226319502340794,
      "grad_norm": 46.44950485229492,
      "learning_rate": 5e-06,
      "loss": 0.9124,
      "num_input_tokens_seen": 355848268,
      "step": 2817
    },
    {
      "epoch": 0.7226319502340794,
      "loss": 1.0489916801452637,
      "loss_ce": 0.0006518606096506119,
      "loss_iou": 0.48828125,
      "loss_num": 0.0140380859375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 355848268,
      "step": 2817
    },
    {
      "epoch": 0.7228884755980247,
      "grad_norm": 44.861228942871094,
      "learning_rate": 5e-06,
      "loss": 0.8598,
      "num_input_tokens_seen": 355975288,
      "step": 2818
    },
    {
      "epoch": 0.7228884755980247,
      "loss": 0.9132239818572998,
      "loss_ce": 0.00038213114021345973,
      "loss_iou": 0.416015625,
      "loss_num": 0.0164794921875,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 355975288,
      "step": 2818
    },
    {
      "epoch": 0.7231450009619701,
      "grad_norm": 64.87090301513672,
      "learning_rate": 5e-06,
      "loss": 0.9213,
      "num_input_tokens_seen": 356101784,
      "step": 2819
    },
    {
      "epoch": 0.7231450009619701,
      "loss": 0.7225340604782104,
      "loss_ce": 0.00012193157454021275,
      "loss_iou": 0.345703125,
      "loss_num": 0.005859375,
      "loss_xval": 0.72265625,
      "num_input_tokens_seen": 356101784,
      "step": 2819
    },
    {
      "epoch": 0.7234015263259155,
      "grad_norm": 63.23878860473633,
      "learning_rate": 5e-06,
      "loss": 1.0303,
      "num_input_tokens_seen": 356228496,
      "step": 2820
    },
    {
      "epoch": 0.7234015263259155,
      "loss": 1.0843150615692139,
      "loss_ce": 0.00033060350688174367,
      "loss_iou": 0.5078125,
      "loss_num": 0.01312255859375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 356228496,
      "step": 2820
    },
    {
      "epoch": 0.7236580516898609,
      "grad_norm": 52.69314193725586,
      "learning_rate": 5e-06,
      "loss": 1.0939,
      "num_input_tokens_seen": 356354760,
      "step": 2821
    },
    {
      "epoch": 0.7236580516898609,
      "loss": 1.1579294204711914,
      "loss_ce": 0.0007028396939858794,
      "loss_iou": 0.54296875,
      "loss_num": 0.0146484375,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 356354760,
      "step": 2821
    },
    {
      "epoch": 0.7239145770538062,
      "grad_norm": 40.191829681396484,
      "learning_rate": 5e-06,
      "loss": 1.0158,
      "num_input_tokens_seen": 356480748,
      "step": 2822
    },
    {
      "epoch": 0.7239145770538062,
      "loss": 1.1308033466339111,
      "loss_ce": 0.0023854016326367855,
      "loss_iou": 0.515625,
      "loss_num": 0.019287109375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 356480748,
      "step": 2822
    },
    {
      "epoch": 0.7241711024177515,
      "grad_norm": 37.723724365234375,
      "learning_rate": 5e-06,
      "loss": 0.9702,
      "num_input_tokens_seen": 356607024,
      "step": 2823
    },
    {
      "epoch": 0.7241711024177515,
      "loss": 1.0781813859939575,
      "loss_ce": 0.000544671667739749,
      "loss_iou": 0.4921875,
      "loss_num": 0.01904296875,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 356607024,
      "step": 2823
    },
    {
      "epoch": 0.7244276277816969,
      "grad_norm": 57.555667877197266,
      "learning_rate": 5e-06,
      "loss": 0.9953,
      "num_input_tokens_seen": 356733324,
      "step": 2824
    },
    {
      "epoch": 0.7244276277816969,
      "loss": 1.0243428945541382,
      "loss_ce": 0.0026143412105739117,
      "loss_iou": 0.47265625,
      "loss_num": 0.0155029296875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 356733324,
      "step": 2824
    },
    {
      "epoch": 0.7246841531456423,
      "grad_norm": 61.309967041015625,
      "learning_rate": 5e-06,
      "loss": 1.0171,
      "num_input_tokens_seen": 356859072,
      "step": 2825
    },
    {
      "epoch": 0.7246841531456423,
      "loss": 1.1009202003479004,
      "loss_ce": 0.0008224837947636843,
      "loss_iou": 0.5078125,
      "loss_num": 0.01708984375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 356859072,
      "step": 2825
    },
    {
      "epoch": 0.7249406785095877,
      "grad_norm": 60.1578254699707,
      "learning_rate": 5e-06,
      "loss": 0.9949,
      "num_input_tokens_seen": 356984172,
      "step": 2826
    },
    {
      "epoch": 0.7249406785095877,
      "loss": 0.9942096471786499,
      "loss_ce": 0.0005573141388595104,
      "loss_iou": 0.46484375,
      "loss_num": 0.0126953125,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 356984172,
      "step": 2826
    },
    {
      "epoch": 0.725197203873533,
      "grad_norm": 48.544612884521484,
      "learning_rate": 5e-06,
      "loss": 1.0448,
      "num_input_tokens_seen": 357111116,
      "step": 2827
    },
    {
      "epoch": 0.725197203873533,
      "loss": 0.939170777797699,
      "loss_ce": 0.00020591789507307112,
      "loss_iou": 0.44140625,
      "loss_num": 0.0107421875,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 357111116,
      "step": 2827
    },
    {
      "epoch": 0.7254537292374783,
      "grad_norm": 39.68471908569336,
      "learning_rate": 5e-06,
      "loss": 0.8714,
      "num_input_tokens_seen": 357237900,
      "step": 2828
    },
    {
      "epoch": 0.7254537292374783,
      "loss": 0.9213587045669556,
      "loss_ce": 0.0007044594385661185,
      "loss_iou": 0.43359375,
      "loss_num": 0.01031494140625,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 357237900,
      "step": 2828
    },
    {
      "epoch": 0.7257102546014237,
      "grad_norm": 44.247867584228516,
      "learning_rate": 5e-06,
      "loss": 0.9762,
      "num_input_tokens_seen": 357364320,
      "step": 2829
    },
    {
      "epoch": 0.7257102546014237,
      "loss": 0.7812053561210632,
      "loss_ce": 0.0009319039527326822,
      "loss_iou": 0.376953125,
      "loss_num": 0.00531005859375,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 357364320,
      "step": 2829
    },
    {
      "epoch": 0.7259667799653691,
      "grad_norm": 43.59778594970703,
      "learning_rate": 5e-06,
      "loss": 0.9531,
      "num_input_tokens_seen": 357490320,
      "step": 2830
    },
    {
      "epoch": 0.7259667799653691,
      "loss": 0.8646785616874695,
      "loss_ce": 0.00042075279634445906,
      "loss_iou": 0.40625,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 357490320,
      "step": 2830
    },
    {
      "epoch": 0.7262233053293145,
      "grad_norm": 46.14194107055664,
      "learning_rate": 5e-06,
      "loss": 0.9781,
      "num_input_tokens_seen": 357616924,
      "step": 2831
    },
    {
      "epoch": 0.7262233053293145,
      "loss": 1.021560788154602,
      "loss_ce": 0.00300608086399734,
      "loss_iou": 0.46484375,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 357616924,
      "step": 2831
    },
    {
      "epoch": 0.7264798306932598,
      "grad_norm": 53.14125442504883,
      "learning_rate": 5e-06,
      "loss": 1.0364,
      "num_input_tokens_seen": 357743600,
      "step": 2832
    },
    {
      "epoch": 0.7264798306932598,
      "loss": 0.9118888974189758,
      "loss_ce": 0.0012443918967619538,
      "loss_iou": 0.404296875,
      "loss_num": 0.0205078125,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 357743600,
      "step": 2832
    },
    {
      "epoch": 0.7267363560572051,
      "grad_norm": 64.60108184814453,
      "learning_rate": 5e-06,
      "loss": 1.0126,
      "num_input_tokens_seen": 357870412,
      "step": 2833
    },
    {
      "epoch": 0.7267363560572051,
      "loss": 1.270204782485962,
      "loss_ce": 0.0016501240897923708,
      "loss_iou": 0.5859375,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 357870412,
      "step": 2833
    },
    {
      "epoch": 0.7269928814211505,
      "grad_norm": 41.20368576049805,
      "learning_rate": 5e-06,
      "loss": 1.0274,
      "num_input_tokens_seen": 357995752,
      "step": 2834
    },
    {
      "epoch": 0.7269928814211505,
      "loss": 0.9151555299758911,
      "loss_ce": 0.00255783274769783,
      "loss_iou": 0.419921875,
      "loss_num": 0.01446533203125,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 357995752,
      "step": 2834
    },
    {
      "epoch": 0.7272494067850959,
      "grad_norm": 35.52908706665039,
      "learning_rate": 5e-06,
      "loss": 1.016,
      "num_input_tokens_seen": 358122240,
      "step": 2835
    },
    {
      "epoch": 0.7272494067850959,
      "loss": 0.9484637975692749,
      "loss_ce": 0.0007098839851096272,
      "loss_iou": 0.431640625,
      "loss_num": 0.016845703125,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 358122240,
      "step": 2835
    },
    {
      "epoch": 0.7275059321490412,
      "grad_norm": 64.89720916748047,
      "learning_rate": 5e-06,
      "loss": 0.9772,
      "num_input_tokens_seen": 358249252,
      "step": 2836
    },
    {
      "epoch": 0.7275059321490412,
      "loss": 0.906116247177124,
      "loss_ce": 0.00133102061226964,
      "loss_iou": 0.43359375,
      "loss_num": 0.00750732421875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 358249252,
      "step": 2836
    },
    {
      "epoch": 0.7277624575129866,
      "grad_norm": 62.25846481323242,
      "learning_rate": 5e-06,
      "loss": 0.9688,
      "num_input_tokens_seen": 358374932,
      "step": 2837
    },
    {
      "epoch": 0.7277624575129866,
      "loss": 1.0456215143203735,
      "loss_ce": 0.0006996238371357322,
      "loss_iou": 0.48046875,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 358374932,
      "step": 2837
    },
    {
      "epoch": 0.728018982876932,
      "grad_norm": 17.83930015563965,
      "learning_rate": 5e-06,
      "loss": 0.9387,
      "num_input_tokens_seen": 358501308,
      "step": 2838
    },
    {
      "epoch": 0.728018982876932,
      "loss": 0.886888861656189,
      "loss_ce": 0.0016349740326404572,
      "loss_iou": 0.419921875,
      "loss_num": 0.00927734375,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 358501308,
      "step": 2838
    },
    {
      "epoch": 0.7282755082408773,
      "grad_norm": 27.911901473999023,
      "learning_rate": 5e-06,
      "loss": 0.8681,
      "num_input_tokens_seen": 358627888,
      "step": 2839
    },
    {
      "epoch": 0.7282755082408773,
      "loss": 0.6563936471939087,
      "loss_ce": 0.0011202108580619097,
      "loss_iou": 0.30859375,
      "loss_num": 0.007568359375,
      "loss_xval": 0.65625,
      "num_input_tokens_seen": 358627888,
      "step": 2839
    },
    {
      "epoch": 0.7285320336048227,
      "grad_norm": 24.563753128051758,
      "learning_rate": 5e-06,
      "loss": 0.9155,
      "num_input_tokens_seen": 358754056,
      "step": 2840
    },
    {
      "epoch": 0.7285320336048227,
      "loss": 0.8562033176422119,
      "loss_ce": 0.000978671247139573,
      "loss_iou": 0.40234375,
      "loss_num": 0.010009765625,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 358754056,
      "step": 2840
    },
    {
      "epoch": 0.728788558968768,
      "grad_norm": 40.74066925048828,
      "learning_rate": 5e-06,
      "loss": 1.0861,
      "num_input_tokens_seen": 358880416,
      "step": 2841
    },
    {
      "epoch": 0.728788558968768,
      "loss": 1.2149285078048706,
      "loss_ce": 0.0005729615804739296,
      "loss_iou": 0.546875,
      "loss_num": 0.023681640625,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 358880416,
      "step": 2841
    },
    {
      "epoch": 0.7290450843327134,
      "grad_norm": 108.10514068603516,
      "learning_rate": 5e-06,
      "loss": 1.0185,
      "num_input_tokens_seen": 359006996,
      "step": 2842
    },
    {
      "epoch": 0.7290450843327134,
      "loss": 0.9570274949073792,
      "loss_ce": 0.0014611243968829513,
      "loss_iou": 0.44140625,
      "loss_num": 0.01495361328125,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 359006996,
      "step": 2842
    },
    {
      "epoch": 0.7293016096966588,
      "grad_norm": 45.7574348449707,
      "learning_rate": 5e-06,
      "loss": 1.0235,
      "num_input_tokens_seen": 359133464,
      "step": 2843
    },
    {
      "epoch": 0.7293016096966588,
      "loss": 0.99357008934021,
      "loss_ce": 0.0004060387727804482,
      "loss_iou": 0.4609375,
      "loss_num": 0.0142822265625,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 359133464,
      "step": 2843
    },
    {
      "epoch": 0.7295581350606041,
      "grad_norm": 14.68533706665039,
      "learning_rate": 5e-06,
      "loss": 0.932,
      "num_input_tokens_seen": 359259272,
      "step": 2844
    },
    {
      "epoch": 0.7295581350606041,
      "loss": 0.9392783641815186,
      "loss_ce": 0.0008017909131012857,
      "loss_iou": 0.431640625,
      "loss_num": 0.01513671875,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 359259272,
      "step": 2844
    },
    {
      "epoch": 0.7298146604245495,
      "grad_norm": 36.88554382324219,
      "learning_rate": 5e-06,
      "loss": 1.0173,
      "num_input_tokens_seen": 359386020,
      "step": 2845
    },
    {
      "epoch": 0.7298146604245495,
      "loss": 1.1052169799804688,
      "loss_ce": 0.0026779568288475275,
      "loss_iou": 0.5,
      "loss_num": 0.019775390625,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 359386020,
      "step": 2845
    },
    {
      "epoch": 0.7300711857884948,
      "grad_norm": 54.32188034057617,
      "learning_rate": 5e-06,
      "loss": 0.94,
      "num_input_tokens_seen": 359512276,
      "step": 2846
    },
    {
      "epoch": 0.7300711857884948,
      "loss": 0.9647353887557983,
      "loss_ce": 0.004041970707476139,
      "loss_iou": 0.42578125,
      "loss_num": 0.0218505859375,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 359512276,
      "step": 2846
    },
    {
      "epoch": 0.7303277111524402,
      "grad_norm": 90.82463073730469,
      "learning_rate": 5e-06,
      "loss": 0.927,
      "num_input_tokens_seen": 359640012,
      "step": 2847
    },
    {
      "epoch": 0.7303277111524402,
      "loss": 0.9547678828239441,
      "loss_ce": 0.0016428836388513446,
      "loss_iou": 0.44140625,
      "loss_num": 0.01373291015625,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 359640012,
      "step": 2847
    },
    {
      "epoch": 0.7305842365163856,
      "grad_norm": 43.46992111206055,
      "learning_rate": 5e-06,
      "loss": 1.1389,
      "num_input_tokens_seen": 359766556,
      "step": 2848
    },
    {
      "epoch": 0.7305842365163856,
      "loss": 1.2656770944595337,
      "loss_ce": 0.002005229238420725,
      "loss_iou": 0.58203125,
      "loss_num": 0.020263671875,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 359766556,
      "step": 2848
    },
    {
      "epoch": 0.7308407618803309,
      "grad_norm": 41.525638580322266,
      "learning_rate": 5e-06,
      "loss": 0.8855,
      "num_input_tokens_seen": 359893380,
      "step": 2849
    },
    {
      "epoch": 0.7308407618803309,
      "loss": 0.9961868524551392,
      "loss_ce": 0.003022819757461548,
      "loss_iou": 0.462890625,
      "loss_num": 0.01373291015625,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 359893380,
      "step": 2849
    },
    {
      "epoch": 0.7310972872442763,
      "grad_norm": 49.34945297241211,
      "learning_rate": 5e-06,
      "loss": 0.9036,
      "num_input_tokens_seen": 360020344,
      "step": 2850
    },
    {
      "epoch": 0.7310972872442763,
      "loss": 0.885448694229126,
      "loss_ce": 0.0016596624627709389,
      "loss_iou": 0.4140625,
      "loss_num": 0.01123046875,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 360020344,
      "step": 2850
    },
    {
      "epoch": 0.7313538126082216,
      "grad_norm": 47.24940490722656,
      "learning_rate": 5e-06,
      "loss": 1.0692,
      "num_input_tokens_seen": 360146952,
      "step": 2851
    },
    {
      "epoch": 0.7313538126082216,
      "loss": 1.1705174446105957,
      "loss_ce": 0.0035252785310149193,
      "loss_iou": 0.5234375,
      "loss_num": 0.02490234375,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 360146952,
      "step": 2851
    },
    {
      "epoch": 0.731610337972167,
      "grad_norm": 59.68442153930664,
      "learning_rate": 5e-06,
      "loss": 0.8492,
      "num_input_tokens_seen": 360273492,
      "step": 2852
    },
    {
      "epoch": 0.731610337972167,
      "loss": 0.7995551824569702,
      "loss_ce": 0.000238730528508313,
      "loss_iou": 0.373046875,
      "loss_num": 0.0107421875,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 360273492,
      "step": 2852
    },
    {
      "epoch": 0.7318668633361124,
      "grad_norm": 52.57169723510742,
      "learning_rate": 5e-06,
      "loss": 1.1595,
      "num_input_tokens_seen": 360399060,
      "step": 2853
    },
    {
      "epoch": 0.7318668633361124,
      "loss": 1.048202633857727,
      "loss_ce": 0.0013275989331305027,
      "loss_iou": 0.474609375,
      "loss_num": 0.0198974609375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 360399060,
      "step": 2853
    },
    {
      "epoch": 0.7321233887000577,
      "grad_norm": 40.46049880981445,
      "learning_rate": 5e-06,
      "loss": 0.9902,
      "num_input_tokens_seen": 360525232,
      "step": 2854
    },
    {
      "epoch": 0.7321233887000577,
      "loss": 1.0628166198730469,
      "loss_ce": 0.0017813870217651129,
      "loss_iou": 0.46484375,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 360525232,
      "step": 2854
    },
    {
      "epoch": 0.732379914064003,
      "grad_norm": 51.18095779418945,
      "learning_rate": 5e-06,
      "loss": 0.9542,
      "num_input_tokens_seen": 360651240,
      "step": 2855
    },
    {
      "epoch": 0.732379914064003,
      "loss": 1.0427913665771484,
      "loss_ce": 0.0012874825624749064,
      "loss_iou": 0.4921875,
      "loss_num": 0.01177978515625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 360651240,
      "step": 2855
    },
    {
      "epoch": 0.7326364394279484,
      "grad_norm": 61.562355041503906,
      "learning_rate": 5e-06,
      "loss": 0.9819,
      "num_input_tokens_seen": 360778452,
      "step": 2856
    },
    {
      "epoch": 0.7326364394279484,
      "loss": 1.0774400234222412,
      "loss_ce": 0.0002915410732384771,
      "loss_iou": 0.5,
      "loss_num": 0.01483154296875,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 360778452,
      "step": 2856
    },
    {
      "epoch": 0.7328929647918938,
      "grad_norm": 64.8097915649414,
      "learning_rate": 5e-06,
      "loss": 1.0325,
      "num_input_tokens_seen": 360904584,
      "step": 2857
    },
    {
      "epoch": 0.7328929647918938,
      "loss": 0.9444053173065186,
      "loss_ce": 0.0005576678668148816,
      "loss_iou": 0.435546875,
      "loss_num": 0.0146484375,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 360904584,
      "step": 2857
    },
    {
      "epoch": 0.7331494901558392,
      "grad_norm": 41.98838424682617,
      "learning_rate": 5e-06,
      "loss": 0.884,
      "num_input_tokens_seen": 361030988,
      "step": 2858
    },
    {
      "epoch": 0.7331494901558392,
      "loss": 0.879589319229126,
      "loss_ce": 0.004101065918803215,
      "loss_iou": 0.404296875,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 361030988,
      "step": 2858
    },
    {
      "epoch": 0.7334060155197846,
      "grad_norm": 44.346282958984375,
      "learning_rate": 5e-06,
      "loss": 0.9894,
      "num_input_tokens_seen": 361157428,
      "step": 2859
    },
    {
      "epoch": 0.7334060155197846,
      "loss": 1.1784920692443848,
      "loss_ce": 0.001245994004420936,
      "loss_iou": 0.53125,
      "loss_num": 0.022705078125,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 361157428,
      "step": 2859
    },
    {
      "epoch": 0.7336625408837298,
      "grad_norm": 33.10796356201172,
      "learning_rate": 5e-06,
      "loss": 0.8992,
      "num_input_tokens_seen": 361284312,
      "step": 2860
    },
    {
      "epoch": 0.7336625408837298,
      "loss": 0.889793336391449,
      "loss_ce": 0.0016097062034532428,
      "loss_iou": 0.41796875,
      "loss_num": 0.01031494140625,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 361284312,
      "step": 2860
    },
    {
      "epoch": 0.7339190662476752,
      "grad_norm": 32.144615173339844,
      "learning_rate": 5e-06,
      "loss": 0.9439,
      "num_input_tokens_seen": 361410848,
      "step": 2861
    },
    {
      "epoch": 0.7339190662476752,
      "loss": 0.958846926689148,
      "loss_ce": 0.0008390661096200347,
      "loss_iou": 0.431640625,
      "loss_num": 0.019287109375,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 361410848,
      "step": 2861
    },
    {
      "epoch": 0.7341755916116206,
      "grad_norm": 33.133426666259766,
      "learning_rate": 5e-06,
      "loss": 0.8837,
      "num_input_tokens_seen": 361536244,
      "step": 2862
    },
    {
      "epoch": 0.7341755916116206,
      "loss": 0.8983770608901978,
      "loss_ce": 0.00018374276987742633,
      "loss_iou": 0.4140625,
      "loss_num": 0.01397705078125,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 361536244,
      "step": 2862
    },
    {
      "epoch": 0.734432116975566,
      "grad_norm": 34.70969009399414,
      "learning_rate": 5e-06,
      "loss": 1.0178,
      "num_input_tokens_seen": 361663228,
      "step": 2863
    },
    {
      "epoch": 0.734432116975566,
      "loss": 1.1460214853286743,
      "loss_ce": 0.0024668944533914328,
      "loss_iou": 0.5078125,
      "loss_num": 0.02587890625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 361663228,
      "step": 2863
    },
    {
      "epoch": 0.7346886423395114,
      "grad_norm": 42.94603729248047,
      "learning_rate": 5e-06,
      "loss": 0.7638,
      "num_input_tokens_seen": 361789212,
      "step": 2864
    },
    {
      "epoch": 0.7346886423395114,
      "loss": 0.7293186783790588,
      "loss_ce": 0.0005589468637481332,
      "loss_iou": 0.345703125,
      "loss_num": 0.00738525390625,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 361789212,
      "step": 2864
    },
    {
      "epoch": 0.7349451677034566,
      "grad_norm": 59.597625732421875,
      "learning_rate": 5e-06,
      "loss": 0.9369,
      "num_input_tokens_seen": 361915520,
      "step": 2865
    },
    {
      "epoch": 0.7349451677034566,
      "loss": 0.8105785846710205,
      "loss_ce": 0.0005200278828851879,
      "loss_iou": 0.373046875,
      "loss_num": 0.012939453125,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 361915520,
      "step": 2865
    },
    {
      "epoch": 0.735201693067402,
      "grad_norm": 52.19535446166992,
      "learning_rate": 5e-06,
      "loss": 0.8186,
      "num_input_tokens_seen": 362040524,
      "step": 2866
    },
    {
      "epoch": 0.735201693067402,
      "loss": 0.9298555850982666,
      "loss_ce": 0.00016807878273539245,
      "loss_iou": 0.4296875,
      "loss_num": 0.01409912109375,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 362040524,
      "step": 2866
    },
    {
      "epoch": 0.7354582184313474,
      "grad_norm": 52.613990783691406,
      "learning_rate": 5e-06,
      "loss": 0.9489,
      "num_input_tokens_seen": 362167360,
      "step": 2867
    },
    {
      "epoch": 0.7354582184313474,
      "loss": 0.8561729192733765,
      "loss_ce": 0.00021591296535916626,
      "loss_iou": 0.41015625,
      "loss_num": 0.0069580078125,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 362167360,
      "step": 2867
    },
    {
      "epoch": 0.7357147437952928,
      "grad_norm": 73.20659637451172,
      "learning_rate": 5e-06,
      "loss": 0.8976,
      "num_input_tokens_seen": 362294548,
      "step": 2868
    },
    {
      "epoch": 0.7357147437952928,
      "loss": 0.7930554747581482,
      "loss_ce": 0.0010633030906319618,
      "loss_iou": 0.376953125,
      "loss_num": 0.00726318359375,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 362294548,
      "step": 2868
    },
    {
      "epoch": 0.7359712691592382,
      "grad_norm": 46.24943542480469,
      "learning_rate": 5e-06,
      "loss": 1.0575,
      "num_input_tokens_seen": 362419708,
      "step": 2869
    },
    {
      "epoch": 0.7359712691592382,
      "loss": 1.130737066268921,
      "loss_ce": 0.006225332152098417,
      "loss_iou": 0.515625,
      "loss_num": 0.0185546875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 362419708,
      "step": 2869
    },
    {
      "epoch": 0.7362277945231834,
      "grad_norm": 34.62246322631836,
      "learning_rate": 5e-06,
      "loss": 1.0194,
      "num_input_tokens_seen": 362546408,
      "step": 2870
    },
    {
      "epoch": 0.7362277945231834,
      "loss": 0.9119246006011963,
      "loss_ce": 0.0005476602236740291,
      "loss_iou": 0.431640625,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 362546408,
      "step": 2870
    },
    {
      "epoch": 0.7364843198871288,
      "grad_norm": 49.51042556762695,
      "learning_rate": 5e-06,
      "loss": 0.7764,
      "num_input_tokens_seen": 362673208,
      "step": 2871
    },
    {
      "epoch": 0.7364843198871288,
      "loss": 0.6808434128761292,
      "loss_ce": 0.00017936329822987318,
      "loss_iou": 0.328125,
      "loss_num": 0.005340576171875,
      "loss_xval": 0.6796875,
      "num_input_tokens_seen": 362673208,
      "step": 2871
    },
    {
      "epoch": 0.7367408452510742,
      "grad_norm": 61.80891799926758,
      "learning_rate": 5e-06,
      "loss": 0.8785,
      "num_input_tokens_seen": 362800444,
      "step": 2872
    },
    {
      "epoch": 0.7367408452510742,
      "loss": 0.9224401712417603,
      "loss_ce": 0.002518290188163519,
      "loss_iou": 0.44140625,
      "loss_num": 0.0076904296875,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 362800444,
      "step": 2872
    },
    {
      "epoch": 0.7369973706150196,
      "grad_norm": 50.24666213989258,
      "learning_rate": 5e-06,
      "loss": 0.9393,
      "num_input_tokens_seen": 362925696,
      "step": 2873
    },
    {
      "epoch": 0.7369973706150196,
      "loss": 0.9510180354118347,
      "loss_ce": 0.0008227573125623167,
      "loss_iou": 0.451171875,
      "loss_num": 0.00946044921875,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 362925696,
      "step": 2873
    },
    {
      "epoch": 0.737253895978965,
      "grad_norm": 42.02018737792969,
      "learning_rate": 5e-06,
      "loss": 0.9591,
      "num_input_tokens_seen": 363052092,
      "step": 2874
    },
    {
      "epoch": 0.737253895978965,
      "loss": 0.9521961212158203,
      "loss_ce": 0.0022449966054409742,
      "loss_iou": 0.439453125,
      "loss_num": 0.01416015625,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 363052092,
      "step": 2874
    },
    {
      "epoch": 0.7375104213429102,
      "grad_norm": 54.57045364379883,
      "learning_rate": 5e-06,
      "loss": 0.9064,
      "num_input_tokens_seen": 363178728,
      "step": 2875
    },
    {
      "epoch": 0.7375104213429102,
      "loss": 0.8737182021141052,
      "loss_ce": 0.0001830613473430276,
      "loss_iou": 0.39453125,
      "loss_num": 0.0169677734375,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 363178728,
      "step": 2875
    },
    {
      "epoch": 0.7377669467068556,
      "grad_norm": 42.90182113647461,
      "learning_rate": 5e-06,
      "loss": 0.9854,
      "num_input_tokens_seen": 363304812,
      "step": 2876
    },
    {
      "epoch": 0.7377669467068556,
      "loss": 0.9922471642494202,
      "loss_ce": 0.002012768527492881,
      "loss_iou": 0.455078125,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 363304812,
      "step": 2876
    },
    {
      "epoch": 0.738023472070801,
      "grad_norm": 34.664283752441406,
      "learning_rate": 5e-06,
      "loss": 1.0316,
      "num_input_tokens_seen": 363431500,
      "step": 2877
    },
    {
      "epoch": 0.738023472070801,
      "loss": 0.9916805028915405,
      "loss_ce": 0.0019344130996614695,
      "loss_iou": 0.46484375,
      "loss_num": 0.01177978515625,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 363431500,
      "step": 2877
    },
    {
      "epoch": 0.7382799974347464,
      "grad_norm": 44.31930923461914,
      "learning_rate": 5e-06,
      "loss": 0.9473,
      "num_input_tokens_seen": 363558568,
      "step": 2878
    },
    {
      "epoch": 0.7382799974347464,
      "loss": 0.7525234222412109,
      "loss_ce": 8.195130794774741e-05,
      "loss_iou": 0.35546875,
      "loss_num": 0.0079345703125,
      "loss_xval": 0.75390625,
      "num_input_tokens_seen": 363558568,
      "step": 2878
    },
    {
      "epoch": 0.7385365227986918,
      "grad_norm": 54.838623046875,
      "learning_rate": 5e-06,
      "loss": 0.9401,
      "num_input_tokens_seen": 363685396,
      "step": 2879
    },
    {
      "epoch": 0.7385365227986918,
      "loss": 0.7442762851715088,
      "loss_ce": 0.0035536293871700764,
      "loss_iou": 0.349609375,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 363685396,
      "step": 2879
    },
    {
      "epoch": 0.7387930481626371,
      "grad_norm": 57.230201721191406,
      "learning_rate": 5e-06,
      "loss": 1.0646,
      "num_input_tokens_seen": 363812040,
      "step": 2880
    },
    {
      "epoch": 0.7387930481626371,
      "loss": 1.0533959865570068,
      "loss_ce": 0.00114986184053123,
      "loss_iou": 0.4765625,
      "loss_num": 0.02001953125,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 363812040,
      "step": 2880
    },
    {
      "epoch": 0.7390495735265824,
      "grad_norm": 57.717166900634766,
      "learning_rate": 5e-06,
      "loss": 0.9923,
      "num_input_tokens_seen": 363937460,
      "step": 2881
    },
    {
      "epoch": 0.7390495735265824,
      "loss": 1.1745389699935913,
      "loss_ce": 0.003152207238599658,
      "loss_iou": 0.50390625,
      "loss_num": 0.03271484375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 363937460,
      "step": 2881
    },
    {
      "epoch": 0.7393060988905278,
      "grad_norm": 49.700828552246094,
      "learning_rate": 5e-06,
      "loss": 0.9458,
      "num_input_tokens_seen": 364064196,
      "step": 2882
    },
    {
      "epoch": 0.7393060988905278,
      "loss": 0.9371277689933777,
      "loss_ce": 0.0015808974858373404,
      "loss_iou": 0.4375,
      "loss_num": 0.0120849609375,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 364064196,
      "step": 2882
    },
    {
      "epoch": 0.7395626242544732,
      "grad_norm": 68.93170928955078,
      "learning_rate": 5e-06,
      "loss": 0.9155,
      "num_input_tokens_seen": 364189904,
      "step": 2883
    },
    {
      "epoch": 0.7395626242544732,
      "loss": 1.0154376029968262,
      "loss_ce": 0.0017657028511166573,
      "loss_iou": 0.48046875,
      "loss_num": 0.01031494140625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 364189904,
      "step": 2883
    },
    {
      "epoch": 0.7398191496184185,
      "grad_norm": 50.39097595214844,
      "learning_rate": 5e-06,
      "loss": 0.8981,
      "num_input_tokens_seen": 364316084,
      "step": 2884
    },
    {
      "epoch": 0.7398191496184185,
      "loss": 0.9500230550765991,
      "loss_ce": 0.0003160022897645831,
      "loss_iou": 0.44921875,
      "loss_num": 0.0106201171875,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 364316084,
      "step": 2884
    },
    {
      "epoch": 0.7400756749823639,
      "grad_norm": 45.3362922668457,
      "learning_rate": 5e-06,
      "loss": 1.1094,
      "num_input_tokens_seen": 364443448,
      "step": 2885
    },
    {
      "epoch": 0.7400756749823639,
      "loss": 1.43181312084198,
      "loss_ce": 0.0065201204270124435,
      "loss_iou": 0.61328125,
      "loss_num": 0.039794921875,
      "loss_xval": 1.421875,
      "num_input_tokens_seen": 364443448,
      "step": 2885
    },
    {
      "epoch": 0.7403322003463092,
      "grad_norm": 51.42271423339844,
      "learning_rate": 5e-06,
      "loss": 0.9866,
      "num_input_tokens_seen": 364569788,
      "step": 2886
    },
    {
      "epoch": 0.7403322003463092,
      "loss": 0.8768347501754761,
      "loss_ce": 0.0015906791668385267,
      "loss_iou": 0.416015625,
      "loss_num": 0.00860595703125,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 364569788,
      "step": 2886
    },
    {
      "epoch": 0.7405887257102546,
      "grad_norm": 61.521060943603516,
      "learning_rate": 5e-06,
      "loss": 0.9792,
      "num_input_tokens_seen": 364696276,
      "step": 2887
    },
    {
      "epoch": 0.7405887257102546,
      "loss": 1.0240933895111084,
      "loss_ce": 0.00016754731768742204,
      "loss_iou": 0.482421875,
      "loss_num": 0.01171875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 364696276,
      "step": 2887
    },
    {
      "epoch": 0.7408452510742,
      "grad_norm": 65.92505645751953,
      "learning_rate": 5e-06,
      "loss": 0.8861,
      "num_input_tokens_seen": 364823728,
      "step": 2888
    },
    {
      "epoch": 0.7408452510742,
      "loss": 0.9291695356369019,
      "loss_ce": 0.0009469046490266919,
      "loss_iou": 0.443359375,
      "loss_num": 0.00830078125,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 364823728,
      "step": 2888
    },
    {
      "epoch": 0.7411017764381453,
      "grad_norm": 59.999473571777344,
      "learning_rate": 5e-06,
      "loss": 1.0229,
      "num_input_tokens_seen": 364950096,
      "step": 2889
    },
    {
      "epoch": 0.7411017764381453,
      "loss": 1.1038157939910889,
      "loss_ce": 0.0012767431326210499,
      "loss_iou": 0.50390625,
      "loss_num": 0.019287109375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 364950096,
      "step": 2889
    },
    {
      "epoch": 0.7413583018020907,
      "grad_norm": 65.09830474853516,
      "learning_rate": 5e-06,
      "loss": 1.0048,
      "num_input_tokens_seen": 365076568,
      "step": 2890
    },
    {
      "epoch": 0.7413583018020907,
      "loss": 1.1403884887695312,
      "loss_ce": 0.001716645434498787,
      "loss_iou": 0.5078125,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 365076568,
      "step": 2890
    },
    {
      "epoch": 0.741614827166036,
      "grad_norm": 40.4169807434082,
      "learning_rate": 5e-06,
      "loss": 0.8165,
      "num_input_tokens_seen": 365202080,
      "step": 2891
    },
    {
      "epoch": 0.741614827166036,
      "loss": 0.7703062295913696,
      "loss_ce": 0.001263250014744699,
      "loss_iou": 0.37109375,
      "loss_num": 0.005096435546875,
      "loss_xval": 0.76953125,
      "num_input_tokens_seen": 365202080,
      "step": 2891
    },
    {
      "epoch": 0.7418713525299814,
      "grad_norm": 53.15790939331055,
      "learning_rate": 5e-06,
      "loss": 0.9223,
      "num_input_tokens_seen": 365327992,
      "step": 2892
    },
    {
      "epoch": 0.7418713525299814,
      "loss": 0.9246824979782104,
      "loss_ce": 0.0003660918155219406,
      "loss_iou": 0.419921875,
      "loss_num": 0.017333984375,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 365327992,
      "step": 2892
    },
    {
      "epoch": 0.7421278778939268,
      "grad_norm": 56.599388122558594,
      "learning_rate": 5e-06,
      "loss": 0.9457,
      "num_input_tokens_seen": 365454616,
      "step": 2893
    },
    {
      "epoch": 0.7421278778939268,
      "loss": 1.0354650020599365,
      "loss_ce": 0.0017734863795340061,
      "loss_iou": 0.470703125,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 365454616,
      "step": 2893
    },
    {
      "epoch": 0.7423844032578721,
      "grad_norm": 55.33816909790039,
      "learning_rate": 5e-06,
      "loss": 0.9248,
      "num_input_tokens_seen": 365581820,
      "step": 2894
    },
    {
      "epoch": 0.7423844032578721,
      "loss": 0.9322671890258789,
      "loss_ce": 0.0008707055822014809,
      "loss_iou": 0.4453125,
      "loss_num": 0.00762939453125,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 365581820,
      "step": 2894
    },
    {
      "epoch": 0.7426409286218175,
      "grad_norm": 49.030006408691406,
      "learning_rate": 5e-06,
      "loss": 0.9617,
      "num_input_tokens_seen": 365707744,
      "step": 2895
    },
    {
      "epoch": 0.7426409286218175,
      "loss": 0.77397620677948,
      "loss_ce": 0.0007828634697943926,
      "loss_iou": 0.37109375,
      "loss_num": 0.005828857421875,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 365707744,
      "step": 2895
    },
    {
      "epoch": 0.7428974539857628,
      "grad_norm": 42.99722671508789,
      "learning_rate": 5e-06,
      "loss": 0.9314,
      "num_input_tokens_seen": 365834148,
      "step": 2896
    },
    {
      "epoch": 0.7428974539857628,
      "loss": 0.842495322227478,
      "loss_ce": 0.0016750018112361431,
      "loss_iou": 0.388671875,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 365834148,
      "step": 2896
    },
    {
      "epoch": 0.7431539793497082,
      "grad_norm": 48.429298400878906,
      "learning_rate": 5e-06,
      "loss": 0.8579,
      "num_input_tokens_seen": 365960436,
      "step": 2897
    },
    {
      "epoch": 0.7431539793497082,
      "loss": 0.8478619456291199,
      "loss_ce": 0.0006939702434465289,
      "loss_iou": 0.396484375,
      "loss_num": 0.0107421875,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 365960436,
      "step": 2897
    },
    {
      "epoch": 0.7434105047136536,
      "grad_norm": 42.93800354003906,
      "learning_rate": 5e-06,
      "loss": 0.8292,
      "num_input_tokens_seen": 366085796,
      "step": 2898
    },
    {
      "epoch": 0.7434105047136536,
      "loss": 0.7011233568191528,
      "loss_ce": 0.00043974071741104126,
      "loss_iou": 0.337890625,
      "loss_num": 0.0050048828125,
      "loss_xval": 0.69921875,
      "num_input_tokens_seen": 366085796,
      "step": 2898
    },
    {
      "epoch": 0.7436670300775989,
      "grad_norm": 56.67951583862305,
      "learning_rate": 5e-06,
      "loss": 1.0165,
      "num_input_tokens_seen": 366211696,
      "step": 2899
    },
    {
      "epoch": 0.7436670300775989,
      "loss": 1.1352980136871338,
      "loss_ce": 0.0002882396802306175,
      "loss_iou": 0.51171875,
      "loss_num": 0.0223388671875,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 366211696,
      "step": 2899
    },
    {
      "epoch": 0.7439235554415443,
      "grad_norm": 38.33698272705078,
      "learning_rate": 5e-06,
      "loss": 0.9848,
      "num_input_tokens_seen": 366336772,
      "step": 2900
    },
    {
      "epoch": 0.7439235554415443,
      "loss": 0.9187126159667969,
      "loss_ce": 0.003673582337796688,
      "loss_iou": 0.419921875,
      "loss_num": 0.0152587890625,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 366336772,
      "step": 2900
    },
    {
      "epoch": 0.7441800808054897,
      "grad_norm": 24.449342727661133,
      "learning_rate": 5e-06,
      "loss": 0.9038,
      "num_input_tokens_seen": 366462652,
      "step": 2901
    },
    {
      "epoch": 0.7441800808054897,
      "loss": 0.7887614965438843,
      "loss_ce": 0.00018728242139331996,
      "loss_iou": 0.376953125,
      "loss_num": 0.007171630859375,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 366462652,
      "step": 2901
    },
    {
      "epoch": 0.744436606169435,
      "grad_norm": 31.02239418029785,
      "learning_rate": 5e-06,
      "loss": 0.9236,
      "num_input_tokens_seen": 366589144,
      "step": 2902
    },
    {
      "epoch": 0.744436606169435,
      "loss": 1.0597388744354248,
      "loss_ce": 0.0006568798562511802,
      "loss_iou": 0.48046875,
      "loss_num": 0.019775390625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 366589144,
      "step": 2902
    },
    {
      "epoch": 0.7446931315333803,
      "grad_norm": 63.14118194580078,
      "learning_rate": 5e-06,
      "loss": 0.8998,
      "num_input_tokens_seen": 366715780,
      "step": 2903
    },
    {
      "epoch": 0.7446931315333803,
      "loss": 1.0560648441314697,
      "loss_ce": 0.00015660231292713434,
      "loss_iou": 0.47265625,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 366715780,
      "step": 2903
    },
    {
      "epoch": 0.7449496568973257,
      "grad_norm": 29.228683471679688,
      "learning_rate": 5e-06,
      "loss": 0.8631,
      "num_input_tokens_seen": 366842312,
      "step": 2904
    },
    {
      "epoch": 0.7449496568973257,
      "loss": 0.7216359972953796,
      "loss_ce": 0.0009328331798315048,
      "loss_iou": 0.3359375,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 366842312,
      "step": 2904
    },
    {
      "epoch": 0.7452061822612711,
      "grad_norm": 41.407981872558594,
      "learning_rate": 5e-06,
      "loss": 0.9613,
      "num_input_tokens_seen": 366967960,
      "step": 2905
    },
    {
      "epoch": 0.7452061822612711,
      "loss": 0.8849389553070068,
      "loss_ce": 0.00017335366283077747,
      "loss_iou": 0.419921875,
      "loss_num": 0.00909423828125,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 366967960,
      "step": 2905
    },
    {
      "epoch": 0.7454627076252165,
      "grad_norm": 44.30210494995117,
      "learning_rate": 5e-06,
      "loss": 0.9986,
      "num_input_tokens_seen": 367093872,
      "step": 2906
    },
    {
      "epoch": 0.7454627076252165,
      "loss": 1.0389024019241333,
      "loss_ce": 0.0013047081883996725,
      "loss_iou": 0.48828125,
      "loss_num": 0.01239013671875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 367093872,
      "step": 2906
    },
    {
      "epoch": 0.7457192329891618,
      "grad_norm": 52.07560348510742,
      "learning_rate": 5e-06,
      "loss": 0.8747,
      "num_input_tokens_seen": 367221216,
      "step": 2907
    },
    {
      "epoch": 0.7457192329891618,
      "loss": 0.7859081029891968,
      "loss_ce": 0.0002636136778164655,
      "loss_iou": 0.375,
      "loss_num": 0.007476806640625,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 367221216,
      "step": 2907
    },
    {
      "epoch": 0.7459757583531071,
      "grad_norm": 48.93008804321289,
      "learning_rate": 5e-06,
      "loss": 0.8446,
      "num_input_tokens_seen": 367347660,
      "step": 2908
    },
    {
      "epoch": 0.7459757583531071,
      "loss": 0.8892890214920044,
      "loss_ce": 0.0006171064451336861,
      "loss_iou": 0.404296875,
      "loss_num": 0.01611328125,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 367347660,
      "step": 2908
    },
    {
      "epoch": 0.7462322837170525,
      "grad_norm": 37.19274139404297,
      "learning_rate": 5e-06,
      "loss": 1.0103,
      "num_input_tokens_seen": 367473268,
      "step": 2909
    },
    {
      "epoch": 0.7462322837170525,
      "loss": 1.0072401762008667,
      "loss_ce": 0.0004042255459353328,
      "loss_iou": 0.48046875,
      "loss_num": 0.00933837890625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 367473268,
      "step": 2909
    },
    {
      "epoch": 0.7464888090809979,
      "grad_norm": 46.148353576660156,
      "learning_rate": 5e-06,
      "loss": 0.9917,
      "num_input_tokens_seen": 367599068,
      "step": 2910
    },
    {
      "epoch": 0.7464888090809979,
      "loss": 0.8082821369171143,
      "loss_ce": 0.00017662528262007982,
      "loss_iou": 0.376953125,
      "loss_num": 0.01092529296875,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 367599068,
      "step": 2910
    },
    {
      "epoch": 0.7467453344449433,
      "grad_norm": 38.28260803222656,
      "learning_rate": 5e-06,
      "loss": 0.9583,
      "num_input_tokens_seen": 367725516,
      "step": 2911
    },
    {
      "epoch": 0.7467453344449433,
      "loss": 1.2908265590667725,
      "loss_ce": 0.0007875305018387735,
      "loss_iou": 0.55859375,
      "loss_num": 0.03466796875,
      "loss_xval": 1.2890625,
      "num_input_tokens_seen": 367725516,
      "step": 2911
    },
    {
      "epoch": 0.7470018598088886,
      "grad_norm": 51.0726432800293,
      "learning_rate": 5e-06,
      "loss": 0.9228,
      "num_input_tokens_seen": 367852492,
      "step": 2912
    },
    {
      "epoch": 0.7470018598088886,
      "loss": 1.1356914043426514,
      "loss_ce": 0.005320283118635416,
      "loss_iou": 0.51953125,
      "loss_num": 0.01904296875,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 367852492,
      "step": 2912
    },
    {
      "epoch": 0.7472583851728339,
      "grad_norm": 45.088077545166016,
      "learning_rate": 5e-06,
      "loss": 0.9329,
      "num_input_tokens_seen": 367978688,
      "step": 2913
    },
    {
      "epoch": 0.7472583851728339,
      "loss": 0.8362195491790771,
      "loss_ce": 0.0002820372174028307,
      "loss_iou": 0.39453125,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 367978688,
      "step": 2913
    },
    {
      "epoch": 0.7475149105367793,
      "grad_norm": 40.52402114868164,
      "learning_rate": 5e-06,
      "loss": 0.9694,
      "num_input_tokens_seen": 368105260,
      "step": 2914
    },
    {
      "epoch": 0.7475149105367793,
      "loss": 0.8095253705978394,
      "loss_ce": 0.004837851971387863,
      "loss_iou": 0.376953125,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 368105260,
      "step": 2914
    },
    {
      "epoch": 0.7477714359007247,
      "grad_norm": 46.94044494628906,
      "learning_rate": 5e-06,
      "loss": 1.0062,
      "num_input_tokens_seen": 368231940,
      "step": 2915
    },
    {
      "epoch": 0.7477714359007247,
      "loss": 0.9161401987075806,
      "loss_ce": 0.002565952017903328,
      "loss_iou": 0.4296875,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 368231940,
      "step": 2915
    },
    {
      "epoch": 0.7480279612646701,
      "grad_norm": 53.26560974121094,
      "learning_rate": 5e-06,
      "loss": 0.9311,
      "num_input_tokens_seen": 368356912,
      "step": 2916
    },
    {
      "epoch": 0.7480279612646701,
      "loss": 0.8973902463912964,
      "loss_ce": 0.0016382763860747218,
      "loss_iou": 0.4140625,
      "loss_num": 0.01397705078125,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 368356912,
      "step": 2916
    },
    {
      "epoch": 0.7482844866286154,
      "grad_norm": 52.47718811035156,
      "learning_rate": 5e-06,
      "loss": 1.0244,
      "num_input_tokens_seen": 368483984,
      "step": 2917
    },
    {
      "epoch": 0.7482844866286154,
      "loss": 1.0073564052581787,
      "loss_ce": 0.002473614178597927,
      "loss_iou": 0.45703125,
      "loss_num": 0.017822265625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 368483984,
      "step": 2917
    },
    {
      "epoch": 0.7485410119925607,
      "grad_norm": 66.00101470947266,
      "learning_rate": 5e-06,
      "loss": 0.9624,
      "num_input_tokens_seen": 368610968,
      "step": 2918
    },
    {
      "epoch": 0.7485410119925607,
      "loss": 1.1099236011505127,
      "loss_ce": 0.001525128143839538,
      "loss_iou": 0.4921875,
      "loss_num": 0.024658203125,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 368610968,
      "step": 2918
    },
    {
      "epoch": 0.7487975373565061,
      "grad_norm": 50.08500671386719,
      "learning_rate": 5e-06,
      "loss": 1.0591,
      "num_input_tokens_seen": 368736752,
      "step": 2919
    },
    {
      "epoch": 0.7487975373565061,
      "loss": 1.0772939920425415,
      "loss_ce": 0.00038969298475421965,
      "loss_iou": 0.5,
      "loss_num": 0.0159912109375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 368736752,
      "step": 2919
    },
    {
      "epoch": 0.7490540627204515,
      "grad_norm": 127.04724884033203,
      "learning_rate": 5e-06,
      "loss": 0.9248,
      "num_input_tokens_seen": 368862936,
      "step": 2920
    },
    {
      "epoch": 0.7490540627204515,
      "loss": 0.8267951011657715,
      "loss_ce": 0.001111525227315724,
      "loss_iou": 0.38671875,
      "loss_num": 0.01031494140625,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 368862936,
      "step": 2920
    },
    {
      "epoch": 0.7493105880843969,
      "grad_norm": 38.62042236328125,
      "learning_rate": 5e-06,
      "loss": 1.0347,
      "num_input_tokens_seen": 368989152,
      "step": 2921
    },
    {
      "epoch": 0.7493105880843969,
      "loss": 1.0581347942352295,
      "loss_ce": 0.001982544083148241,
      "loss_iou": 0.490234375,
      "loss_num": 0.01531982421875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 368989152,
      "step": 2921
    },
    {
      "epoch": 0.7495671134483423,
      "grad_norm": 52.66433334350586,
      "learning_rate": 5e-06,
      "loss": 0.8221,
      "num_input_tokens_seen": 369115820,
      "step": 2922
    },
    {
      "epoch": 0.7495671134483423,
      "loss": 0.8487037420272827,
      "loss_ce": 0.0010474587325006723,
      "loss_iou": 0.390625,
      "loss_num": 0.01373291015625,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 369115820,
      "step": 2922
    },
    {
      "epoch": 0.7498236388122875,
      "grad_norm": 58.686187744140625,
      "learning_rate": 5e-06,
      "loss": 0.9336,
      "num_input_tokens_seen": 369242432,
      "step": 2923
    },
    {
      "epoch": 0.7498236388122875,
      "loss": 0.8837091326713562,
      "loss_ce": 0.0038263278547674417,
      "loss_iou": 0.4140625,
      "loss_num": 0.01068115234375,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 369242432,
      "step": 2923
    },
    {
      "epoch": 0.7500801641762329,
      "grad_norm": 75.75703430175781,
      "learning_rate": 5e-06,
      "loss": 0.9585,
      "num_input_tokens_seen": 369368752,
      "step": 2924
    },
    {
      "epoch": 0.7500801641762329,
      "loss": 0.9671162366867065,
      "loss_ce": 0.0003194212622474879,
      "loss_iou": 0.46484375,
      "loss_num": 0.00775146484375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 369368752,
      "step": 2924
    },
    {
      "epoch": 0.7503366895401783,
      "grad_norm": 57.64829635620117,
      "learning_rate": 5e-06,
      "loss": 1.0495,
      "num_input_tokens_seen": 369496068,
      "step": 2925
    },
    {
      "epoch": 0.7503366895401783,
      "loss": 0.916729748249054,
      "loss_ce": 0.00022585361148230731,
      "loss_iou": 0.4375,
      "loss_num": 0.00836181640625,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 369496068,
      "step": 2925
    },
    {
      "epoch": 0.7505932149041237,
      "grad_norm": 23.91770362854004,
      "learning_rate": 5e-06,
      "loss": 0.9271,
      "num_input_tokens_seen": 369622380,
      "step": 2926
    },
    {
      "epoch": 0.7505932149041237,
      "loss": 0.8240903615951538,
      "loss_ce": 0.0013364898040890694,
      "loss_iou": 0.38671875,
      "loss_num": 0.00958251953125,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 369622380,
      "step": 2926
    },
    {
      "epoch": 0.750849740268069,
      "grad_norm": 24.5523624420166,
      "learning_rate": 5e-06,
      "loss": 0.9012,
      "num_input_tokens_seen": 369748976,
      "step": 2927
    },
    {
      "epoch": 0.750849740268069,
      "loss": 0.8869302272796631,
      "loss_ce": 0.001676369458436966,
      "loss_iou": 0.40625,
      "loss_num": 0.01422119140625,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 369748976,
      "step": 2927
    },
    {
      "epoch": 0.7511062656320143,
      "grad_norm": 59.7867317199707,
      "learning_rate": 5e-06,
      "loss": 0.8306,
      "num_input_tokens_seen": 369874952,
      "step": 2928
    },
    {
      "epoch": 0.7511062656320143,
      "loss": 0.9152774810791016,
      "loss_ce": 0.001703269430436194,
      "loss_iou": 0.431640625,
      "loss_num": 0.010009765625,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 369874952,
      "step": 2928
    },
    {
      "epoch": 0.7513627909959597,
      "grad_norm": 32.444087982177734,
      "learning_rate": 5e-06,
      "loss": 0.9675,
      "num_input_tokens_seen": 370000728,
      "step": 2929
    },
    {
      "epoch": 0.7513627909959597,
      "loss": 0.759773850440979,
      "loss_ce": 0.001473087351769209,
      "loss_iou": 0.353515625,
      "loss_num": 0.01025390625,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 370000728,
      "step": 2929
    },
    {
      "epoch": 0.7516193163599051,
      "grad_norm": 37.633174896240234,
      "learning_rate": 5e-06,
      "loss": 0.9555,
      "num_input_tokens_seen": 370126488,
      "step": 2930
    },
    {
      "epoch": 0.7516193163599051,
      "loss": 0.8306431770324707,
      "loss_ce": 0.001541624660603702,
      "loss_iou": 0.392578125,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 370126488,
      "step": 2930
    },
    {
      "epoch": 0.7518758417238505,
      "grad_norm": 34.20035171508789,
      "learning_rate": 5e-06,
      "loss": 1.0137,
      "num_input_tokens_seen": 370250408,
      "step": 2931
    },
    {
      "epoch": 0.7518758417238505,
      "loss": 1.0433313846588135,
      "loss_ce": 0.002315775491297245,
      "loss_iou": 0.4609375,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 370250408,
      "step": 2931
    },
    {
      "epoch": 0.7521323670877959,
      "grad_norm": 31.269594192504883,
      "learning_rate": 5e-06,
      "loss": 0.9913,
      "num_input_tokens_seen": 370377932,
      "step": 2932
    },
    {
      "epoch": 0.7521323670877959,
      "loss": 1.1491944789886475,
      "loss_ce": 0.0012452425435185432,
      "loss_iou": 0.515625,
      "loss_num": 0.024169921875,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 370377932,
      "step": 2932
    },
    {
      "epoch": 0.7523888924517411,
      "grad_norm": 129.4665985107422,
      "learning_rate": 5e-06,
      "loss": 0.961,
      "num_input_tokens_seen": 370504056,
      "step": 2933
    },
    {
      "epoch": 0.7523888924517411,
      "loss": 1.029911994934082,
      "loss_ce": 0.0015916588017717004,
      "loss_iou": 0.455078125,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 370504056,
      "step": 2933
    },
    {
      "epoch": 0.7526454178156865,
      "grad_norm": 67.43452453613281,
      "learning_rate": 5e-06,
      "loss": 0.9946,
      "num_input_tokens_seen": 370630080,
      "step": 2934
    },
    {
      "epoch": 0.7526454178156865,
      "loss": 0.9475643038749695,
      "loss_ce": 0.0002986827748827636,
      "loss_iou": 0.43359375,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 370630080,
      "step": 2934
    },
    {
      "epoch": 0.7529019431796319,
      "grad_norm": 72.05486297607422,
      "learning_rate": 5e-06,
      "loss": 1.0709,
      "num_input_tokens_seen": 370756984,
      "step": 2935
    },
    {
      "epoch": 0.7529019431796319,
      "loss": 1.1980626583099365,
      "loss_ce": 0.0007969894795678556,
      "loss_iou": 0.54296875,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 370756984,
      "step": 2935
    },
    {
      "epoch": 0.7531584685435773,
      "grad_norm": 30.09787940979004,
      "learning_rate": 5e-06,
      "loss": 1.055,
      "num_input_tokens_seen": 370883880,
      "step": 2936
    },
    {
      "epoch": 0.7531584685435773,
      "loss": 1.3535676002502441,
      "loss_ce": 0.0024934483226388693,
      "loss_iou": 0.59765625,
      "loss_num": 0.031005859375,
      "loss_xval": 1.3515625,
      "num_input_tokens_seen": 370883880,
      "step": 2936
    },
    {
      "epoch": 0.7534149939075226,
      "grad_norm": 26.132169723510742,
      "learning_rate": 5e-06,
      "loss": 0.8269,
      "num_input_tokens_seen": 371009960,
      "step": 2937
    },
    {
      "epoch": 0.7534149939075226,
      "loss": 0.7266606092453003,
      "loss_ce": 9.808260801946744e-05,
      "loss_iou": 0.341796875,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 371009960,
      "step": 2937
    },
    {
      "epoch": 0.7536715192714679,
      "grad_norm": 40.92720413208008,
      "learning_rate": 5e-06,
      "loss": 0.7756,
      "num_input_tokens_seen": 371136112,
      "step": 2938
    },
    {
      "epoch": 0.7536715192714679,
      "loss": 0.8086890578269958,
      "loss_ce": 0.00033946745679713786,
      "loss_iou": 0.37890625,
      "loss_num": 0.0103759765625,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 371136112,
      "step": 2938
    },
    {
      "epoch": 0.7539280446354133,
      "grad_norm": 50.131526947021484,
      "learning_rate": 5e-06,
      "loss": 0.9938,
      "num_input_tokens_seen": 371262380,
      "step": 2939
    },
    {
      "epoch": 0.7539280446354133,
      "loss": 0.7855103015899658,
      "loss_ce": 0.00035402868525125086,
      "loss_iou": 0.376953125,
      "loss_num": 0.006103515625,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 371262380,
      "step": 2939
    },
    {
      "epoch": 0.7541845699993587,
      "grad_norm": 55.68073272705078,
      "learning_rate": 5e-06,
      "loss": 0.8413,
      "num_input_tokens_seen": 371389068,
      "step": 2940
    },
    {
      "epoch": 0.7541845699993587,
      "loss": 0.8037253022193909,
      "loss_ce": 0.0005026362487114966,
      "loss_iou": 0.376953125,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 371389068,
      "step": 2940
    },
    {
      "epoch": 0.7544410953633041,
      "grad_norm": 50.3552360534668,
      "learning_rate": 5e-06,
      "loss": 0.9839,
      "num_input_tokens_seen": 371516228,
      "step": 2941
    },
    {
      "epoch": 0.7544410953633041,
      "loss": 0.839636504650116,
      "loss_ce": 0.0002810178557410836,
      "loss_iou": 0.3984375,
      "loss_num": 0.00830078125,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 371516228,
      "step": 2941
    },
    {
      "epoch": 0.7546976207272494,
      "grad_norm": 55.25839614868164,
      "learning_rate": 5e-06,
      "loss": 0.9236,
      "num_input_tokens_seen": 371643648,
      "step": 2942
    },
    {
      "epoch": 0.7546976207272494,
      "loss": 1.0327321290969849,
      "loss_ce": 0.001482107792980969,
      "loss_iou": 0.482421875,
      "loss_num": 0.01312255859375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 371643648,
      "step": 2942
    },
    {
      "epoch": 0.7549541460911948,
      "grad_norm": 51.121116638183594,
      "learning_rate": 5e-06,
      "loss": 1.1064,
      "num_input_tokens_seen": 371770244,
      "step": 2943
    },
    {
      "epoch": 0.7549541460911948,
      "loss": 1.0671833753585815,
      "loss_ce": 0.0002888813032768667,
      "loss_iou": 0.494140625,
      "loss_num": 0.0159912109375,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 371770244,
      "step": 2943
    },
    {
      "epoch": 0.7552106714551401,
      "grad_norm": 33.96750259399414,
      "learning_rate": 5e-06,
      "loss": 0.9157,
      "num_input_tokens_seen": 371896280,
      "step": 2944
    },
    {
      "epoch": 0.7552106714551401,
      "loss": 0.9088529348373413,
      "loss_ce": 0.0006498864386230707,
      "loss_iou": 0.4140625,
      "loss_num": 0.015625,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 371896280,
      "step": 2944
    },
    {
      "epoch": 0.7554671968190855,
      "grad_norm": 42.79534149169922,
      "learning_rate": 5e-06,
      "loss": 0.9689,
      "num_input_tokens_seen": 372021608,
      "step": 2945
    },
    {
      "epoch": 0.7554671968190855,
      "loss": 0.9629539847373962,
      "loss_ce": 0.0015281589003279805,
      "loss_iou": 0.4453125,
      "loss_num": 0.01416015625,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 372021608,
      "step": 2945
    },
    {
      "epoch": 0.7557237221830309,
      "grad_norm": 48.907371520996094,
      "learning_rate": 5e-06,
      "loss": 0.847,
      "num_input_tokens_seen": 372148148,
      "step": 2946
    },
    {
      "epoch": 0.7557237221830309,
      "loss": 0.8158549070358276,
      "loss_ce": 0.0026225056499242783,
      "loss_iou": 0.3671875,
      "loss_num": 0.01544189453125,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 372148148,
      "step": 2946
    },
    {
      "epoch": 0.7559802475469762,
      "grad_norm": 47.80815505981445,
      "learning_rate": 5e-06,
      "loss": 1.1017,
      "num_input_tokens_seen": 372274872,
      "step": 2947
    },
    {
      "epoch": 0.7559802475469762,
      "loss": 1.1542061567306519,
      "loss_ce": 0.00039753917371854186,
      "loss_iou": 0.52734375,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 372274872,
      "step": 2947
    },
    {
      "epoch": 0.7562367729109216,
      "grad_norm": 50.44989776611328,
      "learning_rate": 5e-06,
      "loss": 0.8847,
      "num_input_tokens_seen": 372400848,
      "step": 2948
    },
    {
      "epoch": 0.7562367729109216,
      "loss": 0.8683205842971802,
      "loss_ce": 0.004551074467599392,
      "loss_iou": 0.40625,
      "loss_num": 0.0107421875,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 372400848,
      "step": 2948
    },
    {
      "epoch": 0.7564932982748669,
      "grad_norm": 52.11412048339844,
      "learning_rate": 5e-06,
      "loss": 0.9332,
      "num_input_tokens_seen": 372527024,
      "step": 2949
    },
    {
      "epoch": 0.7564932982748669,
      "loss": 0.9911819696426392,
      "loss_ce": 0.001435853191651404,
      "loss_iou": 0.4609375,
      "loss_num": 0.013427734375,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 372527024,
      "step": 2949
    },
    {
      "epoch": 0.7567498236388123,
      "grad_norm": 45.02421951293945,
      "learning_rate": 5e-06,
      "loss": 0.9029,
      "num_input_tokens_seen": 372651624,
      "step": 2950
    },
    {
      "epoch": 0.7567498236388123,
      "loss": 0.7059605121612549,
      "loss_ce": 0.00014994715456850827,
      "loss_iou": 0.337890625,
      "loss_num": 0.00628662109375,
      "loss_xval": 0.70703125,
      "num_input_tokens_seen": 372651624,
      "step": 2950
    },
    {
      "epoch": 0.7570063490027577,
      "grad_norm": 45.83402633666992,
      "learning_rate": 5e-06,
      "loss": 0.936,
      "num_input_tokens_seen": 372777512,
      "step": 2951
    },
    {
      "epoch": 0.7570063490027577,
      "loss": 1.0333895683288574,
      "loss_ce": 0.0006747430888935924,
      "loss_iou": 0.46484375,
      "loss_num": 0.02099609375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 372777512,
      "step": 2951
    },
    {
      "epoch": 0.757262874366703,
      "grad_norm": 54.62164306640625,
      "learning_rate": 5e-06,
      "loss": 0.9646,
      "num_input_tokens_seen": 372903696,
      "step": 2952
    },
    {
      "epoch": 0.757262874366703,
      "loss": 1.2780678272247314,
      "loss_ce": 0.0014564378652721643,
      "loss_iou": 0.58203125,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 372903696,
      "step": 2952
    },
    {
      "epoch": 0.7575193997306484,
      "grad_norm": 44.0029182434082,
      "learning_rate": 5e-06,
      "loss": 0.9768,
      "num_input_tokens_seen": 373029860,
      "step": 2953
    },
    {
      "epoch": 0.7575193997306484,
      "loss": 0.8335681557655334,
      "loss_ce": 0.0042224302887916565,
      "loss_iou": 0.39453125,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 373029860,
      "step": 2953
    },
    {
      "epoch": 0.7577759250945937,
      "grad_norm": 35.36329650878906,
      "learning_rate": 5e-06,
      "loss": 0.9466,
      "num_input_tokens_seen": 373156908,
      "step": 2954
    },
    {
      "epoch": 0.7577759250945937,
      "loss": 0.9010488390922546,
      "loss_ce": 0.00016992632299661636,
      "loss_iou": 0.427734375,
      "loss_num": 0.00933837890625,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 373156908,
      "step": 2954
    },
    {
      "epoch": 0.7580324504585391,
      "grad_norm": 65.16951751708984,
      "learning_rate": 5e-06,
      "loss": 0.9323,
      "num_input_tokens_seen": 373282184,
      "step": 2955
    },
    {
      "epoch": 0.7580324504585391,
      "loss": 0.7967361211776733,
      "loss_ce": 0.0008376696496270597,
      "loss_iou": 0.380859375,
      "loss_num": 0.006927490234375,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 373282184,
      "step": 2955
    },
    {
      "epoch": 0.7582889758224844,
      "grad_norm": 30.93491554260254,
      "learning_rate": 5e-06,
      "loss": 1.0973,
      "num_input_tokens_seen": 373409256,
      "step": 2956
    },
    {
      "epoch": 0.7582889758224844,
      "loss": 1.3271863460540771,
      "loss_ce": 0.0015027127228677273,
      "loss_iou": 0.57421875,
      "loss_num": 0.034912109375,
      "loss_xval": 1.328125,
      "num_input_tokens_seen": 373409256,
      "step": 2956
    },
    {
      "epoch": 0.7585455011864298,
      "grad_norm": 32.10368728637695,
      "learning_rate": 5e-06,
      "loss": 0.8917,
      "num_input_tokens_seen": 373534256,
      "step": 2957
    },
    {
      "epoch": 0.7585455011864298,
      "loss": 1.1536974906921387,
      "loss_ce": 0.001353770261630416,
      "loss_iou": 0.515625,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 373534256,
      "step": 2957
    },
    {
      "epoch": 0.7588020265503752,
      "grad_norm": 28.152685165405273,
      "learning_rate": 5e-06,
      "loss": 0.8366,
      "num_input_tokens_seen": 373660736,
      "step": 2958
    },
    {
      "epoch": 0.7588020265503752,
      "loss": 0.7628601789474487,
      "loss_ce": 0.0001648999168537557,
      "loss_iou": 0.35546875,
      "loss_num": 0.01031494140625,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 373660736,
      "step": 2958
    },
    {
      "epoch": 0.7590585519143205,
      "grad_norm": 36.67182159423828,
      "learning_rate": 5e-06,
      "loss": 1.0225,
      "num_input_tokens_seen": 373786812,
      "step": 2959
    },
    {
      "epoch": 0.7590585519143205,
      "loss": 0.8675322532653809,
      "loss_ce": 0.0010772129753604531,
      "loss_iou": 0.384765625,
      "loss_num": 0.019287109375,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 373786812,
      "step": 2959
    },
    {
      "epoch": 0.7593150772782659,
      "grad_norm": 58.903228759765625,
      "learning_rate": 5e-06,
      "loss": 0.8594,
      "num_input_tokens_seen": 373913828,
      "step": 2960
    },
    {
      "epoch": 0.7593150772782659,
      "loss": 0.8267399072647095,
      "loss_ce": 0.0030094454996287823,
      "loss_iou": 0.392578125,
      "loss_num": 0.0079345703125,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 373913828,
      "step": 2960
    },
    {
      "epoch": 0.7595716026422112,
      "grad_norm": 56.84625244140625,
      "learning_rate": 5e-06,
      "loss": 0.9519,
      "num_input_tokens_seen": 374039736,
      "step": 2961
    },
    {
      "epoch": 0.7595716026422112,
      "loss": 0.7220573425292969,
      "loss_ce": 0.0013541971566155553,
      "loss_iou": 0.34375,
      "loss_num": 0.006195068359375,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 374039736,
      "step": 2961
    },
    {
      "epoch": 0.7598281280061566,
      "grad_norm": 44.762752532958984,
      "learning_rate": 5e-06,
      "loss": 0.8812,
      "num_input_tokens_seen": 374165556,
      "step": 2962
    },
    {
      "epoch": 0.7598281280061566,
      "loss": 1.0148217678070068,
      "loss_ce": 0.0006616117316298187,
      "loss_iou": 0.453125,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 374165556,
      "step": 2962
    },
    {
      "epoch": 0.760084653370102,
      "grad_norm": 46.556514739990234,
      "learning_rate": 5e-06,
      "loss": 0.948,
      "num_input_tokens_seen": 374292376,
      "step": 2963
    },
    {
      "epoch": 0.760084653370102,
      "loss": 1.0515354871749878,
      "loss_ce": 0.0022190194576978683,
      "loss_iou": 0.4609375,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 374292376,
      "step": 2963
    },
    {
      "epoch": 0.7603411787340473,
      "grad_norm": 36.3901481628418,
      "learning_rate": 5e-06,
      "loss": 0.9882,
      "num_input_tokens_seen": 374419420,
      "step": 2964
    },
    {
      "epoch": 0.7603411787340473,
      "loss": 0.9720080494880676,
      "loss_ce": 0.00032833623117767274,
      "loss_iou": 0.458984375,
      "loss_num": 0.01068115234375,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 374419420,
      "step": 2964
    },
    {
      "epoch": 0.7605977040979927,
      "grad_norm": 42.79838562011719,
      "learning_rate": 5e-06,
      "loss": 0.9306,
      "num_input_tokens_seen": 374545548,
      "step": 2965
    },
    {
      "epoch": 0.7605977040979927,
      "loss": 0.9185129404067993,
      "loss_ce": 0.0034738441463559866,
      "loss_iou": 0.423828125,
      "loss_num": 0.013671875,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 374545548,
      "step": 2965
    },
    {
      "epoch": 0.760854229461938,
      "grad_norm": 52.98666763305664,
      "learning_rate": 5e-06,
      "loss": 0.9971,
      "num_input_tokens_seen": 374671960,
      "step": 2966
    },
    {
      "epoch": 0.760854229461938,
      "loss": 1.0364844799041748,
      "loss_ce": 0.001816516974940896,
      "loss_iou": 0.462890625,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 374671960,
      "step": 2966
    },
    {
      "epoch": 0.7611107548258834,
      "grad_norm": 42.50741958618164,
      "learning_rate": 5e-06,
      "loss": 0.8961,
      "num_input_tokens_seen": 374797460,
      "step": 2967
    },
    {
      "epoch": 0.7611107548258834,
      "loss": 1.0140774250030518,
      "loss_ce": 0.0011380409123376012,
      "loss_iou": 0.4609375,
      "loss_num": 0.01806640625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 374797460,
      "step": 2967
    },
    {
      "epoch": 0.7613672801898288,
      "grad_norm": 30.078460693359375,
      "learning_rate": 5e-06,
      "loss": 0.881,
      "num_input_tokens_seen": 374924040,
      "step": 2968
    },
    {
      "epoch": 0.7613672801898288,
      "loss": 0.8513280153274536,
      "loss_ce": 0.0017186026088893414,
      "loss_iou": 0.390625,
      "loss_num": 0.01324462890625,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 374924040,
      "step": 2968
    },
    {
      "epoch": 0.7616238055537742,
      "grad_norm": 39.2130241394043,
      "learning_rate": 5e-06,
      "loss": 0.9402,
      "num_input_tokens_seen": 375050048,
      "step": 2969
    },
    {
      "epoch": 0.7616238055537742,
      "loss": 1.0690040588378906,
      "loss_ce": 0.0006447683554142714,
      "loss_iou": 0.48046875,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 375050048,
      "step": 2969
    },
    {
      "epoch": 0.7618803309177195,
      "grad_norm": 62.42493438720703,
      "learning_rate": 5e-06,
      "loss": 0.905,
      "num_input_tokens_seen": 375176432,
      "step": 2970
    },
    {
      "epoch": 0.7618803309177195,
      "loss": 0.8308520913124084,
      "loss_ce": 0.00028565197135321796,
      "loss_iou": 0.390625,
      "loss_num": 0.00958251953125,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 375176432,
      "step": 2970
    },
    {
      "epoch": 0.7621368562816648,
      "grad_norm": 49.771629333496094,
      "learning_rate": 5e-06,
      "loss": 0.9804,
      "num_input_tokens_seen": 375303340,
      "step": 2971
    },
    {
      "epoch": 0.7621368562816648,
      "loss": 1.097997784614563,
      "loss_ce": 0.0022947019897401333,
      "loss_iou": 0.49609375,
      "loss_num": 0.020751953125,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 375303340,
      "step": 2971
    },
    {
      "epoch": 0.7623933816456102,
      "grad_norm": 18.602466583251953,
      "learning_rate": 5e-06,
      "loss": 0.9097,
      "num_input_tokens_seen": 375429560,
      "step": 2972
    },
    {
      "epoch": 0.7623933816456102,
      "loss": 0.8840033411979675,
      "loss_ce": 0.002411535242572427,
      "loss_iou": 0.40625,
      "loss_num": 0.01409912109375,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 375429560,
      "step": 2972
    },
    {
      "epoch": 0.7626499070095556,
      "grad_norm": 16.01640510559082,
      "learning_rate": 5e-06,
      "loss": 0.9738,
      "num_input_tokens_seen": 375554480,
      "step": 2973
    },
    {
      "epoch": 0.7626499070095556,
      "loss": 0.9353116154670715,
      "loss_ce": 0.00025296967942267656,
      "loss_iou": 0.4375,
      "loss_num": 0.01177978515625,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 375554480,
      "step": 2973
    },
    {
      "epoch": 0.762906432373501,
      "grad_norm": 43.27749252319336,
      "learning_rate": 5e-06,
      "loss": 0.882,
      "num_input_tokens_seen": 375680216,
      "step": 2974
    },
    {
      "epoch": 0.762906432373501,
      "loss": 0.8702302575111389,
      "loss_ce": 0.0013337796553969383,
      "loss_iou": 0.396484375,
      "loss_num": 0.01531982421875,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 375680216,
      "step": 2974
    },
    {
      "epoch": 0.7631629577374462,
      "grad_norm": 26.667980194091797,
      "learning_rate": 5e-06,
      "loss": 1.0156,
      "num_input_tokens_seen": 375806072,
      "step": 2975
    },
    {
      "epoch": 0.7631629577374462,
      "loss": 0.7538960576057434,
      "loss_ce": 0.0024311933666467667,
      "loss_iou": 0.357421875,
      "loss_num": 0.007537841796875,
      "loss_xval": 0.75,
      "num_input_tokens_seen": 375806072,
      "step": 2975
    },
    {
      "epoch": 0.7634194831013916,
      "grad_norm": 21.126110076904297,
      "learning_rate": 5e-06,
      "loss": 0.9138,
      "num_input_tokens_seen": 375931316,
      "step": 2976
    },
    {
      "epoch": 0.7634194831013916,
      "loss": 0.8953748941421509,
      "loss_ce": 0.0023084767162799835,
      "loss_iou": 0.421875,
      "loss_num": 0.010009765625,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 375931316,
      "step": 2976
    },
    {
      "epoch": 0.763676008465337,
      "grad_norm": 19.52507781982422,
      "learning_rate": 5e-06,
      "loss": 0.9165,
      "num_input_tokens_seen": 376057196,
      "step": 2977
    },
    {
      "epoch": 0.763676008465337,
      "loss": 0.941990852355957,
      "loss_ce": 0.007420550100505352,
      "loss_iou": 0.419921875,
      "loss_num": 0.018798828125,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 376057196,
      "step": 2977
    },
    {
      "epoch": 0.7639325338292824,
      "grad_norm": 29.70302391052246,
      "learning_rate": 5e-06,
      "loss": 0.9372,
      "num_input_tokens_seen": 376182612,
      "step": 2978
    },
    {
      "epoch": 0.7639325338292824,
      "loss": 0.8501605987548828,
      "loss_ce": 0.0059223473072052,
      "loss_iou": 0.3828125,
      "loss_num": 0.01519775390625,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 376182612,
      "step": 2978
    },
    {
      "epoch": 0.7641890591932278,
      "grad_norm": 53.99999237060547,
      "learning_rate": 5e-06,
      "loss": 0.9796,
      "num_input_tokens_seen": 376308192,
      "step": 2979
    },
    {
      "epoch": 0.7641890591932278,
      "loss": 1.1052241325378418,
      "loss_ce": 0.0004877225146628916,
      "loss_iou": 0.49609375,
      "loss_num": 0.02294921875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 376308192,
      "step": 2979
    },
    {
      "epoch": 0.764445584557173,
      "grad_norm": 55.934852600097656,
      "learning_rate": 5e-06,
      "loss": 0.9695,
      "num_input_tokens_seen": 376434436,
      "step": 2980
    },
    {
      "epoch": 0.764445584557173,
      "loss": 0.9760003089904785,
      "loss_ce": 0.0035882270894944668,
      "loss_iou": 0.44140625,
      "loss_num": 0.017822265625,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 376434436,
      "step": 2980
    },
    {
      "epoch": 0.7647021099211184,
      "grad_norm": 59.983070373535156,
      "learning_rate": 5e-06,
      "loss": 1.0775,
      "num_input_tokens_seen": 376561456,
      "step": 2981
    },
    {
      "epoch": 0.7647021099211184,
      "loss": 1.0145649909973145,
      "loss_ce": 0.0008931195479817688,
      "loss_iou": 0.466796875,
      "loss_num": 0.0162353515625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 376561456,
      "step": 2981
    },
    {
      "epoch": 0.7649586352850638,
      "grad_norm": 46.19498825073242,
      "learning_rate": 5e-06,
      "loss": 1.0677,
      "num_input_tokens_seen": 376687132,
      "step": 2982
    },
    {
      "epoch": 0.7649586352850638,
      "loss": 1.0763161182403564,
      "loss_ce": 0.0006325061549432576,
      "loss_iou": 0.50390625,
      "loss_num": 0.0145263671875,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 376687132,
      "step": 2982
    },
    {
      "epoch": 0.7652151606490092,
      "grad_norm": 34.18132400512695,
      "learning_rate": 5e-06,
      "loss": 0.7849,
      "num_input_tokens_seen": 376814420,
      "step": 2983
    },
    {
      "epoch": 0.7652151606490092,
      "loss": 0.8837023973464966,
      "loss_ce": 0.00088985834736377,
      "loss_iou": 0.412109375,
      "loss_num": 0.0118408203125,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 376814420,
      "step": 2983
    },
    {
      "epoch": 0.7654716860129546,
      "grad_norm": 45.58045196533203,
      "learning_rate": 5e-06,
      "loss": 1.0549,
      "num_input_tokens_seen": 376941352,
      "step": 2984
    },
    {
      "epoch": 0.7654716860129546,
      "loss": 1.245667815208435,
      "loss_ce": 0.0044568730518221855,
      "loss_iou": 0.54296875,
      "loss_num": 0.031494140625,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 376941352,
      "step": 2984
    },
    {
      "epoch": 0.7657282113768998,
      "grad_norm": 51.73003387451172,
      "learning_rate": 5e-06,
      "loss": 0.9674,
      "num_input_tokens_seen": 377067576,
      "step": 2985
    },
    {
      "epoch": 0.7657282113768998,
      "loss": 1.0420193672180176,
      "loss_ce": 0.005398171953856945,
      "loss_iou": 0.466796875,
      "loss_num": 0.02099609375,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 377067576,
      "step": 2985
    },
    {
      "epoch": 0.7659847367408452,
      "grad_norm": 49.06282424926758,
      "learning_rate": 5e-06,
      "loss": 0.985,
      "num_input_tokens_seen": 377193704,
      "step": 2986
    },
    {
      "epoch": 0.7659847367408452,
      "loss": 0.9154390096664429,
      "loss_ce": 0.0033296116162091494,
      "loss_iou": 0.4140625,
      "loss_num": 0.016845703125,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 377193704,
      "step": 2986
    },
    {
      "epoch": 0.7662412621047906,
      "grad_norm": 106.10728454589844,
      "learning_rate": 5e-06,
      "loss": 1.0045,
      "num_input_tokens_seen": 377321560,
      "step": 2987
    },
    {
      "epoch": 0.7662412621047906,
      "loss": 0.9279747605323792,
      "loss_ce": 0.0004845091898459941,
      "loss_iou": 0.431640625,
      "loss_num": 0.0130615234375,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 377321560,
      "step": 2987
    },
    {
      "epoch": 0.766497787468736,
      "grad_norm": 41.905357360839844,
      "learning_rate": 5e-06,
      "loss": 0.9095,
      "num_input_tokens_seen": 377447356,
      "step": 2988
    },
    {
      "epoch": 0.766497787468736,
      "loss": 0.9143307209014893,
      "loss_ce": 0.0002681694459170103,
      "loss_iou": 0.431640625,
      "loss_num": 0.01031494140625,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 377447356,
      "step": 2988
    },
    {
      "epoch": 0.7667543128326814,
      "grad_norm": 55.05316925048828,
      "learning_rate": 5e-06,
      "loss": 0.8834,
      "num_input_tokens_seen": 377573516,
      "step": 2989
    },
    {
      "epoch": 0.7667543128326814,
      "loss": 0.9275453686714172,
      "loss_ce": 0.001764070475474,
      "loss_iou": 0.427734375,
      "loss_num": 0.01397705078125,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 377573516,
      "step": 2989
    },
    {
      "epoch": 0.7670108381966267,
      "grad_norm": 35.71797561645508,
      "learning_rate": 5e-06,
      "loss": 1.0149,
      "num_input_tokens_seen": 377699840,
      "step": 2990
    },
    {
      "epoch": 0.7670108381966267,
      "loss": 0.9864544868469238,
      "loss_ce": 0.0035442793741822243,
      "loss_iou": 0.44140625,
      "loss_num": 0.0203857421875,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 377699840,
      "step": 2990
    },
    {
      "epoch": 0.767267363560572,
      "grad_norm": 49.32024383544922,
      "learning_rate": 5e-06,
      "loss": 0.8691,
      "num_input_tokens_seen": 377827176,
      "step": 2991
    },
    {
      "epoch": 0.767267363560572,
      "loss": 0.8510367274284363,
      "loss_ce": 0.00045078134280629456,
      "loss_iou": 0.400390625,
      "loss_num": 0.01007080078125,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 377827176,
      "step": 2991
    },
    {
      "epoch": 0.7675238889245174,
      "grad_norm": 51.15583801269531,
      "learning_rate": 5e-06,
      "loss": 0.9877,
      "num_input_tokens_seen": 377953664,
      "step": 2992
    },
    {
      "epoch": 0.7675238889245174,
      "loss": 0.9211035966873169,
      "loss_ce": 0.00020508574380073696,
      "loss_iou": 0.43359375,
      "loss_num": 0.01116943359375,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 377953664,
      "step": 2992
    },
    {
      "epoch": 0.7677804142884628,
      "grad_norm": 40.09506607055664,
      "learning_rate": 5e-06,
      "loss": 0.9218,
      "num_input_tokens_seen": 378079844,
      "step": 2993
    },
    {
      "epoch": 0.7677804142884628,
      "loss": 0.9057847261428833,
      "loss_ce": 0.0005113178631290793,
      "loss_iou": 0.419921875,
      "loss_num": 0.0128173828125,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 378079844,
      "step": 2993
    },
    {
      "epoch": 0.7680369396524082,
      "grad_norm": 55.21718978881836,
      "learning_rate": 5e-06,
      "loss": 0.8465,
      "num_input_tokens_seen": 378207008,
      "step": 2994
    },
    {
      "epoch": 0.7680369396524082,
      "loss": 0.7604407072067261,
      "loss_ce": 0.0001868056715466082,
      "loss_iou": 0.357421875,
      "loss_num": 0.0087890625,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 378207008,
      "step": 2994
    },
    {
      "epoch": 0.7682934650163535,
      "grad_norm": 73.54366302490234,
      "learning_rate": 5e-06,
      "loss": 1.0032,
      "num_input_tokens_seen": 378333932,
      "step": 2995
    },
    {
      "epoch": 0.7682934650163535,
      "loss": 0.9066866636276245,
      "loss_ce": 0.0009249552385881543,
      "loss_iou": 0.42578125,
      "loss_num": 0.010498046875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 378333932,
      "step": 2995
    },
    {
      "epoch": 0.7685499903802988,
      "grad_norm": 42.544898986816406,
      "learning_rate": 5e-06,
      "loss": 0.9589,
      "num_input_tokens_seen": 378459972,
      "step": 2996
    },
    {
      "epoch": 0.7685499903802988,
      "loss": 0.911292552947998,
      "loss_ce": 0.0006479885196313262,
      "loss_iou": 0.4296875,
      "loss_num": 0.0103759765625,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 378459972,
      "step": 2996
    },
    {
      "epoch": 0.7688065157442442,
      "grad_norm": 34.70707321166992,
      "learning_rate": 5e-06,
      "loss": 0.9024,
      "num_input_tokens_seen": 378586588,
      "step": 2997
    },
    {
      "epoch": 0.7688065157442442,
      "loss": 0.7597208619117737,
      "loss_ce": 0.0006876660045236349,
      "loss_iou": 0.34375,
      "loss_num": 0.01422119140625,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 378586588,
      "step": 2997
    },
    {
      "epoch": 0.7690630411081896,
      "grad_norm": 69.78291320800781,
      "learning_rate": 5e-06,
      "loss": 0.9562,
      "num_input_tokens_seen": 378713680,
      "step": 2998
    },
    {
      "epoch": 0.7690630411081896,
      "loss": 0.9241538047790527,
      "loss_ce": 0.002278837375342846,
      "loss_iou": 0.419921875,
      "loss_num": 0.01611328125,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 378713680,
      "step": 2998
    },
    {
      "epoch": 0.769319566472135,
      "grad_norm": 39.56076431274414,
      "learning_rate": 5e-06,
      "loss": 0.9887,
      "num_input_tokens_seen": 378839204,
      "step": 2999
    },
    {
      "epoch": 0.769319566472135,
      "loss": 0.9081380367279053,
      "loss_ce": 0.00042316113831475377,
      "loss_iou": 0.423828125,
      "loss_num": 0.01165771484375,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 378839204,
      "step": 2999
    },
    {
      "epoch": 0.7695760918360803,
      "grad_norm": 26.200607299804688,
      "learning_rate": 5e-06,
      "loss": 1.0636,
      "num_input_tokens_seen": 378965548,
      "step": 3000
    },
    {
      "epoch": 0.7695760918360803,
      "eval_icons_CIoU": 0.2715916112065315,
      "eval_icons_GIoU": 0.22925589978694916,
      "eval_icons_IoU": 0.44085457921028137,
      "eval_icons_MAE_all": 0.025633021257817745,
      "eval_icons_MAE_h": 0.03409300930798054,
      "eval_icons_MAE_w": 0.05155266635119915,
      "eval_icons_MAE_x_boxes": 0.051800886169075966,
      "eval_icons_MAE_y_boxes": 0.034653183072805405,
      "eval_icons_NUM_probability": 0.9998824000358582,
      "eval_icons_inside_bbox": 0.6805555522441864,
      "eval_icons_loss": 1.6419742107391357,
      "eval_icons_loss_ce": 8.371191324840765e-05,
      "eval_icons_loss_iou": 0.736083984375,
      "eval_icons_loss_num": 0.026887893676757812,
      "eval_icons_loss_xval": 1.60693359375,
      "eval_icons_runtime": 48.0868,
      "eval_icons_samples_per_second": 1.04,
      "eval_icons_steps_per_second": 0.042,
      "num_input_tokens_seen": 378965548,
      "step": 3000
    },
    {
      "epoch": 0.7695760918360803,
      "eval_screenspot_CIoU": 0.11348300178845723,
      "eval_screenspot_GIoU": 0.093210119754076,
      "eval_screenspot_IoU": 0.2794196556011836,
      "eval_screenspot_MAE_all": 0.07668468977014224,
      "eval_screenspot_MAE_h": 0.07430399705966313,
      "eval_screenspot_MAE_w": 0.11935861160357793,
      "eval_screenspot_MAE_x_boxes": 0.09589457263549168,
      "eval_screenspot_MAE_y_boxes": 0.05734619374076525,
      "eval_screenspot_NUM_probability": 0.9999253153800964,
      "eval_screenspot_inside_bbox": 0.6016666690508524,
      "eval_screenspot_loss": 2.2438766956329346,
      "eval_screenspot_loss_ce": 0.0013917963951826096,
      "eval_screenspot_loss_iou": 0.9330240885416666,
      "eval_screenspot_loss_num": 0.0814208984375,
      "eval_screenspot_loss_xval": 2.2721354166666665,
      "eval_screenspot_runtime": 89.7916,
      "eval_screenspot_samples_per_second": 0.991,
      "eval_screenspot_steps_per_second": 0.033,
      "num_input_tokens_seen": 378965548,
      "step": 3000
    },
    {
      "epoch": 0.7695760918360803,
      "loss": 2.152388095855713,
      "loss_ce": 0.0010210180189460516,
      "loss_iou": 0.90234375,
      "loss_num": 0.0693359375,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 378965548,
      "step": 3000
    },
    {
      "epoch": 0.7698326172000256,
      "grad_norm": 39.61350631713867,
      "learning_rate": 5e-06,
      "loss": 0.991,
      "num_input_tokens_seen": 379091584,
      "step": 3001
    },
    {
      "epoch": 0.7698326172000256,
      "loss": 1.0921118259429932,
      "loss_ce": 0.001779855927452445,
      "loss_iou": 0.51953125,
      "loss_num": 0.01007080078125,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 379091584,
      "step": 3001
    },
    {
      "epoch": 0.770089142563971,
      "grad_norm": 37.6118278503418,
      "learning_rate": 5e-06,
      "loss": 0.8713,
      "num_input_tokens_seen": 379218960,
      "step": 3002
    },
    {
      "epoch": 0.770089142563971,
      "loss": 0.7587677240371704,
      "loss_ce": 0.0004669131012633443,
      "loss_iou": 0.359375,
      "loss_num": 0.007598876953125,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 379218960,
      "step": 3002
    },
    {
      "epoch": 0.7703456679279164,
      "grad_norm": 50.787174224853516,
      "learning_rate": 5e-06,
      "loss": 0.9134,
      "num_input_tokens_seen": 379344380,
      "step": 3003
    },
    {
      "epoch": 0.7703456679279164,
      "loss": 1.0935838222503662,
      "loss_ce": 0.0022752871736884117,
      "loss_iou": 0.49609375,
      "loss_num": 0.01953125,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 379344380,
      "step": 3003
    },
    {
      "epoch": 0.7706021932918617,
      "grad_norm": 48.33881378173828,
      "learning_rate": 5e-06,
      "loss": 0.9195,
      "num_input_tokens_seen": 379470860,
      "step": 3004
    },
    {
      "epoch": 0.7706021932918617,
      "loss": 0.8394947052001953,
      "loss_ce": 0.003068935591727495,
      "loss_iou": 0.392578125,
      "loss_num": 0.0103759765625,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 379470860,
      "step": 3004
    },
    {
      "epoch": 0.7708587186558071,
      "grad_norm": 42.270172119140625,
      "learning_rate": 5e-06,
      "loss": 0.9303,
      "num_input_tokens_seen": 379595800,
      "step": 3005
    },
    {
      "epoch": 0.7708587186558071,
      "loss": 0.9560731053352356,
      "loss_ce": 0.0005066974554210901,
      "loss_iou": 0.4375,
      "loss_num": 0.015625,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 379595800,
      "step": 3005
    },
    {
      "epoch": 0.7711152440197524,
      "grad_norm": 48.07954025268555,
      "learning_rate": 5e-06,
      "loss": 0.8251,
      "num_input_tokens_seen": 379722584,
      "step": 3006
    },
    {
      "epoch": 0.7711152440197524,
      "loss": 0.8347651362419128,
      "loss_ce": 0.0002924787113443017,
      "loss_iou": 0.39453125,
      "loss_num": 0.00872802734375,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 379722584,
      "step": 3006
    },
    {
      "epoch": 0.7713717693836978,
      "grad_norm": 67.18219757080078,
      "learning_rate": 5e-06,
      "loss": 1.0236,
      "num_input_tokens_seen": 379848936,
      "step": 3007
    },
    {
      "epoch": 0.7713717693836978,
      "loss": 0.8696813583374023,
      "loss_ce": 0.0007848716923035681,
      "loss_iou": 0.40625,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 379848936,
      "step": 3007
    },
    {
      "epoch": 0.7716282947476432,
      "grad_norm": 59.21671676635742,
      "learning_rate": 5e-06,
      "loss": 1.0638,
      "num_input_tokens_seen": 379977028,
      "step": 3008
    },
    {
      "epoch": 0.7716282947476432,
      "loss": 1.0312280654907227,
      "loss_ce": 0.00046638547792099416,
      "loss_iou": 0.482421875,
      "loss_num": 0.012939453125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 379977028,
      "step": 3008
    },
    {
      "epoch": 0.7718848201115885,
      "grad_norm": 52.688758850097656,
      "learning_rate": 5e-06,
      "loss": 0.8988,
      "num_input_tokens_seen": 380103124,
      "step": 3009
    },
    {
      "epoch": 0.7718848201115885,
      "loss": 0.8675566911697388,
      "loss_ce": 0.00036926561733707786,
      "loss_iou": 0.416015625,
      "loss_num": 0.007080078125,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 380103124,
      "step": 3009
    },
    {
      "epoch": 0.7721413454755339,
      "grad_norm": 42.36954116821289,
      "learning_rate": 5e-06,
      "loss": 0.9485,
      "num_input_tokens_seen": 380229504,
      "step": 3010
    },
    {
      "epoch": 0.7721413454755339,
      "loss": 0.766742467880249,
      "loss_ce": 0.0001409777905791998,
      "loss_iou": 0.3671875,
      "loss_num": 0.00628662109375,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 380229504,
      "step": 3010
    },
    {
      "epoch": 0.7723978708394793,
      "grad_norm": 28.404325485229492,
      "learning_rate": 5e-06,
      "loss": 0.9648,
      "num_input_tokens_seen": 380356656,
      "step": 3011
    },
    {
      "epoch": 0.7723978708394793,
      "loss": 0.9414765238761902,
      "loss_ce": 0.0005585274193435907,
      "loss_iou": 0.443359375,
      "loss_num": 0.010498046875,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 380356656,
      "step": 3011
    },
    {
      "epoch": 0.7726543962034246,
      "grad_norm": 41.81505584716797,
      "learning_rate": 5e-06,
      "loss": 0.9214,
      "num_input_tokens_seen": 380483164,
      "step": 3012
    },
    {
      "epoch": 0.7726543962034246,
      "loss": 0.8766902685165405,
      "loss_ce": 0.0002254076098324731,
      "loss_iou": 0.416015625,
      "loss_num": 0.009033203125,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 380483164,
      "step": 3012
    },
    {
      "epoch": 0.77291092156737,
      "grad_norm": 53.625797271728516,
      "learning_rate": 5e-06,
      "loss": 1.0151,
      "num_input_tokens_seen": 380609572,
      "step": 3013
    },
    {
      "epoch": 0.77291092156737,
      "loss": 1.062394142150879,
      "loss_ce": 0.0018473234958946705,
      "loss_iou": 0.46875,
      "loss_num": 0.02392578125,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 380609572,
      "step": 3013
    },
    {
      "epoch": 0.7731674469313153,
      "grad_norm": 48.934505462646484,
      "learning_rate": 5e-06,
      "loss": 0.9882,
      "num_input_tokens_seen": 380735436,
      "step": 3014
    },
    {
      "epoch": 0.7731674469313153,
      "loss": 1.048119306564331,
      "loss_ce": 0.0012443226296454668,
      "loss_iou": 0.470703125,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 380735436,
      "step": 3014
    },
    {
      "epoch": 0.7734239722952607,
      "grad_norm": 27.41706085205078,
      "learning_rate": 5e-06,
      "loss": 0.9804,
      "num_input_tokens_seen": 380861936,
      "step": 3015
    },
    {
      "epoch": 0.7734239722952607,
      "loss": 0.9805446863174438,
      "loss_ce": 0.0005642024334520102,
      "loss_iou": 0.443359375,
      "loss_num": 0.018798828125,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 380861936,
      "step": 3015
    },
    {
      "epoch": 0.7736804976592061,
      "grad_norm": 36.12276077270508,
      "learning_rate": 5e-06,
      "loss": 0.9816,
      "num_input_tokens_seen": 380986832,
      "step": 3016
    },
    {
      "epoch": 0.7736804976592061,
      "loss": 1.3909986019134521,
      "loss_ce": 0.005744654685258865,
      "loss_iou": 0.59375,
      "loss_num": 0.039794921875,
      "loss_xval": 1.3828125,
      "num_input_tokens_seen": 380986832,
      "step": 3016
    },
    {
      "epoch": 0.7739370230231514,
      "grad_norm": 44.791900634765625,
      "learning_rate": 5e-06,
      "loss": 0.963,
      "num_input_tokens_seen": 381112624,
      "step": 3017
    },
    {
      "epoch": 0.7739370230231514,
      "loss": 1.0637054443359375,
      "loss_ce": 0.0012053779792040586,
      "loss_iou": 0.458984375,
      "loss_num": 0.0286865234375,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 381112624,
      "step": 3017
    },
    {
      "epoch": 0.7741935483870968,
      "grad_norm": 63.07220458984375,
      "learning_rate": 5e-06,
      "loss": 0.9542,
      "num_input_tokens_seen": 381239928,
      "step": 3018
    },
    {
      "epoch": 0.7741935483870968,
      "loss": 0.9526422023773193,
      "loss_ce": 0.0004937045741826296,
      "loss_iou": 0.447265625,
      "loss_num": 0.011962890625,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 381239928,
      "step": 3018
    },
    {
      "epoch": 0.7744500737510421,
      "grad_norm": 76.1841812133789,
      "learning_rate": 5e-06,
      "loss": 0.8689,
      "num_input_tokens_seen": 381366424,
      "step": 3019
    },
    {
      "epoch": 0.7744500737510421,
      "loss": 0.8687546849250793,
      "loss_ce": 0.0001023576915031299,
      "loss_iou": 0.419921875,
      "loss_num": 0.005645751953125,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 381366424,
      "step": 3019
    },
    {
      "epoch": 0.7747065991149875,
      "grad_norm": 62.443397521972656,
      "learning_rate": 5e-06,
      "loss": 1.1276,
      "num_input_tokens_seen": 381492424,
      "step": 3020
    },
    {
      "epoch": 0.7747065991149875,
      "loss": 1.1721076965332031,
      "loss_ce": 0.00023272990074474365,
      "loss_iou": 0.546875,
      "loss_num": 0.01611328125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 381492424,
      "step": 3020
    },
    {
      "epoch": 0.7749631244789329,
      "grad_norm": 17.240564346313477,
      "learning_rate": 5e-06,
      "loss": 0.9824,
      "num_input_tokens_seen": 381618560,
      "step": 3021
    },
    {
      "epoch": 0.7749631244789329,
      "loss": 0.6908792853355408,
      "loss_ce": 0.00044960560626350343,
      "loss_iou": 0.330078125,
      "loss_num": 0.00604248046875,
      "loss_xval": 0.69140625,
      "num_input_tokens_seen": 381618560,
      "step": 3021
    },
    {
      "epoch": 0.7752196498428782,
      "grad_norm": 39.995811462402344,
      "learning_rate": 5e-06,
      "loss": 0.8494,
      "num_input_tokens_seen": 381745728,
      "step": 3022
    },
    {
      "epoch": 0.7752196498428782,
      "loss": 0.7599807381629944,
      "loss_ce": 0.0016799264121800661,
      "loss_iou": 0.3515625,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 381745728,
      "step": 3022
    },
    {
      "epoch": 0.7754761752068235,
      "grad_norm": 69.50076293945312,
      "learning_rate": 5e-06,
      "loss": 0.9594,
      "num_input_tokens_seen": 381872328,
      "step": 3023
    },
    {
      "epoch": 0.7754761752068235,
      "loss": 0.9520664215087891,
      "loss_ce": 0.0033359513618052006,
      "loss_iou": 0.443359375,
      "loss_num": 0.01263427734375,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 381872328,
      "step": 3023
    },
    {
      "epoch": 0.7757327005707689,
      "grad_norm": 34.990447998046875,
      "learning_rate": 5e-06,
      "loss": 1.0454,
      "num_input_tokens_seen": 381997828,
      "step": 3024
    },
    {
      "epoch": 0.7757327005707689,
      "loss": 1.1258909702301025,
      "loss_ce": 0.000890886876732111,
      "loss_iou": 0.515625,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 381997828,
      "step": 3024
    },
    {
      "epoch": 0.7759892259347143,
      "grad_norm": 34.07530975341797,
      "learning_rate": 5e-06,
      "loss": 0.8934,
      "num_input_tokens_seen": 382123876,
      "step": 3025
    },
    {
      "epoch": 0.7759892259347143,
      "loss": 0.9310852289199829,
      "loss_ce": 0.008233648724853992,
      "loss_iou": 0.431640625,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 382123876,
      "step": 3025
    },
    {
      "epoch": 0.7762457512986597,
      "grad_norm": 57.07090377807617,
      "learning_rate": 5e-06,
      "loss": 0.8994,
      "num_input_tokens_seen": 382250488,
      "step": 3026
    },
    {
      "epoch": 0.7762457512986597,
      "loss": 0.9241904020309448,
      "loss_ce": 0.003291929606348276,
      "loss_iou": 0.4296875,
      "loss_num": 0.01190185546875,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 382250488,
      "step": 3026
    },
    {
      "epoch": 0.776502276662605,
      "grad_norm": 37.11333084106445,
      "learning_rate": 5e-06,
      "loss": 0.8982,
      "num_input_tokens_seen": 382377808,
      "step": 3027
    },
    {
      "epoch": 0.776502276662605,
      "loss": 1.0019052028656006,
      "loss_ce": 0.0006844633026048541,
      "loss_iou": 0.46875,
      "loss_num": 0.01239013671875,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 382377808,
      "step": 3027
    },
    {
      "epoch": 0.7767588020265503,
      "grad_norm": 26.464027404785156,
      "learning_rate": 5e-06,
      "loss": 0.8721,
      "num_input_tokens_seen": 382503112,
      "step": 3028
    },
    {
      "epoch": 0.7767588020265503,
      "loss": 0.893409013748169,
      "loss_ce": 0.00034256139770150185,
      "loss_iou": 0.41796875,
      "loss_num": 0.01165771484375,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 382503112,
      "step": 3028
    },
    {
      "epoch": 0.7770153273904957,
      "grad_norm": 38.20924758911133,
      "learning_rate": 5e-06,
      "loss": 0.9256,
      "num_input_tokens_seen": 382629792,
      "step": 3029
    },
    {
      "epoch": 0.7770153273904957,
      "loss": 0.8053667545318604,
      "loss_ce": 0.00019098969642072916,
      "loss_iou": 0.3828125,
      "loss_num": 0.00799560546875,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 382629792,
      "step": 3029
    },
    {
      "epoch": 0.7772718527544411,
      "grad_norm": 51.976417541503906,
      "learning_rate": 5e-06,
      "loss": 1.0032,
      "num_input_tokens_seen": 382756156,
      "step": 3030
    },
    {
      "epoch": 0.7772718527544411,
      "loss": 0.9837273955345154,
      "loss_ce": 0.0013055421877652407,
      "loss_iou": 0.44921875,
      "loss_num": 0.017333984375,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 382756156,
      "step": 3030
    },
    {
      "epoch": 0.7775283781183865,
      "grad_norm": 62.554107666015625,
      "learning_rate": 5e-06,
      "loss": 0.9092,
      "num_input_tokens_seen": 382883032,
      "step": 3031
    },
    {
      "epoch": 0.7775283781183865,
      "loss": 0.8148177862167358,
      "loss_ce": 0.0023177447728812695,
      "loss_iou": 0.380859375,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 382883032,
      "step": 3031
    },
    {
      "epoch": 0.7777849034823319,
      "grad_norm": 47.41301727294922,
      "learning_rate": 5e-06,
      "loss": 0.914,
      "num_input_tokens_seen": 383009900,
      "step": 3032
    },
    {
      "epoch": 0.7777849034823319,
      "loss": 0.7995867729187012,
      "loss_ce": 0.00027039897395297885,
      "loss_iou": 0.380859375,
      "loss_num": 0.00738525390625,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 383009900,
      "step": 3032
    },
    {
      "epoch": 0.7780414288462771,
      "grad_norm": 28.284042358398438,
      "learning_rate": 5e-06,
      "loss": 0.9561,
      "num_input_tokens_seen": 383136588,
      "step": 3033
    },
    {
      "epoch": 0.7780414288462771,
      "loss": 0.9323970079421997,
      "loss_ce": 0.0010005261283367872,
      "loss_iou": 0.4296875,
      "loss_num": 0.01483154296875,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 383136588,
      "step": 3033
    },
    {
      "epoch": 0.7782979542102225,
      "grad_norm": 22.20311164855957,
      "learning_rate": 5e-06,
      "loss": 0.8834,
      "num_input_tokens_seen": 383263676,
      "step": 3034
    },
    {
      "epoch": 0.7782979542102225,
      "loss": 1.0042827129364014,
      "loss_ce": 0.0011088561732321978,
      "loss_iou": 0.45703125,
      "loss_num": 0.017578125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 383263676,
      "step": 3034
    },
    {
      "epoch": 0.7785544795741679,
      "grad_norm": 15.141229629516602,
      "learning_rate": 5e-06,
      "loss": 0.8124,
      "num_input_tokens_seen": 383389164,
      "step": 3035
    },
    {
      "epoch": 0.7785544795741679,
      "loss": 0.8462780714035034,
      "loss_ce": 0.0010631745681166649,
      "loss_iou": 0.39453125,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 383389164,
      "step": 3035
    },
    {
      "epoch": 0.7788110049381133,
      "grad_norm": 35.572723388671875,
      "learning_rate": 5e-06,
      "loss": 0.9491,
      "num_input_tokens_seen": 383515416,
      "step": 3036
    },
    {
      "epoch": 0.7788110049381133,
      "loss": 0.9321386814117432,
      "loss_ce": 0.0009863422019407153,
      "loss_iou": 0.41796875,
      "loss_num": 0.01904296875,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 383515416,
      "step": 3036
    },
    {
      "epoch": 0.7790675303020587,
      "grad_norm": 67.17974090576172,
      "learning_rate": 5e-06,
      "loss": 0.91,
      "num_input_tokens_seen": 383642408,
      "step": 3037
    },
    {
      "epoch": 0.7790675303020587,
      "loss": 0.944837212562561,
      "loss_ce": 0.0005012737237848341,
      "loss_iou": 0.4375,
      "loss_num": 0.013916015625,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 383642408,
      "step": 3037
    },
    {
      "epoch": 0.7793240556660039,
      "grad_norm": 50.37013244628906,
      "learning_rate": 5e-06,
      "loss": 1.0588,
      "num_input_tokens_seen": 383769316,
      "step": 3038
    },
    {
      "epoch": 0.7793240556660039,
      "loss": 1.0241467952728271,
      "loss_ce": 0.006080355029553175,
      "loss_iou": 0.455078125,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 383769316,
      "step": 3038
    },
    {
      "epoch": 0.7795805810299493,
      "grad_norm": 19.267210006713867,
      "learning_rate": 5e-06,
      "loss": 0.9066,
      "num_input_tokens_seen": 383896128,
      "step": 3039
    },
    {
      "epoch": 0.7795805810299493,
      "loss": 0.9568158388137817,
      "loss_ce": 0.0002728258550632745,
      "loss_iou": 0.451171875,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 383896128,
      "step": 3039
    },
    {
      "epoch": 0.7798371063938947,
      "grad_norm": 24.765140533447266,
      "learning_rate": 5e-06,
      "loss": 0.9509,
      "num_input_tokens_seen": 384022236,
      "step": 3040
    },
    {
      "epoch": 0.7798371063938947,
      "loss": 1.1795620918273926,
      "loss_ce": 0.001827769330702722,
      "loss_iou": 0.52734375,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 384022236,
      "step": 3040
    },
    {
      "epoch": 0.7800936317578401,
      "grad_norm": 88.75298309326172,
      "learning_rate": 5e-06,
      "loss": 0.8898,
      "num_input_tokens_seen": 384149364,
      "step": 3041
    },
    {
      "epoch": 0.7800936317578401,
      "loss": 0.914636492729187,
      "loss_ce": 8.572454680688679e-05,
      "loss_iou": 0.42578125,
      "loss_num": 0.0125732421875,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 384149364,
      "step": 3041
    },
    {
      "epoch": 0.7803501571217855,
      "grad_norm": 31.261775970458984,
      "learning_rate": 5e-06,
      "loss": 0.8775,
      "num_input_tokens_seen": 384275644,
      "step": 3042
    },
    {
      "epoch": 0.7803501571217855,
      "loss": 0.985925018787384,
      "loss_ce": 0.0020382849033921957,
      "loss_iou": 0.43359375,
      "loss_num": 0.02294921875,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 384275644,
      "step": 3042
    },
    {
      "epoch": 0.7806066824857307,
      "grad_norm": 35.07978057861328,
      "learning_rate": 5e-06,
      "loss": 0.9951,
      "num_input_tokens_seen": 384402040,
      "step": 3043
    },
    {
      "epoch": 0.7806066824857307,
      "loss": 0.9254921078681946,
      "loss_ce": 0.0006873985403217375,
      "loss_iou": 0.427734375,
      "loss_num": 0.01409912109375,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 384402040,
      "step": 3043
    },
    {
      "epoch": 0.7808632078496761,
      "grad_norm": 35.637516021728516,
      "learning_rate": 5e-06,
      "loss": 0.9422,
      "num_input_tokens_seen": 384528144,
      "step": 3044
    },
    {
      "epoch": 0.7808632078496761,
      "loss": 0.9885154962539673,
      "loss_ce": 0.00023422783124260604,
      "loss_iou": 0.455078125,
      "loss_num": 0.015869140625,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 384528144,
      "step": 3044
    },
    {
      "epoch": 0.7811197332136215,
      "grad_norm": 38.63658905029297,
      "learning_rate": 5e-06,
      "loss": 0.911,
      "num_input_tokens_seen": 384653276,
      "step": 3045
    },
    {
      "epoch": 0.7811197332136215,
      "loss": 0.9750688076019287,
      "loss_ce": 0.0019242276903241873,
      "loss_iou": 0.453125,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 384653276,
      "step": 3045
    },
    {
      "epoch": 0.7813762585775669,
      "grad_norm": 41.50048828125,
      "learning_rate": 5e-06,
      "loss": 1.0844,
      "num_input_tokens_seen": 384778668,
      "step": 3046
    },
    {
      "epoch": 0.7813762585775669,
      "loss": 1.0076630115509033,
      "loss_ce": 0.0003388008917681873,
      "loss_iou": 0.458984375,
      "loss_num": 0.01806640625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 384778668,
      "step": 3046
    },
    {
      "epoch": 0.7816327839415123,
      "grad_norm": 39.8167839050293,
      "learning_rate": 5e-06,
      "loss": 0.7765,
      "num_input_tokens_seen": 384905076,
      "step": 3047
    },
    {
      "epoch": 0.7816327839415123,
      "loss": 0.7993919253349304,
      "loss_ce": 0.0005637963768094778,
      "loss_iou": 0.369140625,
      "loss_num": 0.0123291015625,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 384905076,
      "step": 3047
    },
    {
      "epoch": 0.7818893093054575,
      "grad_norm": 42.49872589111328,
      "learning_rate": 5e-06,
      "loss": 0.9302,
      "num_input_tokens_seen": 385031044,
      "step": 3048
    },
    {
      "epoch": 0.7818893093054575,
      "loss": 0.975603461265564,
      "loss_ce": 0.001970694400370121,
      "loss_iou": 0.423828125,
      "loss_num": 0.025146484375,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 385031044,
      "step": 3048
    },
    {
      "epoch": 0.7821458346694029,
      "grad_norm": 46.245094299316406,
      "learning_rate": 5e-06,
      "loss": 1.0241,
      "num_input_tokens_seen": 385155604,
      "step": 3049
    },
    {
      "epoch": 0.7821458346694029,
      "loss": 0.9808222055435181,
      "loss_ce": 0.0027949195355176926,
      "loss_iou": 0.4609375,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 385155604,
      "step": 3049
    },
    {
      "epoch": 0.7824023600333483,
      "grad_norm": 49.91230773925781,
      "learning_rate": 5e-06,
      "loss": 0.9161,
      "num_input_tokens_seen": 385281284,
      "step": 3050
    },
    {
      "epoch": 0.7824023600333483,
      "loss": 0.9461783170700073,
      "loss_ce": 0.0013540246291086078,
      "loss_iou": 0.44140625,
      "loss_num": 0.012451171875,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 385281284,
      "step": 3050
    },
    {
      "epoch": 0.7826588853972937,
      "grad_norm": 58.8674430847168,
      "learning_rate": 5e-06,
      "loss": 1.0414,
      "num_input_tokens_seen": 385406940,
      "step": 3051
    },
    {
      "epoch": 0.7826588853972937,
      "loss": 0.7682812809944153,
      "loss_ce": 0.001679693814367056,
      "loss_iou": 0.357421875,
      "loss_num": 0.01031494140625,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 385406940,
      "step": 3051
    },
    {
      "epoch": 0.782915410761239,
      "grad_norm": 51.56389236450195,
      "learning_rate": 5e-06,
      "loss": 1.0213,
      "num_input_tokens_seen": 385533600,
      "step": 3052
    },
    {
      "epoch": 0.782915410761239,
      "loss": 0.9266822338104248,
      "loss_ce": 0.0050513967871665955,
      "loss_iou": 0.419921875,
      "loss_num": 0.016357421875,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 385533600,
      "step": 3052
    },
    {
      "epoch": 0.7831719361251844,
      "grad_norm": 106.46561431884766,
      "learning_rate": 5e-06,
      "loss": 0.9104,
      "num_input_tokens_seen": 385660204,
      "step": 3053
    },
    {
      "epoch": 0.7831719361251844,
      "loss": 0.9358047246932983,
      "loss_ce": 0.0031875246204435825,
      "loss_iou": 0.421875,
      "loss_num": 0.017333984375,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 385660204,
      "step": 3053
    },
    {
      "epoch": 0.7834284614891297,
      "grad_norm": 46.1313362121582,
      "learning_rate": 5e-06,
      "loss": 0.9279,
      "num_input_tokens_seen": 385786304,
      "step": 3054
    },
    {
      "epoch": 0.7834284614891297,
      "loss": 1.1432561874389648,
      "loss_ce": 0.0006780330440960824,
      "loss_iou": 0.52734375,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 385786304,
      "step": 3054
    },
    {
      "epoch": 0.7836849868530751,
      "grad_norm": 21.14231300354004,
      "learning_rate": 5e-06,
      "loss": 0.8038,
      "num_input_tokens_seen": 385912576,
      "step": 3055
    },
    {
      "epoch": 0.7836849868530751,
      "loss": 0.8215305805206299,
      "loss_ce": 0.0014622495509684086,
      "loss_iou": 0.380859375,
      "loss_num": 0.01153564453125,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 385912576,
      "step": 3055
    },
    {
      "epoch": 0.7839415122170205,
      "grad_norm": 34.69921875,
      "learning_rate": 5e-06,
      "loss": 0.7799,
      "num_input_tokens_seen": 386037960,
      "step": 3056
    },
    {
      "epoch": 0.7839415122170205,
      "loss": 0.8710594773292542,
      "loss_ce": 0.00045407257857732475,
      "loss_iou": 0.40625,
      "loss_num": 0.0113525390625,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 386037960,
      "step": 3056
    },
    {
      "epoch": 0.7841980375809658,
      "grad_norm": 76.0654067993164,
      "learning_rate": 5e-06,
      "loss": 0.9109,
      "num_input_tokens_seen": 386163468,
      "step": 3057
    },
    {
      "epoch": 0.7841980375809658,
      "loss": 0.9688147306442261,
      "loss_ce": 6.476055568782613e-05,
      "loss_iou": 0.45703125,
      "loss_num": 0.01092529296875,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 386163468,
      "step": 3057
    },
    {
      "epoch": 0.7844545629449112,
      "grad_norm": 54.776973724365234,
      "learning_rate": 5e-06,
      "loss": 0.9482,
      "num_input_tokens_seen": 386289100,
      "step": 3058
    },
    {
      "epoch": 0.7844545629449112,
      "loss": 0.8281857967376709,
      "loss_ce": 0.0005491084302775562,
      "loss_iou": 0.396484375,
      "loss_num": 0.0069580078125,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 386289100,
      "step": 3058
    },
    {
      "epoch": 0.7847110883088565,
      "grad_norm": 47.83889389038086,
      "learning_rate": 5e-06,
      "loss": 0.9508,
      "num_input_tokens_seen": 386415284,
      "step": 3059
    },
    {
      "epoch": 0.7847110883088565,
      "loss": 0.9336451292037964,
      "loss_ce": 0.0005396935739554465,
      "loss_iou": 0.42578125,
      "loss_num": 0.01611328125,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 386415284,
      "step": 3059
    },
    {
      "epoch": 0.7849676136728019,
      "grad_norm": 53.74713897705078,
      "learning_rate": 5e-06,
      "loss": 0.9436,
      "num_input_tokens_seen": 386541896,
      "step": 3060
    },
    {
      "epoch": 0.7849676136728019,
      "loss": 0.8373483419418335,
      "loss_ce": 0.0014108092291280627,
      "loss_iou": 0.390625,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 386541896,
      "step": 3060
    },
    {
      "epoch": 0.7852241390367473,
      "grad_norm": 55.16197204589844,
      "learning_rate": 5e-06,
      "loss": 0.9996,
      "num_input_tokens_seen": 386668432,
      "step": 3061
    },
    {
      "epoch": 0.7852241390367473,
      "loss": 1.105919361114502,
      "loss_ce": 0.0004506285476963967,
      "loss_iou": 0.51171875,
      "loss_num": 0.016357421875,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 386668432,
      "step": 3061
    },
    {
      "epoch": 0.7854806644006926,
      "grad_norm": 50.37675857543945,
      "learning_rate": 5e-06,
      "loss": 0.9933,
      "num_input_tokens_seen": 386793896,
      "step": 3062
    },
    {
      "epoch": 0.7854806644006926,
      "loss": 0.8566752672195435,
      "loss_ce": 0.00022993976017460227,
      "loss_iou": 0.408203125,
      "loss_num": 0.00830078125,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 386793896,
      "step": 3062
    },
    {
      "epoch": 0.785737189764638,
      "grad_norm": 44.92658615112305,
      "learning_rate": 5e-06,
      "loss": 0.9512,
      "num_input_tokens_seen": 386919852,
      "step": 3063
    },
    {
      "epoch": 0.785737189764638,
      "loss": 1.0447295904159546,
      "loss_ce": 0.0012725600972771645,
      "loss_iou": 0.484375,
      "loss_num": 0.015380859375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 386919852,
      "step": 3063
    },
    {
      "epoch": 0.7859937151285833,
      "grad_norm": 39.00270080566406,
      "learning_rate": 5e-06,
      "loss": 1.0037,
      "num_input_tokens_seen": 387045140,
      "step": 3064
    },
    {
      "epoch": 0.7859937151285833,
      "loss": 1.053246259689331,
      "loss_ce": 0.0005117832915857434,
      "loss_iou": 0.494140625,
      "loss_num": 0.01318359375,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 387045140,
      "step": 3064
    },
    {
      "epoch": 0.7862502404925287,
      "grad_norm": 34.826873779296875,
      "learning_rate": 5e-06,
      "loss": 0.8594,
      "num_input_tokens_seen": 387171884,
      "step": 3065
    },
    {
      "epoch": 0.7862502404925287,
      "loss": 0.9140823483467102,
      "loss_ce": 0.0009963997872546315,
      "loss_iou": 0.42578125,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 387171884,
      "step": 3065
    },
    {
      "epoch": 0.786506765856474,
      "grad_norm": 38.07713317871094,
      "learning_rate": 5e-06,
      "loss": 0.8119,
      "num_input_tokens_seen": 387296856,
      "step": 3066
    },
    {
      "epoch": 0.786506765856474,
      "loss": 0.8891111016273499,
      "loss_ce": 0.001415822422131896,
      "loss_iou": 0.408203125,
      "loss_num": 0.01409912109375,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 387296856,
      "step": 3066
    },
    {
      "epoch": 0.7867632912204194,
      "grad_norm": 40.21628189086914,
      "learning_rate": 5e-06,
      "loss": 0.9851,
      "num_input_tokens_seen": 387423016,
      "step": 3067
    },
    {
      "epoch": 0.7867632912204194,
      "loss": 0.9070166349411011,
      "loss_ce": 0.0007666609599255025,
      "loss_iou": 0.42578125,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 387423016,
      "step": 3067
    },
    {
      "epoch": 0.7870198165843648,
      "grad_norm": 40.25064468383789,
      "learning_rate": 5e-06,
      "loss": 0.9425,
      "num_input_tokens_seen": 387549604,
      "step": 3068
    },
    {
      "epoch": 0.7870198165843648,
      "loss": 1.142991304397583,
      "loss_ce": 0.00798153318464756,
      "loss_iou": 0.5,
      "loss_num": 0.0269775390625,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 387549604,
      "step": 3068
    },
    {
      "epoch": 0.7872763419483101,
      "grad_norm": 36.8310546875,
      "learning_rate": 5e-06,
      "loss": 0.9357,
      "num_input_tokens_seen": 387675432,
      "step": 3069
    },
    {
      "epoch": 0.7872763419483101,
      "loss": 0.9660939574241638,
      "loss_ce": 0.0046682171523571014,
      "loss_iou": 0.439453125,
      "loss_num": 0.0167236328125,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 387675432,
      "step": 3069
    },
    {
      "epoch": 0.7875328673122555,
      "grad_norm": 45.4752082824707,
      "learning_rate": 5e-06,
      "loss": 0.8779,
      "num_input_tokens_seen": 387801364,
      "step": 3070
    },
    {
      "epoch": 0.7875328673122555,
      "loss": 0.8811048269271851,
      "loss_ce": 0.0007337399292737246,
      "loss_iou": 0.40234375,
      "loss_num": 0.0147705078125,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 387801364,
      "step": 3070
    },
    {
      "epoch": 0.7877893926762009,
      "grad_norm": 57.98426818847656,
      "learning_rate": 5e-06,
      "loss": 1.0281,
      "num_input_tokens_seen": 387927692,
      "step": 3071
    },
    {
      "epoch": 0.7877893926762009,
      "loss": 1.0504921674728394,
      "loss_ce": 0.0031288685277104378,
      "loss_iou": 0.490234375,
      "loss_num": 0.01373291015625,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 387927692,
      "step": 3071
    },
    {
      "epoch": 0.7880459180401462,
      "grad_norm": 50.42306137084961,
      "learning_rate": 5e-06,
      "loss": 0.9701,
      "num_input_tokens_seen": 388054244,
      "step": 3072
    },
    {
      "epoch": 0.7880459180401462,
      "loss": 1.0604848861694336,
      "loss_ce": 0.0043325782753527164,
      "loss_iou": 0.466796875,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 388054244,
      "step": 3072
    },
    {
      "epoch": 0.7883024434040916,
      "grad_norm": 58.65945816040039,
      "learning_rate": 5e-06,
      "loss": 0.928,
      "num_input_tokens_seen": 388180224,
      "step": 3073
    },
    {
      "epoch": 0.7883024434040916,
      "loss": 0.846748948097229,
      "loss_ce": 0.0008016748470254242,
      "loss_iou": 0.404296875,
      "loss_num": 0.007659912109375,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 388180224,
      "step": 3073
    },
    {
      "epoch": 0.788558968768037,
      "grad_norm": 53.31142807006836,
      "learning_rate": 5e-06,
      "loss": 1.012,
      "num_input_tokens_seen": 388306492,
      "step": 3074
    },
    {
      "epoch": 0.788558968768037,
      "loss": 0.9080705642700195,
      "loss_ce": 0.000355702533852309,
      "loss_iou": 0.41796875,
      "loss_num": 0.0146484375,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 388306492,
      "step": 3074
    },
    {
      "epoch": 0.7888154941319823,
      "grad_norm": 39.9885139465332,
      "learning_rate": 5e-06,
      "loss": 0.9417,
      "num_input_tokens_seen": 388432928,
      "step": 3075
    },
    {
      "epoch": 0.7888154941319823,
      "loss": 0.9045344591140747,
      "loss_ce": 0.00023756037990096956,
      "loss_iou": 0.41015625,
      "loss_num": 0.0166015625,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 388432928,
      "step": 3075
    },
    {
      "epoch": 0.7890720194959276,
      "grad_norm": 55.082977294921875,
      "learning_rate": 5e-06,
      "loss": 1.009,
      "num_input_tokens_seen": 388559860,
      "step": 3076
    },
    {
      "epoch": 0.7890720194959276,
      "loss": 0.9225090742111206,
      "loss_ce": 0.00014580338029190898,
      "loss_iou": 0.423828125,
      "loss_num": 0.0147705078125,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 388559860,
      "step": 3076
    },
    {
      "epoch": 0.789328544859873,
      "grad_norm": 55.650543212890625,
      "learning_rate": 5e-06,
      "loss": 1.0466,
      "num_input_tokens_seen": 388686488,
      "step": 3077
    },
    {
      "epoch": 0.789328544859873,
      "loss": 1.1113238334655762,
      "loss_ce": 0.0014606040203943849,
      "loss_iou": 0.494140625,
      "loss_num": 0.024169921875,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 388686488,
      "step": 3077
    },
    {
      "epoch": 0.7895850702238184,
      "grad_norm": 38.75040054321289,
      "learning_rate": 5e-06,
      "loss": 0.9456,
      "num_input_tokens_seen": 388813484,
      "step": 3078
    },
    {
      "epoch": 0.7895850702238184,
      "loss": 1.078554391860962,
      "loss_ce": 0.0004293875826988369,
      "loss_iou": 0.47265625,
      "loss_num": 0.026611328125,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 388813484,
      "step": 3078
    },
    {
      "epoch": 0.7898415955877638,
      "grad_norm": 50.038455963134766,
      "learning_rate": 5e-06,
      "loss": 0.8794,
      "num_input_tokens_seen": 388939600,
      "step": 3079
    },
    {
      "epoch": 0.7898415955877638,
      "loss": 0.9207192063331604,
      "loss_ce": 0.0005532123032025993,
      "loss_iou": 0.41015625,
      "loss_num": 0.0203857421875,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 388939600,
      "step": 3079
    },
    {
      "epoch": 0.7900981209517091,
      "grad_norm": 37.45415115356445,
      "learning_rate": 5e-06,
      "loss": 0.9496,
      "num_input_tokens_seen": 389065308,
      "step": 3080
    },
    {
      "epoch": 0.7900981209517091,
      "loss": 1.005045771598816,
      "loss_ce": 0.0006511914543807507,
      "loss_iou": 0.462890625,
      "loss_num": 0.015625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 389065308,
      "step": 3080
    },
    {
      "epoch": 0.7903546463156544,
      "grad_norm": 20.321819305419922,
      "learning_rate": 5e-06,
      "loss": 0.9958,
      "num_input_tokens_seen": 389190980,
      "step": 3081
    },
    {
      "epoch": 0.7903546463156544,
      "loss": 1.104810118675232,
      "loss_ce": 0.00129443418700248,
      "loss_iou": 0.51171875,
      "loss_num": 0.015869140625,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 389190980,
      "step": 3081
    },
    {
      "epoch": 0.7906111716795998,
      "grad_norm": 26.987560272216797,
      "learning_rate": 5e-06,
      "loss": 0.9259,
      "num_input_tokens_seen": 389316912,
      "step": 3082
    },
    {
      "epoch": 0.7906111716795998,
      "loss": 0.9806532859802246,
      "loss_ce": 0.0011610669316723943,
      "loss_iou": 0.46875,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 389316912,
      "step": 3082
    },
    {
      "epoch": 0.7908676970435452,
      "grad_norm": 31.571420669555664,
      "learning_rate": 5e-06,
      "loss": 0.8396,
      "num_input_tokens_seen": 389443040,
      "step": 3083
    },
    {
      "epoch": 0.7908676970435452,
      "loss": 0.7252503037452698,
      "loss_ce": 0.0001526724372524768,
      "loss_iou": 0.34375,
      "loss_num": 0.0079345703125,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 389443040,
      "step": 3083
    },
    {
      "epoch": 0.7911242224074906,
      "grad_norm": 29.58075714111328,
      "learning_rate": 5e-06,
      "loss": 0.9714,
      "num_input_tokens_seen": 389570332,
      "step": 3084
    },
    {
      "epoch": 0.7911242224074906,
      "loss": 0.7235045433044434,
      "loss_ce": 0.00035997500526718795,
      "loss_iou": 0.337890625,
      "loss_num": 0.009765625,
      "loss_xval": 0.72265625,
      "num_input_tokens_seen": 389570332,
      "step": 3084
    },
    {
      "epoch": 0.7913807477714359,
      "grad_norm": 22.08127212524414,
      "learning_rate": 5e-06,
      "loss": 0.9881,
      "num_input_tokens_seen": 389696608,
      "step": 3085
    },
    {
      "epoch": 0.7913807477714359,
      "loss": 1.1187113523483276,
      "loss_ce": 0.0015238930936902761,
      "loss_iou": 0.494140625,
      "loss_num": 0.0255126953125,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 389696608,
      "step": 3085
    },
    {
      "epoch": 0.7916372731353812,
      "grad_norm": 19.641843795776367,
      "learning_rate": 5e-06,
      "loss": 0.8665,
      "num_input_tokens_seen": 389823304,
      "step": 3086
    },
    {
      "epoch": 0.7916372731353812,
      "loss": 0.8002245426177979,
      "loss_ce": 0.00041983346454799175,
      "loss_iou": 0.3828125,
      "loss_num": 0.006927490234375,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 389823304,
      "step": 3086
    },
    {
      "epoch": 0.7918937984993266,
      "grad_norm": 47.14255905151367,
      "learning_rate": 5e-06,
      "loss": 0.8626,
      "num_input_tokens_seen": 389950836,
      "step": 3087
    },
    {
      "epoch": 0.7918937984993266,
      "loss": 1.2280123233795166,
      "loss_ce": 0.002426381688565016,
      "loss_iou": 0.55078125,
      "loss_num": 0.02490234375,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 389950836,
      "step": 3087
    },
    {
      "epoch": 0.792150323863272,
      "grad_norm": 61.10469436645508,
      "learning_rate": 5e-06,
      "loss": 0.9253,
      "num_input_tokens_seen": 390077604,
      "step": 3088
    },
    {
      "epoch": 0.792150323863272,
      "loss": 1.0511298179626465,
      "loss_ce": 0.0032782277557998896,
      "loss_iou": 0.48046875,
      "loss_num": 0.01708984375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 390077604,
      "step": 3088
    },
    {
      "epoch": 0.7924068492272174,
      "grad_norm": 49.937538146972656,
      "learning_rate": 5e-06,
      "loss": 0.8659,
      "num_input_tokens_seen": 390205340,
      "step": 3089
    },
    {
      "epoch": 0.7924068492272174,
      "loss": 0.8371323347091675,
      "loss_ce": 0.00021825528529006988,
      "loss_iou": 0.39453125,
      "loss_num": 0.00958251953125,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 390205340,
      "step": 3089
    },
    {
      "epoch": 0.7926633745911627,
      "grad_norm": 44.953121185302734,
      "learning_rate": 5e-06,
      "loss": 0.8822,
      "num_input_tokens_seen": 390331272,
      "step": 3090
    },
    {
      "epoch": 0.7926633745911627,
      "loss": 0.8408341407775879,
      "loss_ce": 0.0014786667888984084,
      "loss_iou": 0.384765625,
      "loss_num": 0.0137939453125,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 390331272,
      "step": 3090
    },
    {
      "epoch": 0.792919899955108,
      "grad_norm": 45.703529357910156,
      "learning_rate": 5e-06,
      "loss": 1.1057,
      "num_input_tokens_seen": 390455964,
      "step": 3091
    },
    {
      "epoch": 0.792919899955108,
      "loss": 1.3112016916275024,
      "loss_ce": 0.0006548682576976717,
      "loss_iou": 0.58984375,
      "loss_num": 0.0262451171875,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 390455964,
      "step": 3091
    },
    {
      "epoch": 0.7931764253190534,
      "grad_norm": 34.5233039855957,
      "learning_rate": 5e-06,
      "loss": 0.9791,
      "num_input_tokens_seen": 390582688,
      "step": 3092
    },
    {
      "epoch": 0.7931764253190534,
      "loss": 1.1034932136535645,
      "loss_ce": 0.0004658452235162258,
      "loss_iou": 0.5,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 390582688,
      "step": 3092
    },
    {
      "epoch": 0.7934329506829988,
      "grad_norm": 35.85054016113281,
      "learning_rate": 5e-06,
      "loss": 0.9568,
      "num_input_tokens_seen": 390709032,
      "step": 3093
    },
    {
      "epoch": 0.7934329506829988,
      "loss": 0.9763548374176025,
      "loss_ce": 0.0017454602057114244,
      "loss_iou": 0.451171875,
      "loss_num": 0.01458740234375,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 390709032,
      "step": 3093
    },
    {
      "epoch": 0.7936894760469442,
      "grad_norm": 45.00306701660156,
      "learning_rate": 5e-06,
      "loss": 0.8363,
      "num_input_tokens_seen": 390834400,
      "step": 3094
    },
    {
      "epoch": 0.7936894760469442,
      "loss": 0.7976964712142944,
      "loss_ce": 8.904878632165492e-05,
      "loss_iou": 0.3828125,
      "loss_num": 0.006439208984375,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 390834400,
      "step": 3094
    },
    {
      "epoch": 0.7939460014108896,
      "grad_norm": 37.954097747802734,
      "learning_rate": 5e-06,
      "loss": 0.9845,
      "num_input_tokens_seen": 390960484,
      "step": 3095
    },
    {
      "epoch": 0.7939460014108896,
      "loss": 0.8590784668922424,
      "loss_ce": 0.003121423302218318,
      "loss_iou": 0.39453125,
      "loss_num": 0.01373291015625,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 390960484,
      "step": 3095
    },
    {
      "epoch": 0.7942025267748348,
      "grad_norm": 46.48175048828125,
      "learning_rate": 5e-06,
      "loss": 0.8321,
      "num_input_tokens_seen": 391087304,
      "step": 3096
    },
    {
      "epoch": 0.7942025267748348,
      "loss": 0.8609225749969482,
      "loss_ce": 0.001059305272065103,
      "loss_iou": 0.40234375,
      "loss_num": 0.01068115234375,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 391087304,
      "step": 3096
    },
    {
      "epoch": 0.7944590521387802,
      "grad_norm": 49.74597930908203,
      "learning_rate": 5e-06,
      "loss": 0.9653,
      "num_input_tokens_seen": 391213192,
      "step": 3097
    },
    {
      "epoch": 0.7944590521387802,
      "loss": 0.8918407559394836,
      "loss_ce": 0.001703995163552463,
      "loss_iou": 0.40234375,
      "loss_num": 0.016845703125,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 391213192,
      "step": 3097
    },
    {
      "epoch": 0.7947155775027256,
      "grad_norm": 84.275146484375,
      "learning_rate": 5e-06,
      "loss": 0.9694,
      "num_input_tokens_seen": 391339468,
      "step": 3098
    },
    {
      "epoch": 0.7947155775027256,
      "loss": 1.1038521528244019,
      "loss_ce": 0.0027779145166277885,
      "loss_iou": 0.51171875,
      "loss_num": 0.0159912109375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 391339468,
      "step": 3098
    },
    {
      "epoch": 0.794972102866671,
      "grad_norm": 49.505489349365234,
      "learning_rate": 5e-06,
      "loss": 1.0382,
      "num_input_tokens_seen": 391466212,
      "step": 3099
    },
    {
      "epoch": 0.794972102866671,
      "loss": 1.1364291906356812,
      "loss_ce": 0.00019877107115462422,
      "loss_iou": 0.51171875,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 391466212,
      "step": 3099
    },
    {
      "epoch": 0.7952286282306164,
      "grad_norm": 40.72956466674805,
      "learning_rate": 5e-06,
      "loss": 0.9539,
      "num_input_tokens_seen": 391591472,
      "step": 3100
    },
    {
      "epoch": 0.7952286282306164,
      "loss": 0.9128215312957764,
      "loss_ce": 0.0055949389934539795,
      "loss_iou": 0.421875,
      "loss_num": 0.01239013671875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 391591472,
      "step": 3100
    },
    {
      "epoch": 0.7954851535945616,
      "grad_norm": 50.402278900146484,
      "learning_rate": 5e-06,
      "loss": 0.9337,
      "num_input_tokens_seen": 391718036,
      "step": 3101
    },
    {
      "epoch": 0.7954851535945616,
      "loss": 0.9913931488990784,
      "loss_ce": 0.0004263713490217924,
      "loss_iou": 0.45703125,
      "loss_num": 0.014892578125,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 391718036,
      "step": 3101
    },
    {
      "epoch": 0.795741678958507,
      "grad_norm": 67.98584747314453,
      "learning_rate": 5e-06,
      "loss": 0.9695,
      "num_input_tokens_seen": 391845188,
      "step": 3102
    },
    {
      "epoch": 0.795741678958507,
      "loss": 0.971010684967041,
      "loss_ce": 0.0027489603962749243,
      "loss_iou": 0.4609375,
      "loss_num": 0.009521484375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 391845188,
      "step": 3102
    },
    {
      "epoch": 0.7959982043224524,
      "grad_norm": 68.68293762207031,
      "learning_rate": 5e-06,
      "loss": 0.8934,
      "num_input_tokens_seen": 391971272,
      "step": 3103
    },
    {
      "epoch": 0.7959982043224524,
      "loss": 0.8458807468414307,
      "loss_ce": 0.00652527529746294,
      "loss_iou": 0.40234375,
      "loss_num": 0.0068359375,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 391971272,
      "step": 3103
    },
    {
      "epoch": 0.7962547296863978,
      "grad_norm": 39.30879211425781,
      "learning_rate": 5e-06,
      "loss": 0.8551,
      "num_input_tokens_seen": 392097096,
      "step": 3104
    },
    {
      "epoch": 0.7962547296863978,
      "loss": 0.7589737176895142,
      "loss_ce": 0.0006729763117618859,
      "loss_iou": 0.36328125,
      "loss_num": 0.006622314453125,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 392097096,
      "step": 3104
    },
    {
      "epoch": 0.7965112550503431,
      "grad_norm": 40.417484283447266,
      "learning_rate": 5e-06,
      "loss": 1.0567,
      "num_input_tokens_seen": 392224252,
      "step": 3105
    },
    {
      "epoch": 0.7965112550503431,
      "loss": 1.0038267374038696,
      "loss_ce": 0.0008971041534096003,
      "loss_iou": 0.462890625,
      "loss_num": 0.015625,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 392224252,
      "step": 3105
    },
    {
      "epoch": 0.7967677804142884,
      "grad_norm": 52.2308235168457,
      "learning_rate": 5e-06,
      "loss": 0.9827,
      "num_input_tokens_seen": 392349728,
      "step": 3106
    },
    {
      "epoch": 0.7967677804142884,
      "loss": 0.7861615419387817,
      "loss_ce": 0.0017377049662172794,
      "loss_iou": 0.37109375,
      "loss_num": 0.0087890625,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 392349728,
      "step": 3106
    },
    {
      "epoch": 0.7970243057782338,
      "grad_norm": 43.75012969970703,
      "learning_rate": 5e-06,
      "loss": 0.9801,
      "num_input_tokens_seen": 392474724,
      "step": 3107
    },
    {
      "epoch": 0.7970243057782338,
      "loss": 1.2422311305999756,
      "loss_ce": 0.0029732901602983475,
      "loss_iou": 0.5625,
      "loss_num": 0.022705078125,
      "loss_xval": 1.2421875,
      "num_input_tokens_seen": 392474724,
      "step": 3107
    },
    {
      "epoch": 0.7972808311421792,
      "grad_norm": 33.877655029296875,
      "learning_rate": 5e-06,
      "loss": 0.9545,
      "num_input_tokens_seen": 392601368,
      "step": 3108
    },
    {
      "epoch": 0.7972808311421792,
      "loss": 0.9168969392776489,
      "loss_ce": 0.00039299181662499905,
      "loss_iou": 0.431640625,
      "loss_num": 0.01104736328125,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 392601368,
      "step": 3108
    },
    {
      "epoch": 0.7975373565061246,
      "grad_norm": 21.786861419677734,
      "learning_rate": 5e-06,
      "loss": 0.8185,
      "num_input_tokens_seen": 392727452,
      "step": 3109
    },
    {
      "epoch": 0.7975373565061246,
      "loss": 0.8314062356948853,
      "loss_ce": 0.0003515729622449726,
      "loss_iou": 0.392578125,
      "loss_num": 0.00885009765625,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 392727452,
      "step": 3109
    },
    {
      "epoch": 0.7977938818700699,
      "grad_norm": 34.653987884521484,
      "learning_rate": 5e-06,
      "loss": 0.8347,
      "num_input_tokens_seen": 392853612,
      "step": 3110
    },
    {
      "epoch": 0.7977938818700699,
      "loss": 0.8902150392532349,
      "loss_ce": 0.0005665870849043131,
      "loss_iou": 0.40625,
      "loss_num": 0.015380859375,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 392853612,
      "step": 3110
    },
    {
      "epoch": 0.7980504072340152,
      "grad_norm": 37.5821418762207,
      "learning_rate": 5e-06,
      "loss": 0.9794,
      "num_input_tokens_seen": 392979808,
      "step": 3111
    },
    {
      "epoch": 0.7980504072340152,
      "loss": 1.1269629001617432,
      "loss_ce": 0.0034277555532753468,
      "loss_iou": 0.5,
      "loss_num": 0.0244140625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 392979808,
      "step": 3111
    },
    {
      "epoch": 0.7983069325979606,
      "grad_norm": 56.82450866699219,
      "learning_rate": 5e-06,
      "loss": 0.9147,
      "num_input_tokens_seen": 393106504,
      "step": 3112
    },
    {
      "epoch": 0.7983069325979606,
      "loss": 0.8906527161598206,
      "loss_ce": 0.0007601350080221891,
      "loss_iou": 0.412109375,
      "loss_num": 0.01300048828125,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 393106504,
      "step": 3112
    },
    {
      "epoch": 0.798563457961906,
      "grad_norm": 49.6131706237793,
      "learning_rate": 5e-06,
      "loss": 1.0482,
      "num_input_tokens_seen": 393232564,
      "step": 3113
    },
    {
      "epoch": 0.798563457961906,
      "loss": 1.0119107961654663,
      "loss_ce": 0.00019203465490136296,
      "loss_iou": 0.47265625,
      "loss_num": 0.01373291015625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 393232564,
      "step": 3113
    },
    {
      "epoch": 0.7988199833258514,
      "grad_norm": 33.8688850402832,
      "learning_rate": 5e-06,
      "loss": 0.8939,
      "num_input_tokens_seen": 393359368,
      "step": 3114
    },
    {
      "epoch": 0.7988199833258514,
      "loss": 1.0526267290115356,
      "loss_ce": 0.00038062920793890953,
      "loss_iou": 0.474609375,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 393359368,
      "step": 3114
    },
    {
      "epoch": 0.7990765086897967,
      "grad_norm": 47.047576904296875,
      "learning_rate": 5e-06,
      "loss": 0.927,
      "num_input_tokens_seen": 393486312,
      "step": 3115
    },
    {
      "epoch": 0.7990765086897967,
      "loss": 0.8975297212600708,
      "loss_ce": 0.0005570473149418831,
      "loss_iou": 0.416015625,
      "loss_num": 0.01287841796875,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 393486312,
      "step": 3115
    },
    {
      "epoch": 0.799333034053742,
      "grad_norm": 43.14470291137695,
      "learning_rate": 5e-06,
      "loss": 1.0042,
      "num_input_tokens_seen": 393612316,
      "step": 3116
    },
    {
      "epoch": 0.799333034053742,
      "loss": 1.037779450416565,
      "loss_ce": 0.0011583586456254125,
      "loss_iou": 0.484375,
      "loss_num": 0.01300048828125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 393612316,
      "step": 3116
    },
    {
      "epoch": 0.7995895594176874,
      "grad_norm": 47.63432312011719,
      "learning_rate": 5e-06,
      "loss": 0.9377,
      "num_input_tokens_seen": 393738564,
      "step": 3117
    },
    {
      "epoch": 0.7995895594176874,
      "loss": 0.9726184606552124,
      "loss_ce": 0.0009387761820107698,
      "loss_iou": 0.453125,
      "loss_num": 0.01318359375,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 393738564,
      "step": 3117
    },
    {
      "epoch": 0.7998460847816328,
      "grad_norm": 50.42628479003906,
      "learning_rate": 5e-06,
      "loss": 0.9502,
      "num_input_tokens_seen": 393864052,
      "step": 3118
    },
    {
      "epoch": 0.7998460847816328,
      "loss": 0.9378687143325806,
      "loss_ce": 0.0015894039534032345,
      "loss_iou": 0.41796875,
      "loss_num": 0.0198974609375,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 393864052,
      "step": 3118
    },
    {
      "epoch": 0.8001026101455782,
      "grad_norm": 60.873382568359375,
      "learning_rate": 5e-06,
      "loss": 0.9443,
      "num_input_tokens_seen": 393989444,
      "step": 3119
    },
    {
      "epoch": 0.8001026101455782,
      "loss": 1.2508931159973145,
      "loss_ce": 0.0023579103872179985,
      "loss_iou": 0.57421875,
      "loss_num": 0.020751953125,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 393989444,
      "step": 3119
    },
    {
      "epoch": 0.8003591355095235,
      "grad_norm": 50.71394348144531,
      "learning_rate": 5e-06,
      "loss": 0.9171,
      "num_input_tokens_seen": 394115116,
      "step": 3120
    },
    {
      "epoch": 0.8003591355095235,
      "loss": 1.1381449699401855,
      "loss_ce": 0.0019144968828186393,
      "loss_iou": 0.5,
      "loss_num": 0.027099609375,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 394115116,
      "step": 3120
    },
    {
      "epoch": 0.8006156608734689,
      "grad_norm": 43.38496017456055,
      "learning_rate": 5e-06,
      "loss": 0.8378,
      "num_input_tokens_seen": 394239804,
      "step": 3121
    },
    {
      "epoch": 0.8006156608734689,
      "loss": 0.7447963953018188,
      "loss_ce": 0.0016323348972946405,
      "loss_iou": 0.353515625,
      "loss_num": 0.007110595703125,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 394239804,
      "step": 3121
    },
    {
      "epoch": 0.8008721862374142,
      "grad_norm": 48.97633743286133,
      "learning_rate": 5e-06,
      "loss": 0.8758,
      "num_input_tokens_seen": 394366860,
      "step": 3122
    },
    {
      "epoch": 0.8008721862374142,
      "loss": 0.9008373022079468,
      "loss_ce": 0.0023998278193175793,
      "loss_iou": 0.4140625,
      "loss_num": 0.013916015625,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 394366860,
      "step": 3122
    },
    {
      "epoch": 0.8011287116013596,
      "grad_norm": 48.60335159301758,
      "learning_rate": 5e-06,
      "loss": 1.0576,
      "num_input_tokens_seen": 394492244,
      "step": 3123
    },
    {
      "epoch": 0.8011287116013596,
      "loss": 1.323155403137207,
      "loss_ce": 0.0004016145830973983,
      "loss_iou": 0.59375,
      "loss_num": 0.0279541015625,
      "loss_xval": 1.3203125,
      "num_input_tokens_seen": 394492244,
      "step": 3123
    },
    {
      "epoch": 0.801385236965305,
      "grad_norm": 33.23029708862305,
      "learning_rate": 5e-06,
      "loss": 0.8828,
      "num_input_tokens_seen": 394618296,
      "step": 3124
    },
    {
      "epoch": 0.801385236965305,
      "loss": 0.8089559078216553,
      "loss_ce": 0.0008504430879838765,
      "loss_iou": 0.38671875,
      "loss_num": 0.00677490234375,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 394618296,
      "step": 3124
    },
    {
      "epoch": 0.8016417623292503,
      "grad_norm": 41.514434814453125,
      "learning_rate": 5e-06,
      "loss": 0.9045,
      "num_input_tokens_seen": 394744560,
      "step": 3125
    },
    {
      "epoch": 0.8016417623292503,
      "loss": 0.7629473805427551,
      "loss_ce": 0.00025207901489920914,
      "loss_iou": 0.357421875,
      "loss_num": 0.00909423828125,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 394744560,
      "step": 3125
    },
    {
      "epoch": 0.8018982876931957,
      "grad_norm": 64.35153198242188,
      "learning_rate": 5e-06,
      "loss": 0.9244,
      "num_input_tokens_seen": 394871456,
      "step": 3126
    },
    {
      "epoch": 0.8018982876931957,
      "loss": 0.842146635055542,
      "loss_ce": 0.002791227074339986,
      "loss_iou": 0.384765625,
      "loss_num": 0.013671875,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 394871456,
      "step": 3126
    },
    {
      "epoch": 0.802154813057141,
      "grad_norm": 43.053836822509766,
      "learning_rate": 5e-06,
      "loss": 1.0103,
      "num_input_tokens_seen": 394997160,
      "step": 3127
    },
    {
      "epoch": 0.802154813057141,
      "loss": 1.09250807762146,
      "loss_ce": 0.0026643122546374798,
      "loss_iou": 0.5,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 394997160,
      "step": 3127
    },
    {
      "epoch": 0.8024113384210864,
      "grad_norm": 34.35725402832031,
      "learning_rate": 5e-06,
      "loss": 0.9433,
      "num_input_tokens_seen": 395122264,
      "step": 3128
    },
    {
      "epoch": 0.8024113384210864,
      "loss": 0.9319309592247009,
      "loss_ce": 0.0002903682179749012,
      "loss_iou": 0.439453125,
      "loss_num": 0.010986328125,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 395122264,
      "step": 3128
    },
    {
      "epoch": 0.8026678637850317,
      "grad_norm": 42.17582321166992,
      "learning_rate": 5e-06,
      "loss": 0.9783,
      "num_input_tokens_seen": 395249636,
      "step": 3129
    },
    {
      "epoch": 0.8026678637850317,
      "loss": 1.0318026542663574,
      "loss_ce": 0.0005525524611584842,
      "loss_iou": 0.46875,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 395249636,
      "step": 3129
    },
    {
      "epoch": 0.8029243891489771,
      "grad_norm": 40.160709381103516,
      "learning_rate": 5e-06,
      "loss": 0.9903,
      "num_input_tokens_seen": 395375336,
      "step": 3130
    },
    {
      "epoch": 0.8029243891489771,
      "loss": 0.8760836720466614,
      "loss_ce": 0.00010716063843574375,
      "loss_iou": 0.3984375,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 395375336,
      "step": 3130
    },
    {
      "epoch": 0.8031809145129225,
      "grad_norm": 54.88969802856445,
      "learning_rate": 5e-06,
      "loss": 0.9162,
      "num_input_tokens_seen": 395501448,
      "step": 3131
    },
    {
      "epoch": 0.8031809145129225,
      "loss": 0.904416024684906,
      "loss_ce": 0.000607426802162081,
      "loss_iou": 0.421875,
      "loss_num": 0.012451171875,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 395501448,
      "step": 3131
    },
    {
      "epoch": 0.8034374398768678,
      "grad_norm": 45.18496322631836,
      "learning_rate": 5e-06,
      "loss": 0.9465,
      "num_input_tokens_seen": 395627156,
      "step": 3132
    },
    {
      "epoch": 0.8034374398768678,
      "loss": 0.9607712030410767,
      "loss_ce": 0.0008102619904093444,
      "loss_iou": 0.435546875,
      "loss_num": 0.0174560546875,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 395627156,
      "step": 3132
    },
    {
      "epoch": 0.8036939652408132,
      "grad_norm": 35.832584381103516,
      "learning_rate": 5e-06,
      "loss": 0.9346,
      "num_input_tokens_seen": 395753728,
      "step": 3133
    },
    {
      "epoch": 0.8036939652408132,
      "loss": 0.9488492012023926,
      "loss_ce": 0.00011872945469804108,
      "loss_iou": 0.427734375,
      "loss_num": 0.018798828125,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 395753728,
      "step": 3133
    },
    {
      "epoch": 0.8039504906047585,
      "grad_norm": 41.0698127746582,
      "learning_rate": 5e-06,
      "loss": 1.0287,
      "num_input_tokens_seen": 395879752,
      "step": 3134
    },
    {
      "epoch": 0.8039504906047585,
      "loss": 1.143174171447754,
      "loss_ce": 0.0059671117924153805,
      "loss_iou": 0.4921875,
      "loss_num": 0.03076171875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 395879752,
      "step": 3134
    },
    {
      "epoch": 0.8042070159687039,
      "grad_norm": 28.751188278198242,
      "learning_rate": 5e-06,
      "loss": 0.9802,
      "num_input_tokens_seen": 396005892,
      "step": 3135
    },
    {
      "epoch": 0.8042070159687039,
      "loss": 0.9827746152877808,
      "loss_ce": 0.0018175948644056916,
      "loss_iou": 0.4453125,
      "loss_num": 0.017822265625,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 396005892,
      "step": 3135
    },
    {
      "epoch": 0.8044635413326493,
      "grad_norm": 27.045249938964844,
      "learning_rate": 5e-06,
      "loss": 0.8905,
      "num_input_tokens_seen": 396132568,
      "step": 3136
    },
    {
      "epoch": 0.8044635413326493,
      "loss": 0.9259840250015259,
      "loss_ce": 0.000202813112991862,
      "loss_iou": 0.43359375,
      "loss_num": 0.01165771484375,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 396132568,
      "step": 3136
    },
    {
      "epoch": 0.8047200666965946,
      "grad_norm": 64.1505126953125,
      "learning_rate": 5e-06,
      "loss": 0.8853,
      "num_input_tokens_seen": 396258604,
      "step": 3137
    },
    {
      "epoch": 0.8047200666965946,
      "loss": 0.9470627307891846,
      "loss_ce": 0.00028538814513012767,
      "loss_iou": 0.447265625,
      "loss_num": 0.010498046875,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 396258604,
      "step": 3137
    },
    {
      "epoch": 0.80497659206054,
      "grad_norm": 48.33416748046875,
      "learning_rate": 5e-06,
      "loss": 1.1007,
      "num_input_tokens_seen": 396383996,
      "step": 3138
    },
    {
      "epoch": 0.80497659206054,
      "loss": 1.1261286735534668,
      "loss_ce": 0.0016169106820598245,
      "loss_iou": 0.5,
      "loss_num": 0.025146484375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 396383996,
      "step": 3138
    },
    {
      "epoch": 0.8052331174244853,
      "grad_norm": 33.24272537231445,
      "learning_rate": 5e-06,
      "loss": 0.8993,
      "num_input_tokens_seen": 396509420,
      "step": 3139
    },
    {
      "epoch": 0.8052331174244853,
      "loss": 0.7244715094566345,
      "loss_ce": 0.014022331684827805,
      "loss_iou": 0.33203125,
      "loss_num": 0.00933837890625,
      "loss_xval": 0.7109375,
      "num_input_tokens_seen": 396509420,
      "step": 3139
    },
    {
      "epoch": 0.8054896427884307,
      "grad_norm": 36.223541259765625,
      "learning_rate": 5e-06,
      "loss": 0.9825,
      "num_input_tokens_seen": 396636616,
      "step": 3140
    },
    {
      "epoch": 0.8054896427884307,
      "loss": 1.038661241531372,
      "loss_ce": 0.002528465585783124,
      "loss_iou": 0.46875,
      "loss_num": 0.01953125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 396636616,
      "step": 3140
    },
    {
      "epoch": 0.8057461681523761,
      "grad_norm": 66.0035171508789,
      "learning_rate": 5e-06,
      "loss": 1.0278,
      "num_input_tokens_seen": 396764064,
      "step": 3141
    },
    {
      "epoch": 0.8057461681523761,
      "loss": 1.2313523292541504,
      "loss_ce": 0.00186012196354568,
      "loss_iou": 0.53125,
      "loss_num": 0.03271484375,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 396764064,
      "step": 3141
    },
    {
      "epoch": 0.8060026935163215,
      "grad_norm": 51.98939895629883,
      "learning_rate": 5e-06,
      "loss": 0.9746,
      "num_input_tokens_seen": 396891000,
      "step": 3142
    },
    {
      "epoch": 0.8060026935163215,
      "loss": 0.9852721095085144,
      "loss_ce": 0.0004087829147465527,
      "loss_iou": 0.453125,
      "loss_num": 0.01544189453125,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 396891000,
      "step": 3142
    },
    {
      "epoch": 0.8062592188802667,
      "grad_norm": 49.060150146484375,
      "learning_rate": 5e-06,
      "loss": 0.8522,
      "num_input_tokens_seen": 397017472,
      "step": 3143
    },
    {
      "epoch": 0.8062592188802667,
      "loss": 0.8712638020515442,
      "loss_ce": 0.0004141835088375956,
      "loss_iou": 0.40625,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 397017472,
      "step": 3143
    },
    {
      "epoch": 0.8065157442442121,
      "grad_norm": 44.162437438964844,
      "learning_rate": 5e-06,
      "loss": 1.0092,
      "num_input_tokens_seen": 397144052,
      "step": 3144
    },
    {
      "epoch": 0.8065157442442121,
      "loss": 1.086037516593933,
      "loss_ce": 0.0010765960905700922,
      "loss_iou": 0.4921875,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 397144052,
      "step": 3144
    },
    {
      "epoch": 0.8067722696081575,
      "grad_norm": 32.407081604003906,
      "learning_rate": 5e-06,
      "loss": 0.9282,
      "num_input_tokens_seen": 397269468,
      "step": 3145
    },
    {
      "epoch": 0.8067722696081575,
      "loss": 1.0499733686447144,
      "loss_ce": 0.0016334701795130968,
      "loss_iou": 0.48828125,
      "loss_num": 0.01483154296875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 397269468,
      "step": 3145
    },
    {
      "epoch": 0.8070287949721029,
      "grad_norm": 33.57683563232422,
      "learning_rate": 5e-06,
      "loss": 0.8876,
      "num_input_tokens_seen": 397396536,
      "step": 3146
    },
    {
      "epoch": 0.8070287949721029,
      "loss": 0.8332091569900513,
      "loss_ce": 0.00044546902063302696,
      "loss_iou": 0.3984375,
      "loss_num": 0.006744384765625,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 397396536,
      "step": 3146
    },
    {
      "epoch": 0.8072853203360483,
      "grad_norm": 29.294931411743164,
      "learning_rate": 5e-06,
      "loss": 0.9961,
      "num_input_tokens_seen": 397521928,
      "step": 3147
    },
    {
      "epoch": 0.8072853203360483,
      "loss": 0.9782864451408386,
      "loss_ce": 0.0002590929507277906,
      "loss_iou": 0.453125,
      "loss_num": 0.0140380859375,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 397521928,
      "step": 3147
    },
    {
      "epoch": 0.8075418456999935,
      "grad_norm": 23.802471160888672,
      "learning_rate": 5e-06,
      "loss": 0.8407,
      "num_input_tokens_seen": 397648072,
      "step": 3148
    },
    {
      "epoch": 0.8075418456999935,
      "loss": 0.804663896560669,
      "loss_ce": 0.00046469911467283964,
      "loss_iou": 0.3828125,
      "loss_num": 0.007598876953125,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 397648072,
      "step": 3148
    },
    {
      "epoch": 0.8077983710639389,
      "grad_norm": 31.42759895324707,
      "learning_rate": 5e-06,
      "loss": 0.8763,
      "num_input_tokens_seen": 397773888,
      "step": 3149
    },
    {
      "epoch": 0.8077983710639389,
      "loss": 0.8567143678665161,
      "loss_ce": 0.001489719608798623,
      "loss_iou": 0.388671875,
      "loss_num": 0.015869140625,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 397773888,
      "step": 3149
    },
    {
      "epoch": 0.8080548964278843,
      "grad_norm": 57.75412368774414,
      "learning_rate": 5e-06,
      "loss": 0.8429,
      "num_input_tokens_seen": 397899440,
      "step": 3150
    },
    {
      "epoch": 0.8080548964278843,
      "loss": 0.7447916269302368,
      "loss_ce": 0.003092440776526928,
      "loss_iou": 0.34375,
      "loss_num": 0.0106201171875,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 397899440,
      "step": 3150
    },
    {
      "epoch": 0.8083114217918297,
      "grad_norm": 47.10200500488281,
      "learning_rate": 5e-06,
      "loss": 0.9557,
      "num_input_tokens_seen": 398024964,
      "step": 3151
    },
    {
      "epoch": 0.8083114217918297,
      "loss": 0.8187114596366882,
      "loss_ce": 0.0018169176764786243,
      "loss_iou": 0.375,
      "loss_num": 0.013427734375,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 398024964,
      "step": 3151
    },
    {
      "epoch": 0.8085679471557751,
      "grad_norm": 35.810646057128906,
      "learning_rate": 5e-06,
      "loss": 0.8332,
      "num_input_tokens_seen": 398151848,
      "step": 3152
    },
    {
      "epoch": 0.8085679471557751,
      "loss": 0.7030031681060791,
      "loss_ce": 0.00134296587202698,
      "loss_iou": 0.3359375,
      "loss_num": 0.006103515625,
      "loss_xval": 0.703125,
      "num_input_tokens_seen": 398151848,
      "step": 3152
    },
    {
      "epoch": 0.8088244725197203,
      "grad_norm": 45.44815444946289,
      "learning_rate": 5e-06,
      "loss": 1.0157,
      "num_input_tokens_seen": 398278352,
      "step": 3153
    },
    {
      "epoch": 0.8088244725197203,
      "loss": 0.9875250458717346,
      "loss_ce": 0.00022031800472177565,
      "loss_iou": 0.44921875,
      "loss_num": 0.017578125,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 398278352,
      "step": 3153
    },
    {
      "epoch": 0.8090809978836657,
      "grad_norm": 53.01268005371094,
      "learning_rate": 5e-06,
      "loss": 0.9729,
      "num_input_tokens_seen": 398405184,
      "step": 3154
    },
    {
      "epoch": 0.8090809978836657,
      "loss": 0.9092525839805603,
      "loss_ce": 0.0005611785454675555,
      "loss_iou": 0.41015625,
      "loss_num": 0.017822265625,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 398405184,
      "step": 3154
    },
    {
      "epoch": 0.8093375232476111,
      "grad_norm": 55.66101837158203,
      "learning_rate": 5e-06,
      "loss": 0.9021,
      "num_input_tokens_seen": 398532132,
      "step": 3155
    },
    {
      "epoch": 0.8093375232476111,
      "loss": 0.8232783079147339,
      "loss_ce": 0.0024775569327175617,
      "loss_iou": 0.384765625,
      "loss_num": 0.0107421875,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 398532132,
      "step": 3155
    },
    {
      "epoch": 0.8095940486115565,
      "grad_norm": 66.66975402832031,
      "learning_rate": 5e-06,
      "loss": 0.8899,
      "num_input_tokens_seen": 398659532,
      "step": 3156
    },
    {
      "epoch": 0.8095940486115565,
      "loss": 0.8999677300453186,
      "loss_ce": 0.0005536452517844737,
      "loss_iou": 0.419921875,
      "loss_num": 0.01177978515625,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 398659532,
      "step": 3156
    },
    {
      "epoch": 0.8098505739755019,
      "grad_norm": 117.39408111572266,
      "learning_rate": 5e-06,
      "loss": 0.9921,
      "num_input_tokens_seen": 398785336,
      "step": 3157
    },
    {
      "epoch": 0.8098505739755019,
      "loss": 0.922140896320343,
      "loss_ce": 0.00026588235050439835,
      "loss_iou": 0.4375,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 398785336,
      "step": 3157
    },
    {
      "epoch": 0.8101070993394471,
      "grad_norm": 52.40734100341797,
      "learning_rate": 5e-06,
      "loss": 0.8438,
      "num_input_tokens_seen": 398912656,
      "step": 3158
    },
    {
      "epoch": 0.8101070993394471,
      "loss": 0.8181699514389038,
      "loss_ce": 0.001275440095923841,
      "loss_iou": 0.38671875,
      "loss_num": 0.00897216796875,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 398912656,
      "step": 3158
    },
    {
      "epoch": 0.8103636247033925,
      "grad_norm": 36.86540222167969,
      "learning_rate": 5e-06,
      "loss": 0.8983,
      "num_input_tokens_seen": 399039152,
      "step": 3159
    },
    {
      "epoch": 0.8103636247033925,
      "loss": 0.8122996091842651,
      "loss_ce": 0.0002878435770981014,
      "loss_iou": 0.392578125,
      "loss_num": 0.00579833984375,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 399039152,
      "step": 3159
    },
    {
      "epoch": 0.8106201500673379,
      "grad_norm": 53.35686492919922,
      "learning_rate": 5e-06,
      "loss": 0.9526,
      "num_input_tokens_seen": 399165648,
      "step": 3160
    },
    {
      "epoch": 0.8106201500673379,
      "loss": 1.077970266342163,
      "loss_ce": 0.0003335924702696502,
      "loss_iou": 0.49609375,
      "loss_num": 0.016845703125,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 399165648,
      "step": 3160
    },
    {
      "epoch": 0.8108766754312833,
      "grad_norm": 42.312557220458984,
      "learning_rate": 5e-06,
      "loss": 0.9249,
      "num_input_tokens_seen": 399291756,
      "step": 3161
    },
    {
      "epoch": 0.8108766754312833,
      "loss": 1.0911002159118652,
      "loss_ce": 0.005162663757801056,
      "loss_iou": 0.474609375,
      "loss_num": 0.02734375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 399291756,
      "step": 3161
    },
    {
      "epoch": 0.8111332007952287,
      "grad_norm": 41.70225143432617,
      "learning_rate": 5e-06,
      "loss": 0.9386,
      "num_input_tokens_seen": 399416972,
      "step": 3162
    },
    {
      "epoch": 0.8111332007952287,
      "loss": 1.177584171295166,
      "loss_ce": 0.003756015794351697,
      "loss_iou": 0.53125,
      "loss_num": 0.0223388671875,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 399416972,
      "step": 3162
    },
    {
      "epoch": 0.811389726159174,
      "grad_norm": 43.042259216308594,
      "learning_rate": 5e-06,
      "loss": 0.9237,
      "num_input_tokens_seen": 399544000,
      "step": 3163
    },
    {
      "epoch": 0.811389726159174,
      "loss": 0.9579127430915833,
      "loss_ce": 0.00429946556687355,
      "loss_iou": 0.4375,
      "loss_num": 0.01611328125,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 399544000,
      "step": 3163
    },
    {
      "epoch": 0.8116462515231193,
      "grad_norm": 62.8327751159668,
      "learning_rate": 5e-06,
      "loss": 0.8871,
      "num_input_tokens_seen": 399670520,
      "step": 3164
    },
    {
      "epoch": 0.8116462515231193,
      "loss": 0.9716030359268188,
      "loss_ce": 0.0006558262393809855,
      "loss_iou": 0.447265625,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 399670520,
      "step": 3164
    },
    {
      "epoch": 0.8119027768870647,
      "grad_norm": 52.89523696899414,
      "learning_rate": 5e-06,
      "loss": 1.0049,
      "num_input_tokens_seen": 399797440,
      "step": 3165
    },
    {
      "epoch": 0.8119027768870647,
      "loss": 0.9875327348709106,
      "loss_ce": 0.0051108356565237045,
      "loss_iou": 0.4453125,
      "loss_num": 0.01806640625,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 399797440,
      "step": 3165
    },
    {
      "epoch": 0.8121593022510101,
      "grad_norm": 44.42190933227539,
      "learning_rate": 5e-06,
      "loss": 0.8777,
      "num_input_tokens_seen": 399925308,
      "step": 3166
    },
    {
      "epoch": 0.8121593022510101,
      "loss": 0.819495677947998,
      "loss_ce": 0.0026011669542640448,
      "loss_iou": 0.380859375,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 399925308,
      "step": 3166
    },
    {
      "epoch": 0.8124158276149555,
      "grad_norm": 48.83903503417969,
      "learning_rate": 5e-06,
      "loss": 1.0113,
      "num_input_tokens_seen": 400051380,
      "step": 3167
    },
    {
      "epoch": 0.8124158276149555,
      "loss": 1.2051180601119995,
      "loss_ce": 0.0010164931882172823,
      "loss_iou": 0.546875,
      "loss_num": 0.0228271484375,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 400051380,
      "step": 3167
    },
    {
      "epoch": 0.8126723529789008,
      "grad_norm": 36.837615966796875,
      "learning_rate": 5e-06,
      "loss": 0.801,
      "num_input_tokens_seen": 400177088,
      "step": 3168
    },
    {
      "epoch": 0.8126723529789008,
      "loss": 0.8255153894424438,
      "loss_ce": 7.590333552798256e-05,
      "loss_iou": 0.388671875,
      "loss_num": 0.009521484375,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 400177088,
      "step": 3168
    },
    {
      "epoch": 0.8129288783428461,
      "grad_norm": 22.556442260742188,
      "learning_rate": 5e-06,
      "loss": 0.8226,
      "num_input_tokens_seen": 400302784,
      "step": 3169
    },
    {
      "epoch": 0.8129288783428461,
      "loss": 0.781917929649353,
      "loss_ce": 0.001156178186647594,
      "loss_iou": 0.36328125,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 400302784,
      "step": 3169
    },
    {
      "epoch": 0.8131854037067915,
      "grad_norm": 23.420791625976562,
      "learning_rate": 5e-06,
      "loss": 1.0049,
      "num_input_tokens_seen": 400429252,
      "step": 3170
    },
    {
      "epoch": 0.8131854037067915,
      "loss": 1.069065809249878,
      "loss_ce": 0.0016830196836963296,
      "loss_iou": 0.490234375,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 400429252,
      "step": 3170
    },
    {
      "epoch": 0.8134419290707369,
      "grad_norm": 53.57369613647461,
      "learning_rate": 5e-06,
      "loss": 0.874,
      "num_input_tokens_seen": 400555228,
      "step": 3171
    },
    {
      "epoch": 0.8134419290707369,
      "loss": 0.8449221849441528,
      "loss_ce": 0.0014163292944431305,
      "loss_iou": 0.390625,
      "loss_num": 0.01287841796875,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 400555228,
      "step": 3171
    },
    {
      "epoch": 0.8136984544346823,
      "grad_norm": 50.760311126708984,
      "learning_rate": 5e-06,
      "loss": 0.8678,
      "num_input_tokens_seen": 400681712,
      "step": 3172
    },
    {
      "epoch": 0.8136984544346823,
      "loss": 1.0057241916656494,
      "loss_ce": 0.000841474044136703,
      "loss_iou": 0.474609375,
      "loss_num": 0.01171875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 400681712,
      "step": 3172
    },
    {
      "epoch": 0.8139549797986276,
      "grad_norm": 46.803897857666016,
      "learning_rate": 5e-06,
      "loss": 0.9955,
      "num_input_tokens_seen": 400807436,
      "step": 3173
    },
    {
      "epoch": 0.8139549797986276,
      "loss": 1.2205946445465088,
      "loss_ce": 0.0013563185930252075,
      "loss_iou": 0.5546875,
      "loss_num": 0.0224609375,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 400807436,
      "step": 3173
    },
    {
      "epoch": 0.8142115051625729,
      "grad_norm": 34.614871978759766,
      "learning_rate": 5e-06,
      "loss": 0.9042,
      "num_input_tokens_seen": 400933092,
      "step": 3174
    },
    {
      "epoch": 0.8142115051625729,
      "loss": 0.852138876914978,
      "loss_ce": 0.0010646735318005085,
      "loss_iou": 0.39453125,
      "loss_num": 0.01220703125,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 400933092,
      "step": 3174
    },
    {
      "epoch": 0.8144680305265183,
      "grad_norm": 51.043357849121094,
      "learning_rate": 5e-06,
      "loss": 0.8636,
      "num_input_tokens_seen": 401059572,
      "step": 3175
    },
    {
      "epoch": 0.8144680305265183,
      "loss": 0.7405379414558411,
      "loss_ce": 0.00030356721254065633,
      "loss_iou": 0.353515625,
      "loss_num": 0.006805419921875,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 401059572,
      "step": 3175
    },
    {
      "epoch": 0.8147245558904637,
      "grad_norm": 64.50495910644531,
      "learning_rate": 5e-06,
      "loss": 0.9762,
      "num_input_tokens_seen": 401186116,
      "step": 3176
    },
    {
      "epoch": 0.8147245558904637,
      "loss": 1.0540298223495483,
      "loss_ce": 0.00031891546677798033,
      "loss_iou": 0.4765625,
      "loss_num": 0.02001953125,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 401186116,
      "step": 3176
    },
    {
      "epoch": 0.814981081254409,
      "grad_norm": 51.36925506591797,
      "learning_rate": 5e-06,
      "loss": 0.9022,
      "num_input_tokens_seen": 401312508,
      "step": 3177
    },
    {
      "epoch": 0.814981081254409,
      "loss": 0.8924277424812317,
      "loss_ce": 0.00033793720649555326,
      "loss_iou": 0.4140625,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 401312508,
      "step": 3177
    },
    {
      "epoch": 0.8152376066183544,
      "grad_norm": 41.818965911865234,
      "learning_rate": 5e-06,
      "loss": 0.8607,
      "num_input_tokens_seen": 401437580,
      "step": 3178
    },
    {
      "epoch": 0.8152376066183544,
      "loss": 0.766558051109314,
      "loss_ce": 0.0009330391185358167,
      "loss_iou": 0.3671875,
      "loss_num": 0.006103515625,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 401437580,
      "step": 3178
    },
    {
      "epoch": 0.8154941319822997,
      "grad_norm": 42.16203308105469,
      "learning_rate": 5e-06,
      "loss": 1.0129,
      "num_input_tokens_seen": 401563600,
      "step": 3179
    },
    {
      "epoch": 0.8154941319822997,
      "loss": 1.0135772228240967,
      "loss_ce": 0.0013702032156288624,
      "loss_iou": 0.466796875,
      "loss_num": 0.015625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 401563600,
      "step": 3179
    },
    {
      "epoch": 0.8157506573462451,
      "grad_norm": 49.449100494384766,
      "learning_rate": 5e-06,
      "loss": 0.9013,
      "num_input_tokens_seen": 401688944,
      "step": 3180
    },
    {
      "epoch": 0.8157506573462451,
      "loss": 1.0203344821929932,
      "loss_ce": 0.00226815277710557,
      "loss_iou": 0.4609375,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 401688944,
      "step": 3180
    },
    {
      "epoch": 0.8160071827101905,
      "grad_norm": 46.67910385131836,
      "learning_rate": 5e-06,
      "loss": 0.9374,
      "num_input_tokens_seen": 401815324,
      "step": 3181
    },
    {
      "epoch": 0.8160071827101905,
      "loss": 0.9345064759254456,
      "loss_ce": 0.0018892379011958838,
      "loss_iou": 0.4296875,
      "loss_num": 0.01458740234375,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 401815324,
      "step": 3181
    },
    {
      "epoch": 0.8162637080741358,
      "grad_norm": 60.749210357666016,
      "learning_rate": 5e-06,
      "loss": 0.9833,
      "num_input_tokens_seen": 401942112,
      "step": 3182
    },
    {
      "epoch": 0.8162637080741358,
      "loss": 1.0427157878875732,
      "loss_ce": 0.00023534795036539435,
      "loss_iou": 0.466796875,
      "loss_num": 0.021728515625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 401942112,
      "step": 3182
    },
    {
      "epoch": 0.8165202334380812,
      "grad_norm": 49.386295318603516,
      "learning_rate": 5e-06,
      "loss": 0.9689,
      "num_input_tokens_seen": 402068544,
      "step": 3183
    },
    {
      "epoch": 0.8165202334380812,
      "loss": 0.9832860827445984,
      "loss_ce": 0.001840757904574275,
      "loss_iou": 0.44921875,
      "loss_num": 0.0167236328125,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 402068544,
      "step": 3183
    },
    {
      "epoch": 0.8167767588020266,
      "grad_norm": 27.673599243164062,
      "learning_rate": 5e-06,
      "loss": 0.9615,
      "num_input_tokens_seen": 402194480,
      "step": 3184
    },
    {
      "epoch": 0.8167767588020266,
      "loss": 0.9664819240570068,
      "loss_ce": 0.0011499252868816257,
      "loss_iou": 0.43359375,
      "loss_num": 0.019287109375,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 402194480,
      "step": 3184
    },
    {
      "epoch": 0.8170332841659719,
      "grad_norm": 23.838529586791992,
      "learning_rate": 5e-06,
      "loss": 0.878,
      "num_input_tokens_seen": 402321220,
      "step": 3185
    },
    {
      "epoch": 0.8170332841659719,
      "loss": 1.0017471313476562,
      "loss_ce": 0.002723683835938573,
      "loss_iou": 0.443359375,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 402321220,
      "step": 3185
    },
    {
      "epoch": 0.8172898095299173,
      "grad_norm": 29.564373016357422,
      "learning_rate": 5e-06,
      "loss": 0.9108,
      "num_input_tokens_seen": 402447132,
      "step": 3186
    },
    {
      "epoch": 0.8172898095299173,
      "loss": 0.6269969344139099,
      "loss_ce": 0.0002879344392567873,
      "loss_iou": 0.296875,
      "loss_num": 0.006591796875,
      "loss_xval": 0.625,
      "num_input_tokens_seen": 402447132,
      "step": 3186
    },
    {
      "epoch": 0.8175463348938626,
      "grad_norm": 34.37434005737305,
      "learning_rate": 5e-06,
      "loss": 0.9106,
      "num_input_tokens_seen": 402572156,
      "step": 3187
    },
    {
      "epoch": 0.8175463348938626,
      "loss": 0.9285587072372437,
      "loss_ce": 0.0003360353293828666,
      "loss_iou": 0.44140625,
      "loss_num": 0.009521484375,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 402572156,
      "step": 3187
    },
    {
      "epoch": 0.817802860257808,
      "grad_norm": 28.39679527282715,
      "learning_rate": 5e-06,
      "loss": 0.9188,
      "num_input_tokens_seen": 402698244,
      "step": 3188
    },
    {
      "epoch": 0.817802860257808,
      "loss": 0.8634181022644043,
      "loss_ce": 0.00013684862642548978,
      "loss_iou": 0.3984375,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 402698244,
      "step": 3188
    },
    {
      "epoch": 0.8180593856217534,
      "grad_norm": 45.80647277832031,
      "learning_rate": 5e-06,
      "loss": 0.8263,
      "num_input_tokens_seen": 402824720,
      "step": 3189
    },
    {
      "epoch": 0.8180593856217534,
      "loss": 0.5697246789932251,
      "loss_ce": 0.0003887395723722875,
      "loss_iou": 0.275390625,
      "loss_num": 0.0037384033203125,
      "loss_xval": 0.5703125,
      "num_input_tokens_seen": 402824720,
      "step": 3189
    },
    {
      "epoch": 0.8183159109856987,
      "grad_norm": 61.63531494140625,
      "learning_rate": 5e-06,
      "loss": 1.0177,
      "num_input_tokens_seen": 402950984,
      "step": 3190
    },
    {
      "epoch": 0.8183159109856987,
      "loss": 1.0950753688812256,
      "loss_ce": 0.0015693942550569773,
      "loss_iou": 0.4921875,
      "loss_num": 0.0220947265625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 402950984,
      "step": 3190
    },
    {
      "epoch": 0.818572436349644,
      "grad_norm": 53.73925018310547,
      "learning_rate": 5e-06,
      "loss": 0.9694,
      "num_input_tokens_seen": 403077780,
      "step": 3191
    },
    {
      "epoch": 0.818572436349644,
      "loss": 1.021195888519287,
      "loss_ce": 0.0001997796935029328,
      "loss_iou": 0.46875,
      "loss_num": 0.016845703125,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 403077780,
      "step": 3191
    },
    {
      "epoch": 0.8188289617135894,
      "grad_norm": 45.77851867675781,
      "learning_rate": 5e-06,
      "loss": 0.9216,
      "num_input_tokens_seen": 403203532,
      "step": 3192
    },
    {
      "epoch": 0.8188289617135894,
      "loss": 0.8285750150680542,
      "loss_ce": 0.001426597940735519,
      "loss_iou": 0.39453125,
      "loss_num": 0.007415771484375,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 403203532,
      "step": 3192
    },
    {
      "epoch": 0.8190854870775348,
      "grad_norm": 33.52117156982422,
      "learning_rate": 5e-06,
      "loss": 0.8745,
      "num_input_tokens_seen": 403330884,
      "step": 3193
    },
    {
      "epoch": 0.8190854870775348,
      "loss": 1.0243020057678223,
      "loss_ce": 0.004526656586676836,
      "loss_iou": 0.447265625,
      "loss_num": 0.025146484375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 403330884,
      "step": 3193
    },
    {
      "epoch": 0.8193420124414802,
      "grad_norm": 44.59539794921875,
      "learning_rate": 5e-06,
      "loss": 0.9965,
      "num_input_tokens_seen": 403457500,
      "step": 3194
    },
    {
      "epoch": 0.8193420124414802,
      "loss": 0.9845786690711975,
      "loss_ce": 0.0031333602964878082,
      "loss_iou": 0.4453125,
      "loss_num": 0.0179443359375,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 403457500,
      "step": 3194
    },
    {
      "epoch": 0.8195985378054255,
      "grad_norm": 43.587039947509766,
      "learning_rate": 5e-06,
      "loss": 0.8838,
      "num_input_tokens_seen": 403583480,
      "step": 3195
    },
    {
      "epoch": 0.8195985378054255,
      "loss": 0.918745219707489,
      "loss_ce": 0.0012648054398596287,
      "loss_iou": 0.421875,
      "loss_num": 0.01507568359375,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 403583480,
      "step": 3195
    },
    {
      "epoch": 0.8198550631693708,
      "grad_norm": 37.55659103393555,
      "learning_rate": 5e-06,
      "loss": 0.9324,
      "num_input_tokens_seen": 403708988,
      "step": 3196
    },
    {
      "epoch": 0.8198550631693708,
      "loss": 0.7488930821418762,
      "loss_ce": 0.00011378983617760241,
      "loss_iou": 0.353515625,
      "loss_num": 0.00836181640625,
      "loss_xval": 0.75,
      "num_input_tokens_seen": 403708988,
      "step": 3196
    },
    {
      "epoch": 0.8201115885333162,
      "grad_norm": 46.053890228271484,
      "learning_rate": 5e-06,
      "loss": 0.8926,
      "num_input_tokens_seen": 403835412,
      "step": 3197
    },
    {
      "epoch": 0.8201115885333162,
      "loss": 0.722744345664978,
      "loss_ce": 0.003017800860106945,
      "loss_iou": 0.337890625,
      "loss_num": 0.00860595703125,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 403835412,
      "step": 3197
    },
    {
      "epoch": 0.8203681138972616,
      "grad_norm": 57.597755432128906,
      "learning_rate": 5e-06,
      "loss": 0.9849,
      "num_input_tokens_seen": 403962280,
      "step": 3198
    },
    {
      "epoch": 0.8203681138972616,
      "loss": 1.0815812349319458,
      "loss_ce": 0.001503093633800745,
      "loss_iou": 0.50390625,
      "loss_num": 0.01495361328125,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 403962280,
      "step": 3198
    },
    {
      "epoch": 0.820624639261207,
      "grad_norm": 40.663143157958984,
      "learning_rate": 5e-06,
      "loss": 0.9756,
      "num_input_tokens_seen": 404088500,
      "step": 3199
    },
    {
      "epoch": 0.820624639261207,
      "loss": 0.9303100109100342,
      "loss_ce": 0.0011107935570180416,
      "loss_iou": 0.412109375,
      "loss_num": 0.021484375,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 404088500,
      "step": 3199
    },
    {
      "epoch": 0.8208811646251523,
      "grad_norm": 38.88434600830078,
      "learning_rate": 5e-06,
      "loss": 0.8722,
      "num_input_tokens_seen": 404213836,
      "step": 3200
    },
    {
      "epoch": 0.8208811646251523,
      "loss": 0.9379010200500488,
      "loss_ce": 0.0006451201625168324,
      "loss_iou": 0.435546875,
      "loss_num": 0.01318359375,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 404213836,
      "step": 3200
    },
    {
      "epoch": 0.8211376899890976,
      "grad_norm": 33.84011459350586,
      "learning_rate": 5e-06,
      "loss": 0.8638,
      "num_input_tokens_seen": 404338188,
      "step": 3201
    },
    {
      "epoch": 0.8211376899890976,
      "loss": 0.9327942132949829,
      "loss_ce": 0.0011535538360476494,
      "loss_iou": 0.443359375,
      "loss_num": 0.00909423828125,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 404338188,
      "step": 3201
    },
    {
      "epoch": 0.821394215353043,
      "grad_norm": 27.785184860229492,
      "learning_rate": 5e-06,
      "loss": 0.9015,
      "num_input_tokens_seen": 404464976,
      "step": 3202
    },
    {
      "epoch": 0.821394215353043,
      "loss": 0.8480465412139893,
      "loss_ce": 0.0003902918251696974,
      "loss_iou": 0.39453125,
      "loss_num": 0.01177978515625,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 404464976,
      "step": 3202
    },
    {
      "epoch": 0.8216507407169884,
      "grad_norm": 31.14859962463379,
      "learning_rate": 5e-06,
      "loss": 0.8308,
      "num_input_tokens_seen": 404590552,
      "step": 3203
    },
    {
      "epoch": 0.8216507407169884,
      "loss": 0.9352068305015564,
      "loss_ce": 0.00014822129742242396,
      "loss_iou": 0.431640625,
      "loss_num": 0.01416015625,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 404590552,
      "step": 3203
    },
    {
      "epoch": 0.8219072660809338,
      "grad_norm": 22.50996208190918,
      "learning_rate": 5e-06,
      "loss": 0.9479,
      "num_input_tokens_seen": 404716676,
      "step": 3204
    },
    {
      "epoch": 0.8219072660809338,
      "loss": 0.8082893490791321,
      "loss_ce": 0.00018384543363936245,
      "loss_iou": 0.373046875,
      "loss_num": 0.0123291015625,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 404716676,
      "step": 3204
    },
    {
      "epoch": 0.8221637914448792,
      "grad_norm": 38.72842788696289,
      "learning_rate": 5e-06,
      "loss": 0.824,
      "num_input_tokens_seen": 404842608,
      "step": 3205
    },
    {
      "epoch": 0.8221637914448792,
      "loss": 0.8294293880462646,
      "loss_ce": 0.00032781471963971853,
      "loss_iou": 0.3828125,
      "loss_num": 0.0125732421875,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 404842608,
      "step": 3205
    },
    {
      "epoch": 0.8224203168088244,
      "grad_norm": 61.372371673583984,
      "learning_rate": 5e-06,
      "loss": 0.8637,
      "num_input_tokens_seen": 404969328,
      "step": 3206
    },
    {
      "epoch": 0.8224203168088244,
      "loss": 0.9179788827896118,
      "loss_ce": 0.0007425149087794125,
      "loss_iou": 0.423828125,
      "loss_num": 0.01416015625,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 404969328,
      "step": 3206
    },
    {
      "epoch": 0.8226768421727698,
      "grad_norm": 42.90000915527344,
      "learning_rate": 5e-06,
      "loss": 0.9174,
      "num_input_tokens_seen": 405096188,
      "step": 3207
    },
    {
      "epoch": 0.8226768421727698,
      "loss": 0.9621914625167847,
      "loss_ce": 0.0012539359740912914,
      "loss_iou": 0.443359375,
      "loss_num": 0.01470947265625,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 405096188,
      "step": 3207
    },
    {
      "epoch": 0.8229333675367152,
      "grad_norm": 38.445594787597656,
      "learning_rate": 5e-06,
      "loss": 1.0214,
      "num_input_tokens_seen": 405222208,
      "step": 3208
    },
    {
      "epoch": 0.8229333675367152,
      "loss": 0.9868891835212708,
      "loss_ce": 0.0005610573571175337,
      "loss_iou": 0.4453125,
      "loss_num": 0.01953125,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 405222208,
      "step": 3208
    },
    {
      "epoch": 0.8231898929006606,
      "grad_norm": 54.31024169921875,
      "learning_rate": 5e-06,
      "loss": 0.9779,
      "num_input_tokens_seen": 405347600,
      "step": 3209
    },
    {
      "epoch": 0.8231898929006606,
      "loss": 1.0210685729980469,
      "loss_ce": 0.0008048757445067167,
      "loss_iou": 0.4609375,
      "loss_num": 0.01953125,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 405347600,
      "step": 3209
    },
    {
      "epoch": 0.823446418264606,
      "grad_norm": 43.54954528808594,
      "learning_rate": 5e-06,
      "loss": 0.9635,
      "num_input_tokens_seen": 405473460,
      "step": 3210
    },
    {
      "epoch": 0.823446418264606,
      "loss": 0.95503169298172,
      "loss_ce": 0.00019767673802562058,
      "loss_iou": 0.439453125,
      "loss_num": 0.01544189453125,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 405473460,
      "step": 3210
    },
    {
      "epoch": 0.8237029436285512,
      "grad_norm": 44.985145568847656,
      "learning_rate": 5e-06,
      "loss": 0.9054,
      "num_input_tokens_seen": 405599032,
      "step": 3211
    },
    {
      "epoch": 0.8237029436285512,
      "loss": 0.8969042897224426,
      "loss_ce": 0.000419898220570758,
      "loss_iou": 0.41796875,
      "loss_num": 0.0120849609375,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 405599032,
      "step": 3211
    },
    {
      "epoch": 0.8239594689924966,
      "grad_norm": 40.911678314208984,
      "learning_rate": 5e-06,
      "loss": 0.8938,
      "num_input_tokens_seen": 405725004,
      "step": 3212
    },
    {
      "epoch": 0.8239594689924966,
      "loss": 0.9338076114654541,
      "loss_ce": 0.0011904474813491106,
      "loss_iou": 0.4296875,
      "loss_num": 0.01434326171875,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 405725004,
      "step": 3212
    },
    {
      "epoch": 0.824215994356442,
      "grad_norm": 46.582942962646484,
      "learning_rate": 5e-06,
      "loss": 0.8709,
      "num_input_tokens_seen": 405851500,
      "step": 3213
    },
    {
      "epoch": 0.824215994356442,
      "loss": 1.0055956840515137,
      "loss_ce": 0.0021777364891022444,
      "loss_iou": 0.44921875,
      "loss_num": 0.02099609375,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 405851500,
      "step": 3213
    },
    {
      "epoch": 0.8244725197203874,
      "grad_norm": 43.71705627441406,
      "learning_rate": 5e-06,
      "loss": 0.9325,
      "num_input_tokens_seen": 405977952,
      "step": 3214
    },
    {
      "epoch": 0.8244725197203874,
      "loss": 1.017009973526001,
      "loss_ce": 0.00040835858089849353,
      "loss_iou": 0.46484375,
      "loss_num": 0.017822265625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 405977952,
      "step": 3214
    },
    {
      "epoch": 0.8247290450843328,
      "grad_norm": 32.80316162109375,
      "learning_rate": 5e-06,
      "loss": 0.8115,
      "num_input_tokens_seen": 406103860,
      "step": 3215
    },
    {
      "epoch": 0.8247290450843328,
      "loss": 0.8729409575462341,
      "loss_ce": 0.0011148026678711176,
      "loss_iou": 0.40625,
      "loss_num": 0.01177978515625,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 406103860,
      "step": 3215
    },
    {
      "epoch": 0.824985570448278,
      "grad_norm": 41.50703811645508,
      "learning_rate": 5e-06,
      "loss": 0.8484,
      "num_input_tokens_seen": 406229904,
      "step": 3216
    },
    {
      "epoch": 0.824985570448278,
      "loss": 0.8409217596054077,
      "loss_ce": 0.00864636804908514,
      "loss_iou": 0.390625,
      "loss_num": 0.010498046875,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 406229904,
      "step": 3216
    },
    {
      "epoch": 0.8252420958122234,
      "grad_norm": 46.06699752807617,
      "learning_rate": 5e-06,
      "loss": 0.9256,
      "num_input_tokens_seen": 406356052,
      "step": 3217
    },
    {
      "epoch": 0.8252420958122234,
      "loss": 1.0339198112487793,
      "loss_ce": 0.00022835502750240266,
      "loss_iou": 0.4765625,
      "loss_num": 0.016357421875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 406356052,
      "step": 3217
    },
    {
      "epoch": 0.8254986211761688,
      "grad_norm": 50.41526794433594,
      "learning_rate": 5e-06,
      "loss": 0.9969,
      "num_input_tokens_seen": 406483820,
      "step": 3218
    },
    {
      "epoch": 0.8254986211761688,
      "loss": 1.0014177560806274,
      "loss_ce": 0.003370875958353281,
      "loss_iou": 0.455078125,
      "loss_num": 0.017822265625,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 406483820,
      "step": 3218
    },
    {
      "epoch": 0.8257551465401142,
      "grad_norm": 57.19381332397461,
      "learning_rate": 5e-06,
      "loss": 1.006,
      "num_input_tokens_seen": 406611200,
      "step": 3219
    },
    {
      "epoch": 0.8257551465401142,
      "loss": 1.000044345855713,
      "loss_ce": 0.0005326105747371912,
      "loss_iou": 0.44921875,
      "loss_num": 0.0205078125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 406611200,
      "step": 3219
    },
    {
      "epoch": 0.8260116719040596,
      "grad_norm": 49.69628143310547,
      "learning_rate": 5e-06,
      "loss": 0.9399,
      "num_input_tokens_seen": 406737788,
      "step": 3220
    },
    {
      "epoch": 0.8260116719040596,
      "loss": 0.9905070066452026,
      "loss_ce": 0.0002726099919527769,
      "loss_iou": 0.447265625,
      "loss_num": 0.0189208984375,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 406737788,
      "step": 3220
    },
    {
      "epoch": 0.8262681972680048,
      "grad_norm": 63.15536117553711,
      "learning_rate": 5e-06,
      "loss": 0.9407,
      "num_input_tokens_seen": 406864780,
      "step": 3221
    },
    {
      "epoch": 0.8262681972680048,
      "loss": 0.8995381593704224,
      "loss_ce": 0.0008565601310692728,
      "loss_iou": 0.41796875,
      "loss_num": 0.0125732421875,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 406864780,
      "step": 3221
    },
    {
      "epoch": 0.8265247226319502,
      "grad_norm": 44.9344482421875,
      "learning_rate": 5e-06,
      "loss": 0.947,
      "num_input_tokens_seen": 406992320,
      "step": 3222
    },
    {
      "epoch": 0.8265247226319502,
      "loss": 0.9755024909973145,
      "loss_ce": 0.00040485113277100027,
      "loss_iou": 0.4375,
      "loss_num": 0.0198974609375,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 406992320,
      "step": 3222
    },
    {
      "epoch": 0.8267812479958956,
      "grad_norm": 23.89229393005371,
      "learning_rate": 5e-06,
      "loss": 0.8089,
      "num_input_tokens_seen": 407118476,
      "step": 3223
    },
    {
      "epoch": 0.8267812479958956,
      "loss": 0.7007943391799927,
      "loss_ce": 0.00023281101312022656,
      "loss_iou": 0.328125,
      "loss_num": 0.0084228515625,
      "loss_xval": 0.69921875,
      "num_input_tokens_seen": 407118476,
      "step": 3223
    },
    {
      "epoch": 0.827037773359841,
      "grad_norm": 33.91229248046875,
      "learning_rate": 5e-06,
      "loss": 0.8696,
      "num_input_tokens_seen": 407244128,
      "step": 3224
    },
    {
      "epoch": 0.827037773359841,
      "loss": 0.9473456144332886,
      "loss_ce": 0.0017889684531837702,
      "loss_iou": 0.41015625,
      "loss_num": 0.024658203125,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 407244128,
      "step": 3224
    },
    {
      "epoch": 0.8272942987237863,
      "grad_norm": 41.23390197753906,
      "learning_rate": 5e-06,
      "loss": 0.8924,
      "num_input_tokens_seen": 407370680,
      "step": 3225
    },
    {
      "epoch": 0.8272942987237863,
      "loss": 0.8628523349761963,
      "loss_ce": 0.0010359329171478748,
      "loss_iou": 0.404296875,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 407370680,
      "step": 3225
    },
    {
      "epoch": 0.8275508240877317,
      "grad_norm": 37.419532775878906,
      "learning_rate": 5e-06,
      "loss": 0.8978,
      "num_input_tokens_seen": 407495772,
      "step": 3226
    },
    {
      "epoch": 0.8275508240877317,
      "loss": 0.8094415068626404,
      "loss_ce": 0.0008477434166707098,
      "loss_iou": 0.37109375,
      "loss_num": 0.01373291015625,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 407495772,
      "step": 3226
    },
    {
      "epoch": 0.827807349451677,
      "grad_norm": 35.59785079956055,
      "learning_rate": 5e-06,
      "loss": 0.8984,
      "num_input_tokens_seen": 407622200,
      "step": 3227
    },
    {
      "epoch": 0.827807349451677,
      "loss": 1.0361979007720947,
      "loss_ce": 0.0005533768562600017,
      "loss_iou": 0.455078125,
      "loss_num": 0.0250244140625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 407622200,
      "step": 3227
    },
    {
      "epoch": 0.8280638748156224,
      "grad_norm": 37.97925567626953,
      "learning_rate": 5e-06,
      "loss": 0.8899,
      "num_input_tokens_seen": 407748132,
      "step": 3228
    },
    {
      "epoch": 0.8280638748156224,
      "loss": 0.8000407218933105,
      "loss_ce": 0.0031657565850764513,
      "loss_iou": 0.376953125,
      "loss_num": 0.00836181640625,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 407748132,
      "step": 3228
    },
    {
      "epoch": 0.8283204001795678,
      "grad_norm": 46.49896240234375,
      "learning_rate": 5e-06,
      "loss": 0.8974,
      "num_input_tokens_seen": 407874360,
      "step": 3229
    },
    {
      "epoch": 0.8283204001795678,
      "loss": 0.8780361413955688,
      "loss_ce": 0.0010830394458025694,
      "loss_iou": 0.39453125,
      "loss_num": 0.01708984375,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 407874360,
      "step": 3229
    },
    {
      "epoch": 0.8285769255435131,
      "grad_norm": 45.23713684082031,
      "learning_rate": 5e-06,
      "loss": 0.93,
      "num_input_tokens_seen": 408000416,
      "step": 3230
    },
    {
      "epoch": 0.8285769255435131,
      "loss": 1.0315477848052979,
      "loss_ce": 0.0027392571792006493,
      "loss_iou": 0.4609375,
      "loss_num": 0.021728515625,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 408000416,
      "step": 3230
    },
    {
      "epoch": 0.8288334509074585,
      "grad_norm": 37.725067138671875,
      "learning_rate": 5e-06,
      "loss": 0.993,
      "num_input_tokens_seen": 408128304,
      "step": 3231
    },
    {
      "epoch": 0.8288334509074585,
      "loss": 1.0059795379638672,
      "loss_ce": 0.0010966637637466192,
      "loss_iou": 0.458984375,
      "loss_num": 0.0177001953125,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 408128304,
      "step": 3231
    },
    {
      "epoch": 0.8290899762714038,
      "grad_norm": 38.406288146972656,
      "learning_rate": 5e-06,
      "loss": 0.9567,
      "num_input_tokens_seen": 408254616,
      "step": 3232
    },
    {
      "epoch": 0.8290899762714038,
      "loss": 0.7051502466201782,
      "loss_ce": 0.0005604479811154306,
      "loss_iou": 0.337890625,
      "loss_num": 0.0054931640625,
      "loss_xval": 0.703125,
      "num_input_tokens_seen": 408254616,
      "step": 3232
    },
    {
      "epoch": 0.8293465016353492,
      "grad_norm": 44.0836067199707,
      "learning_rate": 5e-06,
      "loss": 0.8199,
      "num_input_tokens_seen": 408380176,
      "step": 3233
    },
    {
      "epoch": 0.8293465016353492,
      "loss": 0.8648995161056519,
      "loss_ce": 0.0003975875151809305,
      "loss_iou": 0.39453125,
      "loss_num": 0.01483154296875,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 408380176,
      "step": 3233
    },
    {
      "epoch": 0.8296030269992946,
      "grad_norm": 42.561683654785156,
      "learning_rate": 5e-06,
      "loss": 0.9885,
      "num_input_tokens_seen": 408505864,
      "step": 3234
    },
    {
      "epoch": 0.8296030269992946,
      "loss": 0.971314013004303,
      "loss_ce": 0.0008550078491680324,
      "loss_iou": 0.451171875,
      "loss_num": 0.01385498046875,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 408505864,
      "step": 3234
    },
    {
      "epoch": 0.8298595523632399,
      "grad_norm": 100.6839599609375,
      "learning_rate": 5e-06,
      "loss": 0.9402,
      "num_input_tokens_seen": 408632032,
      "step": 3235
    },
    {
      "epoch": 0.8298595523632399,
      "loss": 0.8945464491844177,
      "loss_ce": 0.001480043400079012,
      "loss_iou": 0.41796875,
      "loss_num": 0.01141357421875,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 408632032,
      "step": 3235
    },
    {
      "epoch": 0.8301160777271853,
      "grad_norm": 36.440345764160156,
      "learning_rate": 5e-06,
      "loss": 1.0001,
      "num_input_tokens_seen": 408757472,
      "step": 3236
    },
    {
      "epoch": 0.8301160777271853,
      "loss": 1.0890145301818848,
      "loss_ce": 0.00014735243166796863,
      "loss_iou": 0.486328125,
      "loss_num": 0.023193359375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 408757472,
      "step": 3236
    },
    {
      "epoch": 0.8303726030911306,
      "grad_norm": 51.320289611816406,
      "learning_rate": 5e-06,
      "loss": 0.8715,
      "num_input_tokens_seen": 408883636,
      "step": 3237
    },
    {
      "epoch": 0.8303726030911306,
      "loss": 0.8932956457138062,
      "loss_ce": 0.0007174824131652713,
      "loss_iou": 0.431640625,
      "loss_num": 0.00567626953125,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 408883636,
      "step": 3237
    },
    {
      "epoch": 0.830629128455076,
      "grad_norm": 45.12207794189453,
      "learning_rate": 5e-06,
      "loss": 0.8901,
      "num_input_tokens_seen": 409011016,
      "step": 3238
    },
    {
      "epoch": 0.830629128455076,
      "loss": 0.813601016998291,
      "loss_ce": 0.0018334295600652695,
      "loss_iou": 0.375,
      "loss_num": 0.01214599609375,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 409011016,
      "step": 3238
    },
    {
      "epoch": 0.8308856538190214,
      "grad_norm": 41.72220230102539,
      "learning_rate": 5e-06,
      "loss": 1.0117,
      "num_input_tokens_seen": 409137556,
      "step": 3239
    },
    {
      "epoch": 0.8308856538190214,
      "loss": 0.9541773796081543,
      "loss_ce": 0.0005641456227749586,
      "loss_iou": 0.43359375,
      "loss_num": 0.017578125,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 409137556,
      "step": 3239
    },
    {
      "epoch": 0.8311421791829667,
      "grad_norm": 45.50634765625,
      "learning_rate": 5e-06,
      "loss": 0.9451,
      "num_input_tokens_seen": 409263968,
      "step": 3240
    },
    {
      "epoch": 0.8311421791829667,
      "loss": 1.0201194286346436,
      "loss_ce": 0.0025413173716515303,
      "loss_iou": 0.462890625,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 409263968,
      "step": 3240
    },
    {
      "epoch": 0.8313987045469121,
      "grad_norm": 40.572792053222656,
      "learning_rate": 5e-06,
      "loss": 1.029,
      "num_input_tokens_seen": 409389644,
      "step": 3241
    },
    {
      "epoch": 0.8313987045469121,
      "loss": 1.0275163650512695,
      "loss_ce": 0.0018816409865394235,
      "loss_iou": 0.455078125,
      "loss_num": 0.0233154296875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 409389644,
      "step": 3241
    },
    {
      "epoch": 0.8316552299108574,
      "grad_norm": 42.139808654785156,
      "learning_rate": 5e-06,
      "loss": 0.971,
      "num_input_tokens_seen": 409516320,
      "step": 3242
    },
    {
      "epoch": 0.8316552299108574,
      "loss": 1.0014221668243408,
      "loss_ce": 0.004840051289647818,
      "loss_iou": 0.453125,
      "loss_num": 0.017822265625,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 409516320,
      "step": 3242
    },
    {
      "epoch": 0.8319117552748028,
      "grad_norm": 58.47203063964844,
      "learning_rate": 5e-06,
      "loss": 0.8449,
      "num_input_tokens_seen": 409643464,
      "step": 3243
    },
    {
      "epoch": 0.8319117552748028,
      "loss": 0.7905172109603882,
      "loss_ce": 0.002431262284517288,
      "loss_iou": 0.361328125,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 409643464,
      "step": 3243
    },
    {
      "epoch": 0.8321682806387481,
      "grad_norm": 50.82135772705078,
      "learning_rate": 5e-06,
      "loss": 1.0532,
      "num_input_tokens_seen": 409769464,
      "step": 3244
    },
    {
      "epoch": 0.8321682806387481,
      "loss": 0.9317537546157837,
      "loss_ce": 0.00011310909758321941,
      "loss_iou": 0.431640625,
      "loss_num": 0.0135498046875,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 409769464,
      "step": 3244
    },
    {
      "epoch": 0.8324248060026935,
      "grad_norm": 31.645689010620117,
      "learning_rate": 5e-06,
      "loss": 0.9772,
      "num_input_tokens_seen": 409896824,
      "step": 3245
    },
    {
      "epoch": 0.8324248060026935,
      "loss": 0.9744656682014465,
      "loss_ce": 0.000344633765053004,
      "loss_iou": 0.451171875,
      "loss_num": 0.01446533203125,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 409896824,
      "step": 3245
    },
    {
      "epoch": 0.8326813313666389,
      "grad_norm": 34.07466506958008,
      "learning_rate": 5e-06,
      "loss": 0.9796,
      "num_input_tokens_seen": 410022328,
      "step": 3246
    },
    {
      "epoch": 0.8326813313666389,
      "loss": 1.0665581226348877,
      "loss_ce": 0.00015182669449131936,
      "loss_iou": 0.484375,
      "loss_num": 0.01953125,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 410022328,
      "step": 3246
    },
    {
      "epoch": 0.8329378567305843,
      "grad_norm": 47.31861114501953,
      "learning_rate": 5e-06,
      "loss": 0.9616,
      "num_input_tokens_seen": 410148932,
      "step": 3247
    },
    {
      "epoch": 0.8329378567305843,
      "loss": 0.9139103889465332,
      "loss_ce": 0.0013127480633556843,
      "loss_iou": 0.42578125,
      "loss_num": 0.01239013671875,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 410148932,
      "step": 3247
    },
    {
      "epoch": 0.8331943820945296,
      "grad_norm": 41.639217376708984,
      "learning_rate": 5e-06,
      "loss": 0.8481,
      "num_input_tokens_seen": 410275464,
      "step": 3248
    },
    {
      "epoch": 0.8331943820945296,
      "loss": 0.7717355489730835,
      "loss_ce": 0.0002512157952878624,
      "loss_iou": 0.375,
      "loss_num": 0.004547119140625,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 410275464,
      "step": 3248
    },
    {
      "epoch": 0.8334509074584749,
      "grad_norm": 32.76722717285156,
      "learning_rate": 5e-06,
      "loss": 0.8392,
      "num_input_tokens_seen": 410402120,
      "step": 3249
    },
    {
      "epoch": 0.8334509074584749,
      "loss": 0.9330198764801025,
      "loss_ce": 0.0023558104876428843,
      "loss_iou": 0.421875,
      "loss_num": 0.0177001953125,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 410402120,
      "step": 3249
    },
    {
      "epoch": 0.8337074328224203,
      "grad_norm": 45.6946907043457,
      "learning_rate": 5e-06,
      "loss": 0.8654,
      "num_input_tokens_seen": 410528264,
      "step": 3250
    },
    {
      "epoch": 0.8337074328224203,
      "eval_icons_CIoU": 0.2547183632850647,
      "eval_icons_GIoU": 0.21344279497861862,
      "eval_icons_IoU": 0.4413909614086151,
      "eval_icons_MAE_all": 0.02615351229906082,
      "eval_icons_MAE_h": 0.03489969111979008,
      "eval_icons_MAE_w": 0.05405646190047264,
      "eval_icons_MAE_x_boxes": 0.05492858774960041,
      "eval_icons_MAE_y_boxes": 0.037086451426148415,
      "eval_icons_NUM_probability": 0.99985072016716,
      "eval_icons_inside_bbox": 0.7239583432674408,
      "eval_icons_loss": 1.678513765335083,
      "eval_icons_loss_ce": 6.53693077765638e-05,
      "eval_icons_loss_iou": 0.775634765625,
      "eval_icons_loss_num": 0.028594970703125,
      "eval_icons_loss_xval": 1.69482421875,
      "eval_icons_runtime": 51.2112,
      "eval_icons_samples_per_second": 0.976,
      "eval_icons_steps_per_second": 0.039,
      "num_input_tokens_seen": 410528264,
      "step": 3250
    },
    {
      "epoch": 0.8337074328224203,
      "eval_screenspot_CIoU": 0.12010233600934346,
      "eval_screenspot_GIoU": 0.10448726018269856,
      "eval_screenspot_IoU": 0.2869392881790797,
      "eval_screenspot_MAE_all": 0.07776643956700961,
      "eval_screenspot_MAE_h": 0.07446849967042606,
      "eval_screenspot_MAE_w": 0.12109563251336415,
      "eval_screenspot_MAE_x_boxes": 0.09650040666262309,
      "eval_screenspot_MAE_y_boxes": 0.05737322320540746,
      "eval_screenspot_NUM_probability": 0.9999246994654337,
      "eval_screenspot_inside_bbox": 0.6358333428700765,
      "eval_screenspot_loss": 2.2128961086273193,
      "eval_screenspot_loss_ce": 0.0020763227560867867,
      "eval_screenspot_loss_iou": 0.9131673177083334,
      "eval_screenspot_loss_num": 0.0822296142578125,
      "eval_screenspot_loss_xval": 2.2376302083333335,
      "eval_screenspot_runtime": 100.3915,
      "eval_screenspot_samples_per_second": 0.887,
      "eval_screenspot_steps_per_second": 0.03,
      "num_input_tokens_seen": 410528264,
      "step": 3250
    },
    {
      "epoch": 0.8337074328224203,
      "loss": 2.1324052810668945,
      "loss_ce": 0.0015457894187420607,
      "loss_iou": 0.89453125,
      "loss_num": 0.06884765625,
      "loss_xval": 2.125,
      "num_input_tokens_seen": 410528264,
      "step": 3250
    },
    {
      "epoch": 0.8339639581863657,
      "grad_norm": 71.37127685546875,
      "learning_rate": 5e-06,
      "loss": 0.9711,
      "num_input_tokens_seen": 410655152,
      "step": 3251
    },
    {
      "epoch": 0.8339639581863657,
      "loss": 1.0040916204452515,
      "loss_ce": 0.0016502051148563623,
      "loss_iou": 0.4609375,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 410655152,
      "step": 3251
    },
    {
      "epoch": 0.8342204835503111,
      "grad_norm": 44.42815017700195,
      "learning_rate": 5e-06,
      "loss": 1.0467,
      "num_input_tokens_seen": 410781440,
      "step": 3252
    },
    {
      "epoch": 0.8342204835503111,
      "loss": 0.99126136302948,
      "loss_ce": 0.0005387411219999194,
      "loss_iou": 0.453125,
      "loss_num": 0.01708984375,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 410781440,
      "step": 3252
    },
    {
      "epoch": 0.8344770089142564,
      "grad_norm": 52.268245697021484,
      "learning_rate": 5e-06,
      "loss": 0.8704,
      "num_input_tokens_seen": 410907832,
      "step": 3253
    },
    {
      "epoch": 0.8344770089142564,
      "loss": 0.9251123070716858,
      "loss_ce": 0.0003076334251090884,
      "loss_iou": 0.431640625,
      "loss_num": 0.0125732421875,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 410907832,
      "step": 3253
    },
    {
      "epoch": 0.8347335342782017,
      "grad_norm": 52.71864700317383,
      "learning_rate": 5e-06,
      "loss": 1.0611,
      "num_input_tokens_seen": 411035956,
      "step": 3254
    },
    {
      "epoch": 0.8347335342782017,
      "loss": 0.986844539642334,
      "loss_ce": 0.0024696062318980694,
      "loss_iou": 0.462890625,
      "loss_num": 0.01165771484375,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 411035956,
      "step": 3254
    },
    {
      "epoch": 0.8349900596421471,
      "grad_norm": 47.83852005004883,
      "learning_rate": 5e-06,
      "loss": 0.8981,
      "num_input_tokens_seen": 411162016,
      "step": 3255
    },
    {
      "epoch": 0.8349900596421471,
      "loss": 1.0862611532211304,
      "loss_ce": 0.0017885229317471385,
      "loss_iou": 0.47265625,
      "loss_num": 0.0277099609375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 411162016,
      "step": 3255
    },
    {
      "epoch": 0.8352465850060925,
      "grad_norm": 63.054710388183594,
      "learning_rate": 5e-06,
      "loss": 1.0281,
      "num_input_tokens_seen": 411289844,
      "step": 3256
    },
    {
      "epoch": 0.8352465850060925,
      "loss": 1.1283671855926514,
      "loss_ce": 0.002390654291957617,
      "loss_iou": 0.5078125,
      "loss_num": 0.022216796875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 411289844,
      "step": 3256
    },
    {
      "epoch": 0.8355031103700379,
      "grad_norm": 63.21312713623047,
      "learning_rate": 5e-06,
      "loss": 0.9566,
      "num_input_tokens_seen": 411415456,
      "step": 3257
    },
    {
      "epoch": 0.8355031103700379,
      "loss": 0.9683589935302734,
      "loss_ce": 0.0010738681303337216,
      "loss_iou": 0.443359375,
      "loss_num": 0.015869140625,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 411415456,
      "step": 3257
    },
    {
      "epoch": 0.8357596357339832,
      "grad_norm": 75.36348724365234,
      "learning_rate": 5e-06,
      "loss": 0.951,
      "num_input_tokens_seen": 411541776,
      "step": 3258
    },
    {
      "epoch": 0.8357596357339832,
      "loss": 0.877450704574585,
      "loss_ce": 0.0004975988995283842,
      "loss_iou": 0.412109375,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 411541776,
      "step": 3258
    },
    {
      "epoch": 0.8360161610979285,
      "grad_norm": 41.369781494140625,
      "learning_rate": 5e-06,
      "loss": 0.8733,
      "num_input_tokens_seen": 411668528,
      "step": 3259
    },
    {
      "epoch": 0.8360161610979285,
      "loss": 0.7836183309555054,
      "loss_ce": 0.0013917863834649324,
      "loss_iou": 0.361328125,
      "loss_num": 0.01190185546875,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 411668528,
      "step": 3259
    },
    {
      "epoch": 0.8362726864618739,
      "grad_norm": 46.048614501953125,
      "learning_rate": 5e-06,
      "loss": 0.9051,
      "num_input_tokens_seen": 411794480,
      "step": 3260
    },
    {
      "epoch": 0.8362726864618739,
      "loss": 0.8674889802932739,
      "loss_ce": 5.7305765949422494e-05,
      "loss_iou": 0.40625,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 411794480,
      "step": 3260
    },
    {
      "epoch": 0.8365292118258193,
      "grad_norm": 46.227386474609375,
      "learning_rate": 5e-06,
      "loss": 1.0017,
      "num_input_tokens_seen": 411920980,
      "step": 3261
    },
    {
      "epoch": 0.8365292118258193,
      "loss": 1.2831918001174927,
      "loss_ce": 0.0014534820802509785,
      "loss_iou": 0.56640625,
      "loss_num": 0.0296630859375,
      "loss_xval": 1.28125,
      "num_input_tokens_seen": 411920980,
      "step": 3261
    },
    {
      "epoch": 0.8367857371897647,
      "grad_norm": 34.17587661743164,
      "learning_rate": 5e-06,
      "loss": 1.0308,
      "num_input_tokens_seen": 412046976,
      "step": 3262
    },
    {
      "epoch": 0.8367857371897647,
      "loss": 1.2230675220489502,
      "loss_ce": 0.002364428248256445,
      "loss_iou": 0.56640625,
      "loss_num": 0.017578125,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 412046976,
      "step": 3262
    },
    {
      "epoch": 0.83704226255371,
      "grad_norm": 21.054309844970703,
      "learning_rate": 5e-06,
      "loss": 0.7924,
      "num_input_tokens_seen": 412172996,
      "step": 3263
    },
    {
      "epoch": 0.83704226255371,
      "loss": 0.9540098309516907,
      "loss_ce": 0.0033262295182794333,
      "loss_iou": 0.435546875,
      "loss_num": 0.015869140625,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 412172996,
      "step": 3263
    },
    {
      "epoch": 0.8372987879176553,
      "grad_norm": 34.457271575927734,
      "learning_rate": 5e-06,
      "loss": 0.8711,
      "num_input_tokens_seen": 412298648,
      "step": 3264
    },
    {
      "epoch": 0.8372987879176553,
      "loss": 1.060942530632019,
      "loss_ce": 0.0008839344372972846,
      "loss_iou": 0.486328125,
      "loss_num": 0.017822265625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 412298648,
      "step": 3264
    },
    {
      "epoch": 0.8375553132816007,
      "grad_norm": 41.15773010253906,
      "learning_rate": 5e-06,
      "loss": 0.8832,
      "num_input_tokens_seen": 412424388,
      "step": 3265
    },
    {
      "epoch": 0.8375553132816007,
      "loss": 0.9723127484321594,
      "loss_ce": 0.0001447701215511188,
      "loss_iou": 0.453125,
      "loss_num": 0.0135498046875,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 412424388,
      "step": 3265
    },
    {
      "epoch": 0.8378118386455461,
      "grad_norm": 47.46888732910156,
      "learning_rate": 5e-06,
      "loss": 0.8643,
      "num_input_tokens_seen": 412550524,
      "step": 3266
    },
    {
      "epoch": 0.8378118386455461,
      "loss": 1.0214431285858154,
      "loss_ce": 0.0016678018728271127,
      "loss_iou": 0.451171875,
      "loss_num": 0.0235595703125,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 412550524,
      "step": 3266
    },
    {
      "epoch": 0.8380683640094915,
      "grad_norm": 54.783687591552734,
      "learning_rate": 5e-06,
      "loss": 0.8516,
      "num_input_tokens_seen": 412677192,
      "step": 3267
    },
    {
      "epoch": 0.8380683640094915,
      "loss": 0.8658664226531982,
      "loss_ce": 0.0011203757021576166,
      "loss_iou": 0.41015625,
      "loss_num": 0.0087890625,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 412677192,
      "step": 3267
    },
    {
      "epoch": 0.8383248893734367,
      "grad_norm": 51.795318603515625,
      "learning_rate": 5e-06,
      "loss": 0.9689,
      "num_input_tokens_seen": 412802836,
      "step": 3268
    },
    {
      "epoch": 0.8383248893734367,
      "loss": 1.0761953592300415,
      "loss_ce": 0.002464849501848221,
      "loss_iou": 0.48046875,
      "loss_num": 0.0230712890625,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 412802836,
      "step": 3268
    },
    {
      "epoch": 0.8385814147373821,
      "grad_norm": 39.276065826416016,
      "learning_rate": 5e-06,
      "loss": 0.818,
      "num_input_tokens_seen": 412928912,
      "step": 3269
    },
    {
      "epoch": 0.8385814147373821,
      "loss": 0.8427125215530396,
      "loss_ce": 0.002624644199386239,
      "loss_iou": 0.392578125,
      "loss_num": 0.01123046875,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 412928912,
      "step": 3269
    },
    {
      "epoch": 0.8388379401013275,
      "grad_norm": 47.479312896728516,
      "learning_rate": 5e-06,
      "loss": 0.8458,
      "num_input_tokens_seen": 413055576,
      "step": 3270
    },
    {
      "epoch": 0.8388379401013275,
      "loss": 0.9539889097213745,
      "loss_ce": 0.0015962861943989992,
      "loss_iou": 0.423828125,
      "loss_num": 0.0213623046875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 413055576,
      "step": 3270
    },
    {
      "epoch": 0.8390944654652729,
      "grad_norm": 54.887062072753906,
      "learning_rate": 5e-06,
      "loss": 0.8547,
      "num_input_tokens_seen": 413181136,
      "step": 3271
    },
    {
      "epoch": 0.8390944654652729,
      "loss": 1.012515902519226,
      "loss_ce": 0.00030888558831065893,
      "loss_iou": 0.47265625,
      "loss_num": 0.01397705078125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 413181136,
      "step": 3271
    },
    {
      "epoch": 0.8393509908292183,
      "grad_norm": 38.04448699951172,
      "learning_rate": 5e-06,
      "loss": 0.9412,
      "num_input_tokens_seen": 413307348,
      "step": 3272
    },
    {
      "epoch": 0.8393509908292183,
      "loss": 0.7754035592079163,
      "loss_ce": 0.00196608598344028,
      "loss_iou": 0.361328125,
      "loss_num": 0.010498046875,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 413307348,
      "step": 3272
    },
    {
      "epoch": 0.8396075161931636,
      "grad_norm": 60.24583053588867,
      "learning_rate": 5e-06,
      "loss": 0.9614,
      "num_input_tokens_seen": 413434492,
      "step": 3273
    },
    {
      "epoch": 0.8396075161931636,
      "loss": 1.033352255821228,
      "loss_ce": 0.0030788236763328314,
      "loss_iou": 0.4609375,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 413434492,
      "step": 3273
    },
    {
      "epoch": 0.8398640415571089,
      "grad_norm": 34.550453186035156,
      "learning_rate": 5e-06,
      "loss": 0.9347,
      "num_input_tokens_seen": 413559940,
      "step": 3274
    },
    {
      "epoch": 0.8398640415571089,
      "loss": 0.9444822669029236,
      "loss_ce": 0.00014633704267907888,
      "loss_iou": 0.43359375,
      "loss_num": 0.0152587890625,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 413559940,
      "step": 3274
    },
    {
      "epoch": 0.8401205669210543,
      "grad_norm": 25.34375762939453,
      "learning_rate": 5e-06,
      "loss": 0.9393,
      "num_input_tokens_seen": 413684888,
      "step": 3275
    },
    {
      "epoch": 0.8401205669210543,
      "loss": 0.8565676212310791,
      "loss_ce": 0.00036639804602600634,
      "loss_iou": 0.400390625,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 413684888,
      "step": 3275
    },
    {
      "epoch": 0.8403770922849997,
      "grad_norm": 19.35994529724121,
      "learning_rate": 5e-06,
      "loss": 1.002,
      "num_input_tokens_seen": 413811272,
      "step": 3276
    },
    {
      "epoch": 0.8403770922849997,
      "loss": 0.9814521670341492,
      "loss_ce": 0.0004951510345563293,
      "loss_iou": 0.455078125,
      "loss_num": 0.0137939453125,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 413811272,
      "step": 3276
    },
    {
      "epoch": 0.8406336176489451,
      "grad_norm": 30.091197967529297,
      "learning_rate": 5e-06,
      "loss": 0.9354,
      "num_input_tokens_seen": 413937192,
      "step": 3277
    },
    {
      "epoch": 0.8406336176489451,
      "loss": 1.185107707977295,
      "loss_ce": 0.0010257081594318151,
      "loss_iou": 0.53125,
      "loss_num": 0.023681640625,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 413937192,
      "step": 3277
    },
    {
      "epoch": 0.8408901430128904,
      "grad_norm": 39.94975662231445,
      "learning_rate": 5e-06,
      "loss": 0.8531,
      "num_input_tokens_seen": 414063880,
      "step": 3278
    },
    {
      "epoch": 0.8408901430128904,
      "loss": 0.9416366219520569,
      "loss_ce": 0.000718640279956162,
      "loss_iou": 0.4375,
      "loss_num": 0.01324462890625,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 414063880,
      "step": 3278
    },
    {
      "epoch": 0.8411466683768357,
      "grad_norm": 29.290145874023438,
      "learning_rate": 5e-06,
      "loss": 0.9506,
      "num_input_tokens_seen": 414189888,
      "step": 3279
    },
    {
      "epoch": 0.8411466683768357,
      "loss": 0.9394330382347107,
      "loss_ce": 0.0024213106371462345,
      "loss_iou": 0.42578125,
      "loss_num": 0.0166015625,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 414189888,
      "step": 3279
    },
    {
      "epoch": 0.8414031937407811,
      "grad_norm": 31.89249610900879,
      "learning_rate": 5e-06,
      "loss": 0.9291,
      "num_input_tokens_seen": 414315788,
      "step": 3280
    },
    {
      "epoch": 0.8414031937407811,
      "loss": 0.7641960978507996,
      "loss_ce": 0.0015008015325292945,
      "loss_iou": 0.34375,
      "loss_num": 0.01470947265625,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 414315788,
      "step": 3280
    },
    {
      "epoch": 0.8416597191047265,
      "grad_norm": 46.444087982177734,
      "learning_rate": 5e-06,
      "loss": 0.9562,
      "num_input_tokens_seen": 414442504,
      "step": 3281
    },
    {
      "epoch": 0.8416597191047265,
      "loss": 0.9517788290977478,
      "loss_ce": 0.0030483717564493418,
      "loss_iou": 0.443359375,
      "loss_num": 0.012451171875,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 414442504,
      "step": 3281
    },
    {
      "epoch": 0.8419162444686719,
      "grad_norm": 54.40727996826172,
      "learning_rate": 5e-06,
      "loss": 0.9411,
      "num_input_tokens_seen": 414568268,
      "step": 3282
    },
    {
      "epoch": 0.8419162444686719,
      "loss": 1.0423855781555176,
      "loss_ce": 0.0013699313858523965,
      "loss_iou": 0.484375,
      "loss_num": 0.0147705078125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 414568268,
      "step": 3282
    },
    {
      "epoch": 0.8421727698326172,
      "grad_norm": 45.83207321166992,
      "learning_rate": 5e-06,
      "loss": 0.9898,
      "num_input_tokens_seen": 414693156,
      "step": 3283
    },
    {
      "epoch": 0.8421727698326172,
      "loss": 0.9596890211105347,
      "loss_ce": 0.001681216643191874,
      "loss_iou": 0.451171875,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 414693156,
      "step": 3283
    },
    {
      "epoch": 0.8424292951965625,
      "grad_norm": 50.873600006103516,
      "learning_rate": 5e-06,
      "loss": 1.0078,
      "num_input_tokens_seen": 414819492,
      "step": 3284
    },
    {
      "epoch": 0.8424292951965625,
      "loss": 0.8282773494720459,
      "loss_ce": 0.0011289074318483472,
      "loss_iou": 0.388671875,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 414819492,
      "step": 3284
    },
    {
      "epoch": 0.8426858205605079,
      "grad_norm": 51.38712692260742,
      "learning_rate": 5e-06,
      "loss": 1.0126,
      "num_input_tokens_seen": 414945116,
      "step": 3285
    },
    {
      "epoch": 0.8426858205605079,
      "loss": 1.0724636316299438,
      "loss_ce": 0.0045924922451376915,
      "loss_iou": 0.48046875,
      "loss_num": 0.0205078125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 414945116,
      "step": 3285
    },
    {
      "epoch": 0.8429423459244533,
      "grad_norm": 24.471580505371094,
      "learning_rate": 5e-06,
      "loss": 0.9559,
      "num_input_tokens_seen": 415071328,
      "step": 3286
    },
    {
      "epoch": 0.8429423459244533,
      "loss": 1.041412591934204,
      "loss_ce": 0.0003969701938331127,
      "loss_iou": 0.478515625,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 415071328,
      "step": 3286
    },
    {
      "epoch": 0.8431988712883987,
      "grad_norm": 33.78357696533203,
      "learning_rate": 5e-06,
      "loss": 0.867,
      "num_input_tokens_seen": 415197192,
      "step": 3287
    },
    {
      "epoch": 0.8431988712883987,
      "loss": 0.8455868363380432,
      "loss_ce": 0.0013485063100233674,
      "loss_iou": 0.392578125,
      "loss_num": 0.0120849609375,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 415197192,
      "step": 3287
    },
    {
      "epoch": 0.843455396652344,
      "grad_norm": 56.37723922729492,
      "learning_rate": 5e-06,
      "loss": 0.9964,
      "num_input_tokens_seen": 415323348,
      "step": 3288
    },
    {
      "epoch": 0.843455396652344,
      "loss": 0.9011285305023193,
      "loss_ce": 0.00024963394389487803,
      "loss_iou": 0.40234375,
      "loss_num": 0.018798828125,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 415323348,
      "step": 3288
    },
    {
      "epoch": 0.8437119220162893,
      "grad_norm": 54.682762145996094,
      "learning_rate": 5e-06,
      "loss": 0.9587,
      "num_input_tokens_seen": 415449544,
      "step": 3289
    },
    {
      "epoch": 0.8437119220162893,
      "loss": 1.0842171907424927,
      "loss_ce": 0.001209419802762568,
      "loss_iou": 0.49609375,
      "loss_num": 0.0177001953125,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 415449544,
      "step": 3289
    },
    {
      "epoch": 0.8439684473802347,
      "grad_norm": 24.957805633544922,
      "learning_rate": 5e-06,
      "loss": 0.9365,
      "num_input_tokens_seen": 415576068,
      "step": 3290
    },
    {
      "epoch": 0.8439684473802347,
      "loss": 0.805275559425354,
      "loss_ce": 0.0010763676837086678,
      "loss_iou": 0.369140625,
      "loss_num": 0.01287841796875,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 415576068,
      "step": 3290
    },
    {
      "epoch": 0.8442249727441801,
      "grad_norm": 25.76247215270996,
      "learning_rate": 5e-06,
      "loss": 0.9071,
      "num_input_tokens_seen": 415703608,
      "step": 3291
    },
    {
      "epoch": 0.8442249727441801,
      "loss": 1.3586525917053223,
      "loss_ce": 0.0007424566429108381,
      "loss_iou": 0.61328125,
      "loss_num": 0.026123046875,
      "loss_xval": 1.359375,
      "num_input_tokens_seen": 415703608,
      "step": 3291
    },
    {
      "epoch": 0.8444814981081255,
      "grad_norm": 31.472679138183594,
      "learning_rate": 5e-06,
      "loss": 0.8919,
      "num_input_tokens_seen": 415829348,
      "step": 3292
    },
    {
      "epoch": 0.8444814981081255,
      "loss": 0.892143964767456,
      "loss_ce": 0.002495552645996213,
      "loss_iou": 0.40625,
      "loss_num": 0.01495361328125,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 415829348,
      "step": 3292
    },
    {
      "epoch": 0.8447380234720708,
      "grad_norm": 41.38591766357422,
      "learning_rate": 5e-06,
      "loss": 0.8937,
      "num_input_tokens_seen": 415954912,
      "step": 3293
    },
    {
      "epoch": 0.8447380234720708,
      "loss": 0.679589569568634,
      "loss_ce": 0.00014623221068177372,
      "loss_iou": 0.322265625,
      "loss_num": 0.007171630859375,
      "loss_xval": 0.6796875,
      "num_input_tokens_seen": 415954912,
      "step": 3293
    },
    {
      "epoch": 0.8449945488360162,
      "grad_norm": 38.4943962097168,
      "learning_rate": 5e-06,
      "loss": 0.8725,
      "num_input_tokens_seen": 416081152,
      "step": 3294
    },
    {
      "epoch": 0.8449945488360162,
      "loss": 0.811089038848877,
      "loss_ce": 0.00029801303753629327,
      "loss_iou": 0.373046875,
      "loss_num": 0.0128173828125,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 416081152,
      "step": 3294
    },
    {
      "epoch": 0.8452510741999615,
      "grad_norm": 32.25592803955078,
      "learning_rate": 5e-06,
      "loss": 0.8849,
      "num_input_tokens_seen": 416206712,
      "step": 3295
    },
    {
      "epoch": 0.8452510741999615,
      "loss": 0.7446740865707397,
      "loss_ce": 0.0007775577250868082,
      "loss_iou": 0.3359375,
      "loss_num": 0.01458740234375,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 416206712,
      "step": 3295
    },
    {
      "epoch": 0.8455075995639069,
      "grad_norm": 32.295989990234375,
      "learning_rate": 5e-06,
      "loss": 1.0084,
      "num_input_tokens_seen": 416333068,
      "step": 3296
    },
    {
      "epoch": 0.8455075995639069,
      "loss": 1.0649378299713135,
      "loss_ce": 0.003414318896830082,
      "loss_iou": 0.48046875,
      "loss_num": 0.019775390625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 416333068,
      "step": 3296
    },
    {
      "epoch": 0.8457641249278522,
      "grad_norm": 52.71395492553711,
      "learning_rate": 5e-06,
      "loss": 1.0534,
      "num_input_tokens_seen": 416459752,
      "step": 3297
    },
    {
      "epoch": 0.8457641249278522,
      "loss": 1.0659351348876953,
      "loss_ce": 0.00026137533131986856,
      "loss_iou": 0.48046875,
      "loss_num": 0.0213623046875,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 416459752,
      "step": 3297
    },
    {
      "epoch": 0.8460206502917976,
      "grad_norm": 43.42734146118164,
      "learning_rate": 5e-06,
      "loss": 0.8787,
      "num_input_tokens_seen": 416586940,
      "step": 3298
    },
    {
      "epoch": 0.8460206502917976,
      "loss": 0.77693772315979,
      "loss_ce": 0.008383046835660934,
      "loss_iou": 0.361328125,
      "loss_num": 0.00958251953125,
      "loss_xval": 0.76953125,
      "num_input_tokens_seen": 416586940,
      "step": 3298
    },
    {
      "epoch": 0.846277175655743,
      "grad_norm": 30.562435150146484,
      "learning_rate": 5e-06,
      "loss": 0.9414,
      "num_input_tokens_seen": 416713780,
      "step": 3299
    },
    {
      "epoch": 0.846277175655743,
      "loss": 0.8217019438743591,
      "loss_ce": 0.0011453131446614861,
      "loss_iou": 0.3828125,
      "loss_num": 0.010986328125,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 416713780,
      "step": 3299
    },
    {
      "epoch": 0.8465337010196883,
      "grad_norm": 34.46150207519531,
      "learning_rate": 5e-06,
      "loss": 0.8957,
      "num_input_tokens_seen": 416840240,
      "step": 3300
    },
    {
      "epoch": 0.8465337010196883,
      "loss": 0.8753318190574646,
      "loss_ce": 0.0013083890080451965,
      "loss_iou": 0.408203125,
      "loss_num": 0.0113525390625,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 416840240,
      "step": 3300
    },
    {
      "epoch": 0.8467902263836337,
      "grad_norm": 39.962318420410156,
      "learning_rate": 5e-06,
      "loss": 0.9044,
      "num_input_tokens_seen": 416966024,
      "step": 3301
    },
    {
      "epoch": 0.8467902263836337,
      "loss": 0.9036628007888794,
      "loss_ce": 0.0003424343012738973,
      "loss_iou": 0.419921875,
      "loss_num": 0.0126953125,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 416966024,
      "step": 3301
    },
    {
      "epoch": 0.847046751747579,
      "grad_norm": 40.47099304199219,
      "learning_rate": 5e-06,
      "loss": 0.8808,
      "num_input_tokens_seen": 417092440,
      "step": 3302
    },
    {
      "epoch": 0.847046751747579,
      "loss": 0.835878849029541,
      "loss_ce": 0.0011620419099926949,
      "loss_iou": 0.380859375,
      "loss_num": 0.0147705078125,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 417092440,
      "step": 3302
    },
    {
      "epoch": 0.8473032771115244,
      "grad_norm": 42.88495635986328,
      "learning_rate": 5e-06,
      "loss": 0.9904,
      "num_input_tokens_seen": 417217652,
      "step": 3303
    },
    {
      "epoch": 0.8473032771115244,
      "loss": 1.0145187377929688,
      "loss_ce": 0.00035862805088981986,
      "loss_iou": 0.4609375,
      "loss_num": 0.018310546875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 417217652,
      "step": 3303
    },
    {
      "epoch": 0.8475598024754698,
      "grad_norm": 42.10586166381836,
      "learning_rate": 5e-06,
      "loss": 0.9256,
      "num_input_tokens_seen": 417343552,
      "step": 3304
    },
    {
      "epoch": 0.8475598024754698,
      "loss": 1.1715761423110962,
      "loss_ce": 0.0021425692830234766,
      "loss_iou": 0.53125,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 417343552,
      "step": 3304
    },
    {
      "epoch": 0.8478163278394151,
      "grad_norm": 59.61101150512695,
      "learning_rate": 5e-06,
      "loss": 1.0267,
      "num_input_tokens_seen": 417470136,
      "step": 3305
    },
    {
      "epoch": 0.8478163278394151,
      "loss": 0.8943018317222595,
      "loss_ce": 0.0007471424178220332,
      "loss_iou": 0.40234375,
      "loss_num": 0.0174560546875,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 417470136,
      "step": 3305
    },
    {
      "epoch": 0.8480728532033605,
      "grad_norm": 46.93505859375,
      "learning_rate": 5e-06,
      "loss": 0.9287,
      "num_input_tokens_seen": 417596044,
      "step": 3306
    },
    {
      "epoch": 0.8480728532033605,
      "loss": 1.0100346803665161,
      "loss_ce": 0.0002690745168365538,
      "loss_iou": 0.4609375,
      "loss_num": 0.0177001953125,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 417596044,
      "step": 3306
    },
    {
      "epoch": 0.8483293785673058,
      "grad_norm": 42.36141586303711,
      "learning_rate": 5e-06,
      "loss": 0.8381,
      "num_input_tokens_seen": 417722768,
      "step": 3307
    },
    {
      "epoch": 0.8483293785673058,
      "loss": 0.7937300205230713,
      "loss_ce": 0.0002730304258875549,
      "loss_iou": 0.359375,
      "loss_num": 0.01495361328125,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 417722768,
      "step": 3307
    },
    {
      "epoch": 0.8485859039312512,
      "grad_norm": 40.73113250732422,
      "learning_rate": 5e-06,
      "loss": 0.9088,
      "num_input_tokens_seen": 417848880,
      "step": 3308
    },
    {
      "epoch": 0.8485859039312512,
      "loss": 0.8894962072372437,
      "loss_ce": 0.003265778999775648,
      "loss_iou": 0.40625,
      "loss_num": 0.01470947265625,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 417848880,
      "step": 3308
    },
    {
      "epoch": 0.8488424292951966,
      "grad_norm": 45.95648956298828,
      "learning_rate": 5e-06,
      "loss": 1.0072,
      "num_input_tokens_seen": 417974892,
      "step": 3309
    },
    {
      "epoch": 0.8488424292951966,
      "loss": 1.0475322008132935,
      "loss_ce": 0.0006571850390173495,
      "loss_iou": 0.47265625,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 417974892,
      "step": 3309
    },
    {
      "epoch": 0.8490989546591419,
      "grad_norm": 46.05951690673828,
      "learning_rate": 5e-06,
      "loss": 0.944,
      "num_input_tokens_seen": 418101116,
      "step": 3310
    },
    {
      "epoch": 0.8490989546591419,
      "loss": 0.8296672105789185,
      "loss_ce": 0.002030501840636134,
      "loss_iou": 0.3828125,
      "loss_num": 0.01202392578125,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 418101116,
      "step": 3310
    },
    {
      "epoch": 0.8493554800230873,
      "grad_norm": 46.78510665893555,
      "learning_rate": 5e-06,
      "loss": 0.8446,
      "num_input_tokens_seen": 418228500,
      "step": 3311
    },
    {
      "epoch": 0.8493554800230873,
      "loss": 0.839684784412384,
      "loss_ce": 0.0003292882756795734,
      "loss_iou": 0.38671875,
      "loss_num": 0.01275634765625,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 418228500,
      "step": 3311
    },
    {
      "epoch": 0.8496120053870326,
      "grad_norm": 43.384525299072266,
      "learning_rate": 5e-06,
      "loss": 0.9264,
      "num_input_tokens_seen": 418355236,
      "step": 3312
    },
    {
      "epoch": 0.8496120053870326,
      "loss": 0.9101749062538147,
      "loss_ce": 0.0005069556646049023,
      "loss_iou": 0.41015625,
      "loss_num": 0.0177001953125,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 418355236,
      "step": 3312
    },
    {
      "epoch": 0.849868530750978,
      "grad_norm": 46.69747543334961,
      "learning_rate": 5e-06,
      "loss": 0.9957,
      "num_input_tokens_seen": 418481108,
      "step": 3313
    },
    {
      "epoch": 0.849868530750978,
      "loss": 0.9128376245498657,
      "loss_ce": 0.004146212246268988,
      "loss_iou": 0.42578125,
      "loss_num": 0.01141357421875,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 418481108,
      "step": 3313
    },
    {
      "epoch": 0.8501250561149234,
      "grad_norm": 36.590126037597656,
      "learning_rate": 5e-06,
      "loss": 1.1007,
      "num_input_tokens_seen": 418605364,
      "step": 3314
    },
    {
      "epoch": 0.8501250561149234,
      "loss": 1.1354076862335205,
      "loss_ce": 0.0006420772988349199,
      "loss_iou": 0.5,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 418605364,
      "step": 3314
    },
    {
      "epoch": 0.8503815814788688,
      "grad_norm": 14.583720207214355,
      "learning_rate": 5e-06,
      "loss": 0.9979,
      "num_input_tokens_seen": 418730808,
      "step": 3315
    },
    {
      "epoch": 0.8503815814788688,
      "loss": 0.9814618825912476,
      "loss_ce": 0.0019696494564414024,
      "loss_iou": 0.453125,
      "loss_num": 0.01483154296875,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 418730808,
      "step": 3315
    },
    {
      "epoch": 0.850638106842814,
      "grad_norm": 39.342960357666016,
      "learning_rate": 5e-06,
      "loss": 0.9204,
      "num_input_tokens_seen": 418857948,
      "step": 3316
    },
    {
      "epoch": 0.850638106842814,
      "loss": 0.9751467704772949,
      "loss_ce": 0.0010256250388920307,
      "loss_iou": 0.44140625,
      "loss_num": 0.017822265625,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 418857948,
      "step": 3316
    },
    {
      "epoch": 0.8508946322067594,
      "grad_norm": 56.561038970947266,
      "learning_rate": 5e-06,
      "loss": 0.9211,
      "num_input_tokens_seen": 418984456,
      "step": 3317
    },
    {
      "epoch": 0.8508946322067594,
      "loss": 1.0902132987976074,
      "loss_ce": 0.0013460994232445955,
      "loss_iou": 0.4921875,
      "loss_num": 0.0206298828125,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 418984456,
      "step": 3317
    },
    {
      "epoch": 0.8511511575707048,
      "grad_norm": 63.44384765625,
      "learning_rate": 5e-06,
      "loss": 0.9397,
      "num_input_tokens_seen": 419110968,
      "step": 3318
    },
    {
      "epoch": 0.8511511575707048,
      "loss": 0.9654141068458557,
      "loss_ce": 0.0010586383286863565,
      "loss_iou": 0.419921875,
      "loss_num": 0.0250244140625,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 419110968,
      "step": 3318
    },
    {
      "epoch": 0.8514076829346502,
      "grad_norm": 51.43317794799805,
      "learning_rate": 5e-06,
      "loss": 0.9992,
      "num_input_tokens_seen": 419237064,
      "step": 3319
    },
    {
      "epoch": 0.8514076829346502,
      "loss": 0.9523866176605225,
      "loss_ce": 0.00023817787587177008,
      "loss_iou": 0.4375,
      "loss_num": 0.015869140625,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 419237064,
      "step": 3319
    },
    {
      "epoch": 0.8516642082985956,
      "grad_norm": 46.81265640258789,
      "learning_rate": 5e-06,
      "loss": 0.9525,
      "num_input_tokens_seen": 419363664,
      "step": 3320
    },
    {
      "epoch": 0.8516642082985956,
      "loss": 0.9412074089050293,
      "loss_ce": 0.0007776570273563266,
      "loss_iou": 0.4296875,
      "loss_num": 0.0166015625,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 419363664,
      "step": 3320
    },
    {
      "epoch": 0.8519207336625408,
      "grad_norm": 55.83944320678711,
      "learning_rate": 5e-06,
      "loss": 1.0074,
      "num_input_tokens_seen": 419489444,
      "step": 3321
    },
    {
      "epoch": 0.8519207336625408,
      "loss": 1.0929300785064697,
      "loss_ce": 0.0030863601714372635,
      "loss_iou": 0.49609375,
      "loss_num": 0.0196533203125,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 419489444,
      "step": 3321
    },
    {
      "epoch": 0.8521772590264862,
      "grad_norm": 49.659915924072266,
      "learning_rate": 5e-06,
      "loss": 1.0026,
      "num_input_tokens_seen": 419615152,
      "step": 3322
    },
    {
      "epoch": 0.8521772590264862,
      "loss": 0.9486437439918518,
      "loss_ce": 0.0004015436570625752,
      "loss_iou": 0.41796875,
      "loss_num": 0.022705078125,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 419615152,
      "step": 3322
    },
    {
      "epoch": 0.8524337843904316,
      "grad_norm": 40.574012756347656,
      "learning_rate": 5e-06,
      "loss": 0.8748,
      "num_input_tokens_seen": 419741252,
      "step": 3323
    },
    {
      "epoch": 0.8524337843904316,
      "loss": 0.7848821878433228,
      "loss_ce": 0.00021424230362754315,
      "loss_iou": 0.373046875,
      "loss_num": 0.0076904296875,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 419741252,
      "step": 3323
    },
    {
      "epoch": 0.852690309754377,
      "grad_norm": 39.735599517822266,
      "learning_rate": 5e-06,
      "loss": 0.9231,
      "num_input_tokens_seen": 419867728,
      "step": 3324
    },
    {
      "epoch": 0.852690309754377,
      "loss": 1.0229344367980957,
      "loss_ce": 0.0004733927780762315,
      "loss_iou": 0.46875,
      "loss_num": 0.0167236328125,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 419867728,
      "step": 3324
    },
    {
      "epoch": 0.8529468351183224,
      "grad_norm": 50.71043395996094,
      "learning_rate": 5e-06,
      "loss": 0.8996,
      "num_input_tokens_seen": 419994460,
      "step": 3325
    },
    {
      "epoch": 0.8529468351183224,
      "loss": 0.8749765157699585,
      "loss_ce": 0.003394470317289233,
      "loss_iou": 0.3984375,
      "loss_num": 0.01470947265625,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 419994460,
      "step": 3325
    },
    {
      "epoch": 0.8532033604822676,
      "grad_norm": 68.93893432617188,
      "learning_rate": 5e-06,
      "loss": 1.0277,
      "num_input_tokens_seen": 420120232,
      "step": 3326
    },
    {
      "epoch": 0.8532033604822676,
      "loss": 1.0536737442016602,
      "loss_ce": 0.0009393331129103899,
      "loss_iou": 0.48828125,
      "loss_num": 0.014892578125,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 420120232,
      "step": 3326
    },
    {
      "epoch": 0.853459885846213,
      "grad_norm": 50.659461975097656,
      "learning_rate": 5e-06,
      "loss": 0.9334,
      "num_input_tokens_seen": 420247044,
      "step": 3327
    },
    {
      "epoch": 0.853459885846213,
      "loss": 0.9205120801925659,
      "loss_ce": 0.006205474026501179,
      "loss_iou": 0.423828125,
      "loss_num": 0.01287841796875,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 420247044,
      "step": 3327
    },
    {
      "epoch": 0.8537164112101584,
      "grad_norm": 37.88582229614258,
      "learning_rate": 5e-06,
      "loss": 0.9291,
      "num_input_tokens_seen": 420373836,
      "step": 3328
    },
    {
      "epoch": 0.8537164112101584,
      "loss": 0.7829341888427734,
      "loss_ce": 0.00021940979058854282,
      "loss_iou": 0.373046875,
      "loss_num": 0.007537841796875,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 420373836,
      "step": 3328
    },
    {
      "epoch": 0.8539729365741038,
      "grad_norm": 44.22090148925781,
      "learning_rate": 5e-06,
      "loss": 0.9369,
      "num_input_tokens_seen": 420499232,
      "step": 3329
    },
    {
      "epoch": 0.8539729365741038,
      "loss": 0.9793094396591187,
      "loss_ce": 0.0003055102133657783,
      "loss_iou": 0.43359375,
      "loss_num": 0.0223388671875,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 420499232,
      "step": 3329
    },
    {
      "epoch": 0.8542294619380492,
      "grad_norm": 35.67002868652344,
      "learning_rate": 5e-06,
      "loss": 0.897,
      "num_input_tokens_seen": 420625116,
      "step": 3330
    },
    {
      "epoch": 0.8542294619380492,
      "loss": 0.9607816934585571,
      "loss_ce": 0.0015531876124441624,
      "loss_iou": 0.44140625,
      "loss_num": 0.0147705078125,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 420625116,
      "step": 3330
    },
    {
      "epoch": 0.8544859873019944,
      "grad_norm": 43.643001556396484,
      "learning_rate": 5e-06,
      "loss": 0.9537,
      "num_input_tokens_seen": 420752352,
      "step": 3331
    },
    {
      "epoch": 0.8544859873019944,
      "loss": 0.822020947933197,
      "loss_ce": 0.0026850299909710884,
      "loss_iou": 0.38671875,
      "loss_num": 0.0091552734375,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 420752352,
      "step": 3331
    },
    {
      "epoch": 0.8547425126659398,
      "grad_norm": 56.62778854370117,
      "learning_rate": 5e-06,
      "loss": 0.9474,
      "num_input_tokens_seen": 420878252,
      "step": 3332
    },
    {
      "epoch": 0.8547425126659398,
      "loss": 1.0628888607025146,
      "loss_ce": 0.00038889748975634575,
      "loss_iou": 0.49609375,
      "loss_num": 0.01422119140625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 420878252,
      "step": 3332
    },
    {
      "epoch": 0.8549990380298852,
      "grad_norm": 51.94295883178711,
      "learning_rate": 5e-06,
      "loss": 0.9271,
      "num_input_tokens_seen": 421004372,
      "step": 3333
    },
    {
      "epoch": 0.8549990380298852,
      "loss": 0.8880189657211304,
      "loss_ce": 0.0008119416306726635,
      "loss_iou": 0.4140625,
      "loss_num": 0.011962890625,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 421004372,
      "step": 3333
    },
    {
      "epoch": 0.8552555633938306,
      "grad_norm": 43.35361862182617,
      "learning_rate": 5e-06,
      "loss": 0.9945,
      "num_input_tokens_seen": 421129768,
      "step": 3334
    },
    {
      "epoch": 0.8552555633938306,
      "loss": 0.9212596416473389,
      "loss_ce": 0.0008495484944432974,
      "loss_iou": 0.421875,
      "loss_num": 0.01531982421875,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 421129768,
      "step": 3334
    },
    {
      "epoch": 0.855512088757776,
      "grad_norm": 40.47994613647461,
      "learning_rate": 5e-06,
      "loss": 0.9076,
      "num_input_tokens_seen": 421256156,
      "step": 3335
    },
    {
      "epoch": 0.855512088757776,
      "loss": 0.9002221822738647,
      "loss_ce": 0.0008081350242719054,
      "loss_iou": 0.423828125,
      "loss_num": 0.01025390625,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 421256156,
      "step": 3335
    },
    {
      "epoch": 0.8557686141217213,
      "grad_norm": 39.135318756103516,
      "learning_rate": 5e-06,
      "loss": 1.0198,
      "num_input_tokens_seen": 421382736,
      "step": 3336
    },
    {
      "epoch": 0.8557686141217213,
      "loss": 1.1542543172836304,
      "loss_ce": 0.00581681914627552,
      "loss_iou": 0.53125,
      "loss_num": 0.017822265625,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 421382736,
      "step": 3336
    },
    {
      "epoch": 0.8560251394856666,
      "grad_norm": 61.504112243652344,
      "learning_rate": 5e-06,
      "loss": 0.9085,
      "num_input_tokens_seen": 421508076,
      "step": 3337
    },
    {
      "epoch": 0.8560251394856666,
      "loss": 1.033182144165039,
      "loss_ce": 0.0004673894727602601,
      "loss_iou": 0.48828125,
      "loss_num": 0.0111083984375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 421508076,
      "step": 3337
    },
    {
      "epoch": 0.856281664849612,
      "grad_norm": 31.722789764404297,
      "learning_rate": 5e-06,
      "loss": 0.9298,
      "num_input_tokens_seen": 421632960,
      "step": 3338
    },
    {
      "epoch": 0.856281664849612,
      "loss": 0.9868402481079102,
      "loss_ce": 0.001488760462962091,
      "loss_iou": 0.44140625,
      "loss_num": 0.0205078125,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 421632960,
      "step": 3338
    },
    {
      "epoch": 0.8565381902135574,
      "grad_norm": 37.03248977661133,
      "learning_rate": 5e-06,
      "loss": 0.928,
      "num_input_tokens_seen": 421759240,
      "step": 3339
    },
    {
      "epoch": 0.8565381902135574,
      "loss": 0.9903021454811096,
      "loss_ce": 0.005438865628093481,
      "loss_iou": 0.455078125,
      "loss_num": 0.01507568359375,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 421759240,
      "step": 3339
    },
    {
      "epoch": 0.8567947155775028,
      "grad_norm": 55.56910705566406,
      "learning_rate": 5e-06,
      "loss": 0.9195,
      "num_input_tokens_seen": 421886056,
      "step": 3340
    },
    {
      "epoch": 0.8567947155775028,
      "loss": 1.0564732551574707,
      "loss_ce": 0.0012974500423297286,
      "loss_iou": 0.494140625,
      "loss_num": 0.01312255859375,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 421886056,
      "step": 3340
    },
    {
      "epoch": 0.8570512409414481,
      "grad_norm": 44.19303512573242,
      "learning_rate": 5e-06,
      "loss": 1.0791,
      "num_input_tokens_seen": 422011544,
      "step": 3341
    },
    {
      "epoch": 0.8570512409414481,
      "loss": 0.9943357706069946,
      "loss_ce": 0.00019516682368703187,
      "loss_iou": 0.45703125,
      "loss_num": 0.015869140625,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 422011544,
      "step": 3341
    },
    {
      "epoch": 0.8573077663053934,
      "grad_norm": 30.351472854614258,
      "learning_rate": 5e-06,
      "loss": 0.9021,
      "num_input_tokens_seen": 422138792,
      "step": 3342
    },
    {
      "epoch": 0.8573077663053934,
      "loss": 1.0064613819122314,
      "loss_ce": 0.002799329813569784,
      "loss_iou": 0.470703125,
      "loss_num": 0.01214599609375,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 422138792,
      "step": 3342
    },
    {
      "epoch": 0.8575642916693388,
      "grad_norm": 36.865413665771484,
      "learning_rate": 5e-06,
      "loss": 1.0077,
      "num_input_tokens_seen": 422263876,
      "step": 3343
    },
    {
      "epoch": 0.8575642916693388,
      "loss": 1.0200577974319458,
      "loss_ce": 0.0029679194558411837,
      "loss_iou": 0.466796875,
      "loss_num": 0.0166015625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 422263876,
      "step": 3343
    },
    {
      "epoch": 0.8578208170332842,
      "grad_norm": 45.51285934448242,
      "learning_rate": 5e-06,
      "loss": 0.9348,
      "num_input_tokens_seen": 422391180,
      "step": 3344
    },
    {
      "epoch": 0.8578208170332842,
      "loss": 0.910622239112854,
      "loss_ce": 0.0019308581249788404,
      "loss_iou": 0.4296875,
      "loss_num": 0.009521484375,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 422391180,
      "step": 3344
    },
    {
      "epoch": 0.8580773423972295,
      "grad_norm": 50.99921798706055,
      "learning_rate": 5e-06,
      "loss": 1.0036,
      "num_input_tokens_seen": 422517516,
      "step": 3345
    },
    {
      "epoch": 0.8580773423972295,
      "loss": 1.1606777906417847,
      "loss_ce": 0.0024746404960751534,
      "loss_iou": 0.515625,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 422517516,
      "step": 3345
    },
    {
      "epoch": 0.8583338677611749,
      "grad_norm": 60.35527038574219,
      "learning_rate": 5e-06,
      "loss": 0.9523,
      "num_input_tokens_seen": 422644492,
      "step": 3346
    },
    {
      "epoch": 0.8583338677611749,
      "loss": 0.9860947132110596,
      "loss_ce": 0.0007431993144564331,
      "loss_iou": 0.451171875,
      "loss_num": 0.0162353515625,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 422644492,
      "step": 3346
    },
    {
      "epoch": 0.8585903931251202,
      "grad_norm": 38.97570037841797,
      "learning_rate": 5e-06,
      "loss": 0.9825,
      "num_input_tokens_seen": 422770144,
      "step": 3347
    },
    {
      "epoch": 0.8585903931251202,
      "loss": 0.9971222877502441,
      "loss_ce": 0.0049348329193890095,
      "loss_iou": 0.447265625,
      "loss_num": 0.0196533203125,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 422770144,
      "step": 3347
    },
    {
      "epoch": 0.8588469184890656,
      "grad_norm": 20.011890411376953,
      "learning_rate": 5e-06,
      "loss": 0.8473,
      "num_input_tokens_seen": 422895820,
      "step": 3348
    },
    {
      "epoch": 0.8588469184890656,
      "loss": 0.7862467765808105,
      "loss_ce": 0.0006022133165970445,
      "loss_iou": 0.373046875,
      "loss_num": 0.00799560546875,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 422895820,
      "step": 3348
    },
    {
      "epoch": 0.859103443853011,
      "grad_norm": 28.97025489807129,
      "learning_rate": 5e-06,
      "loss": 0.8848,
      "num_input_tokens_seen": 423022080,
      "step": 3349
    },
    {
      "epoch": 0.859103443853011,
      "loss": 0.729302167892456,
      "loss_ce": 0.0012747516157105565,
      "loss_iou": 0.33203125,
      "loss_num": 0.01318359375,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 423022080,
      "step": 3349
    },
    {
      "epoch": 0.8593599692169563,
      "grad_norm": 41.44636154174805,
      "learning_rate": 5e-06,
      "loss": 0.8497,
      "num_input_tokens_seen": 423148008,
      "step": 3350
    },
    {
      "epoch": 0.8593599692169563,
      "loss": 0.8323186635971069,
      "loss_ce": 0.0007757161511108279,
      "loss_iou": 0.380859375,
      "loss_num": 0.0140380859375,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 423148008,
      "step": 3350
    },
    {
      "epoch": 0.8596164945809017,
      "grad_norm": 47.78594970703125,
      "learning_rate": 5e-06,
      "loss": 0.9166,
      "num_input_tokens_seen": 423273512,
      "step": 3351
    },
    {
      "epoch": 0.8596164945809017,
      "loss": 0.9198451042175293,
      "loss_ce": 0.001388048636727035,
      "loss_iou": 0.43359375,
      "loss_num": 0.010009765625,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 423273512,
      "step": 3351
    },
    {
      "epoch": 0.859873019944847,
      "grad_norm": 52.565208435058594,
      "learning_rate": 5e-06,
      "loss": 0.8765,
      "num_input_tokens_seen": 423399820,
      "step": 3352
    },
    {
      "epoch": 0.859873019944847,
      "loss": 0.9637659788131714,
      "loss_ce": 0.0008753291331231594,
      "loss_iou": 0.44921875,
      "loss_num": 0.01287841796875,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 423399820,
      "step": 3352
    },
    {
      "epoch": 0.8601295453087924,
      "grad_norm": 39.76402282714844,
      "learning_rate": 5e-06,
      "loss": 0.9205,
      "num_input_tokens_seen": 423525880,
      "step": 3353
    },
    {
      "epoch": 0.8601295453087924,
      "loss": 0.9379321336746216,
      "loss_ce": 0.00311764283105731,
      "loss_iou": 0.43359375,
      "loss_num": 0.01361083984375,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 423525880,
      "step": 3353
    },
    {
      "epoch": 0.8603860706727378,
      "grad_norm": 23.899873733520508,
      "learning_rate": 5e-06,
      "loss": 0.9853,
      "num_input_tokens_seen": 423652232,
      "step": 3354
    },
    {
      "epoch": 0.8603860706727378,
      "loss": 0.77067631483078,
      "loss_ce": 0.0021216338500380516,
      "loss_iou": 0.369140625,
      "loss_num": 0.005859375,
      "loss_xval": 0.76953125,
      "num_input_tokens_seen": 423652232,
      "step": 3354
    },
    {
      "epoch": 0.8606425960366831,
      "grad_norm": 30.767906188964844,
      "learning_rate": 5e-06,
      "loss": 0.8674,
      "num_input_tokens_seen": 423778436,
      "step": 3355
    },
    {
      "epoch": 0.8606425960366831,
      "loss": 0.7608532905578613,
      "loss_ce": 0.0008435493800789118,
      "loss_iou": 0.359375,
      "loss_num": 0.00836181640625,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 423778436,
      "step": 3355
    },
    {
      "epoch": 0.8608991214006285,
      "grad_norm": 37.987457275390625,
      "learning_rate": 5e-06,
      "loss": 0.9334,
      "num_input_tokens_seen": 423905384,
      "step": 3356
    },
    {
      "epoch": 0.8608991214006285,
      "loss": 0.8292726278305054,
      "loss_ce": 0.0006593377329409122,
      "loss_iou": 0.388671875,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 423905384,
      "step": 3356
    },
    {
      "epoch": 0.8611556467645739,
      "grad_norm": 39.740055084228516,
      "learning_rate": 5e-06,
      "loss": 0.8333,
      "num_input_tokens_seen": 424030460,
      "step": 3357
    },
    {
      "epoch": 0.8611556467645739,
      "loss": 0.8573504686355591,
      "loss_ce": 0.0004168879531789571,
      "loss_iou": 0.412109375,
      "loss_num": 0.00628662109375,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 424030460,
      "step": 3357
    },
    {
      "epoch": 0.8614121721285192,
      "grad_norm": 41.32125473022461,
      "learning_rate": 5e-06,
      "loss": 0.8355,
      "num_input_tokens_seen": 424155252,
      "step": 3358
    },
    {
      "epoch": 0.8614121721285192,
      "loss": 0.8626106977462769,
      "loss_ce": 0.0005501298583112657,
      "loss_iou": 0.412109375,
      "loss_num": 0.007354736328125,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 424155252,
      "step": 3358
    },
    {
      "epoch": 0.8616686974924646,
      "grad_norm": 43.381717681884766,
      "learning_rate": 5e-06,
      "loss": 0.933,
      "num_input_tokens_seen": 424281124,
      "step": 3359
    },
    {
      "epoch": 0.8616686974924646,
      "loss": 0.7797003984451294,
      "loss_ce": 0.0004035631427541375,
      "loss_iou": 0.375,
      "loss_num": 0.006317138671875,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 424281124,
      "step": 3359
    },
    {
      "epoch": 0.8619252228564099,
      "grad_norm": 50.07094192504883,
      "learning_rate": 5e-06,
      "loss": 0.9937,
      "num_input_tokens_seen": 424406748,
      "step": 3360
    },
    {
      "epoch": 0.8619252228564099,
      "loss": 1.1648428440093994,
      "loss_ce": 0.0022452790290117264,
      "loss_iou": 0.515625,
      "loss_num": 0.0267333984375,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 424406748,
      "step": 3360
    },
    {
      "epoch": 0.8621817482203553,
      "grad_norm": 46.07054901123047,
      "learning_rate": 5e-06,
      "loss": 0.9666,
      "num_input_tokens_seen": 424533692,
      "step": 3361
    },
    {
      "epoch": 0.8621817482203553,
      "loss": 1.134671688079834,
      "loss_ce": 0.00478879502043128,
      "loss_iou": 0.515625,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 424533692,
      "step": 3361
    },
    {
      "epoch": 0.8624382735843007,
      "grad_norm": 40.93661880493164,
      "learning_rate": 5e-06,
      "loss": 0.8428,
      "num_input_tokens_seen": 424660732,
      "step": 3362
    },
    {
      "epoch": 0.8624382735843007,
      "loss": 0.7039631605148315,
      "loss_ce": 0.0008381842635571957,
      "loss_iou": 0.33203125,
      "loss_num": 0.00811767578125,
      "loss_xval": 0.703125,
      "num_input_tokens_seen": 424660732,
      "step": 3362
    },
    {
      "epoch": 0.862694798948246,
      "grad_norm": 43.45201110839844,
      "learning_rate": 5e-06,
      "loss": 0.9564,
      "num_input_tokens_seen": 424787256,
      "step": 3363
    },
    {
      "epoch": 0.862694798948246,
      "loss": 1.0155932903289795,
      "loss_ce": 0.0014332043938338757,
      "loss_iou": 0.4375,
      "loss_num": 0.02783203125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 424787256,
      "step": 3363
    },
    {
      "epoch": 0.8629513243121913,
      "grad_norm": 46.61076736450195,
      "learning_rate": 5e-06,
      "loss": 0.9862,
      "num_input_tokens_seen": 424912688,
      "step": 3364
    },
    {
      "epoch": 0.8629513243121913,
      "loss": 0.8970376253128052,
      "loss_ce": 0.000309094728436321,
      "loss_iou": 0.41796875,
      "loss_num": 0.01239013671875,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 424912688,
      "step": 3364
    },
    {
      "epoch": 0.8632078496761367,
      "grad_norm": 39.44859313964844,
      "learning_rate": 5e-06,
      "loss": 0.9531,
      "num_input_tokens_seen": 425039368,
      "step": 3365
    },
    {
      "epoch": 0.8632078496761367,
      "loss": 0.9733309745788574,
      "loss_ce": 0.0009188262629322708,
      "loss_iou": 0.447265625,
      "loss_num": 0.015869140625,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 425039368,
      "step": 3365
    },
    {
      "epoch": 0.8634643750400821,
      "grad_norm": 48.57670593261719,
      "learning_rate": 5e-06,
      "loss": 0.8386,
      "num_input_tokens_seen": 425165132,
      "step": 3366
    },
    {
      "epoch": 0.8634643750400821,
      "loss": 0.9195308685302734,
      "loss_ce": 0.001073860446922481,
      "loss_iou": 0.439453125,
      "loss_num": 0.0076904296875,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 425165132,
      "step": 3366
    },
    {
      "epoch": 0.8637209004040275,
      "grad_norm": 48.26242446899414,
      "learning_rate": 5e-06,
      "loss": 1.008,
      "num_input_tokens_seen": 425292056,
      "step": 3367
    },
    {
      "epoch": 0.8637209004040275,
      "loss": 0.8665575385093689,
      "loss_ce": 0.002788014942780137,
      "loss_iou": 0.408203125,
      "loss_num": 0.009521484375,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 425292056,
      "step": 3367
    },
    {
      "epoch": 0.8639774257679728,
      "grad_norm": 54.0738525390625,
      "learning_rate": 5e-06,
      "loss": 0.8853,
      "num_input_tokens_seen": 425418972,
      "step": 3368
    },
    {
      "epoch": 0.8639774257679728,
      "loss": 0.9666658639907837,
      "loss_ce": 0.007193173747509718,
      "loss_iou": 0.427734375,
      "loss_num": 0.0203857421875,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 425418972,
      "step": 3368
    },
    {
      "epoch": 0.8642339511319181,
      "grad_norm": 48.69795608520508,
      "learning_rate": 5e-06,
      "loss": 0.9934,
      "num_input_tokens_seen": 425543972,
      "step": 3369
    },
    {
      "epoch": 0.8642339511319181,
      "loss": 0.8921758532524109,
      "loss_ce": 0.0015508763026446104,
      "loss_iou": 0.40625,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 425543972,
      "step": 3369
    },
    {
      "epoch": 0.8644904764958635,
      "grad_norm": 34.35894775390625,
      "learning_rate": 5e-06,
      "loss": 0.929,
      "num_input_tokens_seen": 425670372,
      "step": 3370
    },
    {
      "epoch": 0.8644904764958635,
      "loss": 0.7190690040588379,
      "loss_ce": 0.00324870552867651,
      "loss_iou": 0.337890625,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.71484375,
      "num_input_tokens_seen": 425670372,
      "step": 3370
    },
    {
      "epoch": 0.8647470018598089,
      "grad_norm": 44.47837829589844,
      "learning_rate": 5e-06,
      "loss": 0.9657,
      "num_input_tokens_seen": 425797076,
      "step": 3371
    },
    {
      "epoch": 0.8647470018598089,
      "loss": 0.768699049949646,
      "loss_ce": 0.003074073465541005,
      "loss_iou": 0.369140625,
      "loss_num": 0.00592041015625,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 425797076,
      "step": 3371
    },
    {
      "epoch": 0.8650035272237543,
      "grad_norm": 46.23942565917969,
      "learning_rate": 5e-06,
      "loss": 0.9657,
      "num_input_tokens_seen": 425923092,
      "step": 3372
    },
    {
      "epoch": 0.8650035272237543,
      "loss": 1.0020387172698975,
      "loss_ce": 0.006921577267348766,
      "loss_iou": 0.447265625,
      "loss_num": 0.0196533203125,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 425923092,
      "step": 3372
    },
    {
      "epoch": 0.8652600525876996,
      "grad_norm": 44.11301803588867,
      "learning_rate": 5e-06,
      "loss": 0.9712,
      "num_input_tokens_seen": 426048956,
      "step": 3373
    },
    {
      "epoch": 0.8652600525876996,
      "loss": 1.0924731492996216,
      "loss_ce": 0.0006762508419342339,
      "loss_iou": 0.515625,
      "loss_num": 0.01226806640625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 426048956,
      "step": 3373
    },
    {
      "epoch": 0.8655165779516449,
      "grad_norm": 57.23667907714844,
      "learning_rate": 5e-06,
      "loss": 0.8883,
      "num_input_tokens_seen": 426175380,
      "step": 3374
    },
    {
      "epoch": 0.8655165779516449,
      "loss": 0.7591798305511475,
      "loss_ce": 0.0016114846803247929,
      "loss_iou": 0.349609375,
      "loss_num": 0.01153564453125,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 426175380,
      "step": 3374
    },
    {
      "epoch": 0.8657731033155903,
      "grad_norm": 44.600189208984375,
      "learning_rate": 5e-06,
      "loss": 0.8803,
      "num_input_tokens_seen": 426301256,
      "step": 3375
    },
    {
      "epoch": 0.8657731033155903,
      "loss": 0.8591586947441101,
      "loss_ce": 0.000271968194283545,
      "loss_iou": 0.40234375,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 426301256,
      "step": 3375
    },
    {
      "epoch": 0.8660296286795357,
      "grad_norm": 21.06570816040039,
      "learning_rate": 5e-06,
      "loss": 0.9584,
      "num_input_tokens_seen": 426427156,
      "step": 3376
    },
    {
      "epoch": 0.8660296286795357,
      "loss": 0.8860450983047485,
      "loss_ce": 0.0005470075411722064,
      "loss_iou": 0.40234375,
      "loss_num": 0.01611328125,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 426427156,
      "step": 3376
    },
    {
      "epoch": 0.8662861540434811,
      "grad_norm": 15.724703788757324,
      "learning_rate": 5e-06,
      "loss": 0.8875,
      "num_input_tokens_seen": 426553248,
      "step": 3377
    },
    {
      "epoch": 0.8662861540434811,
      "loss": 0.7928207516670227,
      "loss_ce": 0.0005844469415023923,
      "loss_iou": 0.3671875,
      "loss_num": 0.01165771484375,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 426553248,
      "step": 3377
    },
    {
      "epoch": 0.8665426794074265,
      "grad_norm": 24.42426872253418,
      "learning_rate": 5e-06,
      "loss": 0.9363,
      "num_input_tokens_seen": 426679776,
      "step": 3378
    },
    {
      "epoch": 0.8665426794074265,
      "loss": 1.0451979637145996,
      "loss_ce": 0.001252547139301896,
      "loss_iou": 0.47265625,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 426679776,
      "step": 3378
    },
    {
      "epoch": 0.8667992047713717,
      "grad_norm": 42.975120544433594,
      "learning_rate": 5e-06,
      "loss": 0.9601,
      "num_input_tokens_seen": 426805976,
      "step": 3379
    },
    {
      "epoch": 0.8667992047713717,
      "loss": 0.9686539173126221,
      "loss_ce": 0.0025894755963236094,
      "loss_iou": 0.44140625,
      "loss_num": 0.0169677734375,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 426805976,
      "step": 3379
    },
    {
      "epoch": 0.8670557301353171,
      "grad_norm": 35.80904006958008,
      "learning_rate": 5e-06,
      "loss": 0.991,
      "num_input_tokens_seen": 426932576,
      "step": 3380
    },
    {
      "epoch": 0.8670557301353171,
      "loss": 1.2306230068206787,
      "loss_ce": 0.0021073054522275925,
      "loss_iou": 0.5390625,
      "loss_num": 0.0296630859375,
      "loss_xval": 1.2265625,
      "num_input_tokens_seen": 426932576,
      "step": 3380
    },
    {
      "epoch": 0.8673122554992625,
      "grad_norm": 32.08248519897461,
      "learning_rate": 5e-06,
      "loss": 0.8841,
      "num_input_tokens_seen": 427059692,
      "step": 3381
    },
    {
      "epoch": 0.8673122554992625,
      "loss": 1.202010154724121,
      "loss_ce": 0.00230314489454031,
      "loss_iou": 0.5234375,
      "loss_num": 0.02978515625,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 427059692,
      "step": 3381
    },
    {
      "epoch": 0.8675687808632079,
      "grad_norm": 43.120994567871094,
      "learning_rate": 5e-06,
      "loss": 0.9758,
      "num_input_tokens_seen": 427185804,
      "step": 3382
    },
    {
      "epoch": 0.8675687808632079,
      "loss": 0.8249133825302124,
      "loss_ce": 0.0014270116807892919,
      "loss_iou": 0.39453125,
      "loss_num": 0.00726318359375,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 427185804,
      "step": 3382
    },
    {
      "epoch": 0.8678253062271533,
      "grad_norm": 41.59384536743164,
      "learning_rate": 5e-06,
      "loss": 0.8439,
      "num_input_tokens_seen": 427311160,
      "step": 3383
    },
    {
      "epoch": 0.8678253062271533,
      "loss": 0.8334184885025024,
      "loss_ce": 0.0023637423291802406,
      "loss_iou": 0.380859375,
      "loss_num": 0.0142822265625,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 427311160,
      "step": 3383
    },
    {
      "epoch": 0.8680818315910985,
      "grad_norm": 43.55419921875,
      "learning_rate": 5e-06,
      "loss": 0.8903,
      "num_input_tokens_seen": 427437900,
      "step": 3384
    },
    {
      "epoch": 0.8680818315910985,
      "loss": 0.7252909541130066,
      "loss_ce": 0.0016581214731559157,
      "loss_iou": 0.345703125,
      "loss_num": 0.006500244140625,
      "loss_xval": 0.72265625,
      "num_input_tokens_seen": 427437900,
      "step": 3384
    },
    {
      "epoch": 0.8683383569550439,
      "grad_norm": 56.833534240722656,
      "learning_rate": 5e-06,
      "loss": 1.0618,
      "num_input_tokens_seen": 427564092,
      "step": 3385
    },
    {
      "epoch": 0.8683383569550439,
      "loss": 1.1164964437484741,
      "loss_ce": 0.0007737508276477456,
      "loss_iou": 0.5078125,
      "loss_num": 0.0208740234375,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 427564092,
      "step": 3385
    },
    {
      "epoch": 0.8685948823189893,
      "grad_norm": 49.374027252197266,
      "learning_rate": 5e-06,
      "loss": 0.8793,
      "num_input_tokens_seen": 427691068,
      "step": 3386
    },
    {
      "epoch": 0.8685948823189893,
      "loss": 0.8780579566955566,
      "loss_ce": 0.001593074994161725,
      "loss_iou": 0.41015625,
      "loss_num": 0.0113525390625,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 427691068,
      "step": 3386
    },
    {
      "epoch": 0.8688514076829347,
      "grad_norm": 52.796051025390625,
      "learning_rate": 5e-06,
      "loss": 0.9037,
      "num_input_tokens_seen": 427817216,
      "step": 3387
    },
    {
      "epoch": 0.8688514076829347,
      "loss": 1.182614803314209,
      "loss_ce": 0.001462393207475543,
      "loss_iou": 0.54296875,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 427817216,
      "step": 3387
    },
    {
      "epoch": 0.86910793304688,
      "grad_norm": 37.044437408447266,
      "learning_rate": 5e-06,
      "loss": 0.8977,
      "num_input_tokens_seen": 427943440,
      "step": 3388
    },
    {
      "epoch": 0.86910793304688,
      "loss": 0.9546312093734741,
      "loss_ce": 0.002482714131474495,
      "loss_iou": 0.43359375,
      "loss_num": 0.0164794921875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 427943440,
      "step": 3388
    },
    {
      "epoch": 0.8693644584108253,
      "grad_norm": 33.00278091430664,
      "learning_rate": 5e-06,
      "loss": 0.8285,
      "num_input_tokens_seen": 428069404,
      "step": 3389
    },
    {
      "epoch": 0.8693644584108253,
      "loss": 0.9340903759002686,
      "loss_ce": 0.001473205629736185,
      "loss_iou": 0.42578125,
      "loss_num": 0.0164794921875,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 428069404,
      "step": 3389
    },
    {
      "epoch": 0.8696209837747707,
      "grad_norm": 38.71778869628906,
      "learning_rate": 5e-06,
      "loss": 0.9559,
      "num_input_tokens_seen": 428195956,
      "step": 3390
    },
    {
      "epoch": 0.8696209837747707,
      "loss": 0.98121178150177,
      "loss_ce": 0.002696199109777808,
      "loss_iou": 0.443359375,
      "loss_num": 0.018310546875,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 428195956,
      "step": 3390
    },
    {
      "epoch": 0.8698775091387161,
      "grad_norm": 35.28464889526367,
      "learning_rate": 5e-06,
      "loss": 0.9349,
      "num_input_tokens_seen": 428322832,
      "step": 3391
    },
    {
      "epoch": 0.8698775091387161,
      "loss": 0.7408014535903931,
      "loss_ce": 0.0005670484388247132,
      "loss_iou": 0.357421875,
      "loss_num": 0.0050048828125,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 428322832,
      "step": 3391
    },
    {
      "epoch": 0.8701340345026615,
      "grad_norm": 32.930442810058594,
      "learning_rate": 5e-06,
      "loss": 0.8576,
      "num_input_tokens_seen": 428448880,
      "step": 3392
    },
    {
      "epoch": 0.8701340345026615,
      "loss": 0.7007225751876831,
      "loss_ce": 0.0005272486014291644,
      "loss_iou": 0.33203125,
      "loss_num": 0.00750732421875,
      "loss_xval": 0.69921875,
      "num_input_tokens_seen": 428448880,
      "step": 3392
    },
    {
      "epoch": 0.8703905598666068,
      "grad_norm": 48.13477325439453,
      "learning_rate": 5e-06,
      "loss": 0.8885,
      "num_input_tokens_seen": 428575512,
      "step": 3393
    },
    {
      "epoch": 0.8703905598666068,
      "loss": 0.7388592958450317,
      "loss_ce": 8.973574585979804e-05,
      "loss_iou": 0.34375,
      "loss_num": 0.0101318359375,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 428575512,
      "step": 3393
    },
    {
      "epoch": 0.8706470852305521,
      "grad_norm": 45.76422119140625,
      "learning_rate": 5e-06,
      "loss": 1.019,
      "num_input_tokens_seen": 428701196,
      "step": 3394
    },
    {
      "epoch": 0.8706470852305521,
      "loss": 1.2011606693267822,
      "loss_ce": 0.0004772119573317468,
      "loss_iou": 0.5390625,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 428701196,
      "step": 3394
    },
    {
      "epoch": 0.8709036105944975,
      "grad_norm": 51.84404754638672,
      "learning_rate": 5e-06,
      "loss": 0.9424,
      "num_input_tokens_seen": 428826248,
      "step": 3395
    },
    {
      "epoch": 0.8709036105944975,
      "loss": 1.1905031204223633,
      "loss_ce": 0.0005618068389594555,
      "loss_iou": 0.52734375,
      "loss_num": 0.027587890625,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 428826248,
      "step": 3395
    },
    {
      "epoch": 0.8711601359584429,
      "grad_norm": 39.59621810913086,
      "learning_rate": 5e-06,
      "loss": 0.9862,
      "num_input_tokens_seen": 428952468,
      "step": 3396
    },
    {
      "epoch": 0.8711601359584429,
      "loss": 0.9531468152999878,
      "loss_ce": 0.0014866769779473543,
      "loss_iou": 0.435546875,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 428952468,
      "step": 3396
    },
    {
      "epoch": 0.8714166613223883,
      "grad_norm": 29.36365509033203,
      "learning_rate": 5e-06,
      "loss": 0.8585,
      "num_input_tokens_seen": 429078520,
      "step": 3397
    },
    {
      "epoch": 0.8714166613223883,
      "loss": 0.9202775955200195,
      "loss_ce": 0.0023088508751243353,
      "loss_iou": 0.4140625,
      "loss_num": 0.0181884765625,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 429078520,
      "step": 3397
    },
    {
      "epoch": 0.8716731866863336,
      "grad_norm": 46.7175178527832,
      "learning_rate": 5e-06,
      "loss": 0.9105,
      "num_input_tokens_seen": 429205356,
      "step": 3398
    },
    {
      "epoch": 0.8716731866863336,
      "loss": 0.9669725894927979,
      "loss_ce": 0.004081922583281994,
      "loss_iou": 0.435546875,
      "loss_num": 0.0184326171875,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 429205356,
      "step": 3398
    },
    {
      "epoch": 0.871929712050279,
      "grad_norm": 76.26092529296875,
      "learning_rate": 5e-06,
      "loss": 1.0007,
      "num_input_tokens_seen": 429332452,
      "step": 3399
    },
    {
      "epoch": 0.871929712050279,
      "loss": 0.8261502981185913,
      "loss_ce": 0.0016874285647645593,
      "loss_iou": 0.37890625,
      "loss_num": 0.012939453125,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 429332452,
      "step": 3399
    },
    {
      "epoch": 0.8721862374142243,
      "grad_norm": 49.71019744873047,
      "learning_rate": 5e-06,
      "loss": 1.0018,
      "num_input_tokens_seen": 429460044,
      "step": 3400
    },
    {
      "epoch": 0.8721862374142243,
      "loss": 1.003648281097412,
      "loss_ce": 0.00023035284539218992,
      "loss_iou": 0.470703125,
      "loss_num": 0.0125732421875,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 429460044,
      "step": 3400
    },
    {
      "epoch": 0.8724427627781697,
      "grad_norm": 28.346986770629883,
      "learning_rate": 5e-06,
      "loss": 0.7896,
      "num_input_tokens_seen": 429586540,
      "step": 3401
    },
    {
      "epoch": 0.8724427627781697,
      "loss": 0.8010172843933105,
      "loss_ce": 0.0021891514770686626,
      "loss_iou": 0.37890625,
      "loss_num": 0.00811767578125,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 429586540,
      "step": 3401
    },
    {
      "epoch": 0.8726992881421151,
      "grad_norm": 40.20914077758789,
      "learning_rate": 5e-06,
      "loss": 0.8856,
      "num_input_tokens_seen": 429711880,
      "step": 3402
    },
    {
      "epoch": 0.8726992881421151,
      "loss": 0.8490281105041504,
      "loss_ce": 0.0021042735315859318,
      "loss_iou": 0.376953125,
      "loss_num": 0.0189208984375,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 429711880,
      "step": 3402
    },
    {
      "epoch": 0.8729558135060604,
      "grad_norm": 49.848392486572266,
      "learning_rate": 5e-06,
      "loss": 0.86,
      "num_input_tokens_seen": 429838232,
      "step": 3403
    },
    {
      "epoch": 0.8729558135060604,
      "loss": 0.88066565990448,
      "loss_ce": 0.006642218213528395,
      "loss_iou": 0.404296875,
      "loss_num": 0.01324462890625,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 429838232,
      "step": 3403
    },
    {
      "epoch": 0.8732123388700058,
      "grad_norm": 54.214805603027344,
      "learning_rate": 5e-06,
      "loss": 0.8867,
      "num_input_tokens_seen": 429964660,
      "step": 3404
    },
    {
      "epoch": 0.8732123388700058,
      "loss": 1.06544828414917,
      "loss_ce": 0.0014834802132099867,
      "loss_iou": 0.470703125,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 429964660,
      "step": 3404
    },
    {
      "epoch": 0.8734688642339511,
      "grad_norm": 41.31244659423828,
      "learning_rate": 5e-06,
      "loss": 1.0468,
      "num_input_tokens_seen": 430091912,
      "step": 3405
    },
    {
      "epoch": 0.8734688642339511,
      "loss": 0.9047929644584656,
      "loss_ce": 0.0009844072628766298,
      "loss_iou": 0.421875,
      "loss_num": 0.01190185546875,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 430091912,
      "step": 3405
    },
    {
      "epoch": 0.8737253895978965,
      "grad_norm": 23.201696395874023,
      "learning_rate": 5e-06,
      "loss": 0.9703,
      "num_input_tokens_seen": 430218520,
      "step": 3406
    },
    {
      "epoch": 0.8737253895978965,
      "loss": 1.0831247568130493,
      "loss_ce": 0.0035349365789443254,
      "loss_iou": 0.48828125,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 430218520,
      "step": 3406
    },
    {
      "epoch": 0.8739819149618419,
      "grad_norm": 28.964981079101562,
      "learning_rate": 5e-06,
      "loss": 0.8775,
      "num_input_tokens_seen": 430344328,
      "step": 3407
    },
    {
      "epoch": 0.8739819149618419,
      "loss": 1.0236637592315674,
      "loss_ce": 0.0012027935590595007,
      "loss_iou": 0.46484375,
      "loss_num": 0.018310546875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 430344328,
      "step": 3407
    },
    {
      "epoch": 0.8742384403257872,
      "grad_norm": 23.624568939208984,
      "learning_rate": 5e-06,
      "loss": 0.827,
      "num_input_tokens_seen": 430470448,
      "step": 3408
    },
    {
      "epoch": 0.8742384403257872,
      "loss": 0.7088004350662231,
      "loss_ce": 0.00030439134570769966,
      "loss_iou": 0.3359375,
      "loss_num": 0.007476806640625,
      "loss_xval": 0.70703125,
      "num_input_tokens_seen": 430470448,
      "step": 3408
    },
    {
      "epoch": 0.8744949656897326,
      "grad_norm": 31.541032791137695,
      "learning_rate": 5e-06,
      "loss": 0.9492,
      "num_input_tokens_seen": 430596828,
      "step": 3409
    },
    {
      "epoch": 0.8744949656897326,
      "loss": 1.0792485475540161,
      "loss_ce": 0.0023442874662578106,
      "loss_iou": 0.46484375,
      "loss_num": 0.0296630859375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 430596828,
      "step": 3409
    },
    {
      "epoch": 0.8747514910536779,
      "grad_norm": 42.293907165527344,
      "learning_rate": 5e-06,
      "loss": 0.9031,
      "num_input_tokens_seen": 430723744,
      "step": 3410
    },
    {
      "epoch": 0.8747514910536779,
      "loss": 0.8873423337936401,
      "loss_ce": 0.00013531590229831636,
      "loss_iou": 0.408203125,
      "loss_num": 0.0137939453125,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 430723744,
      "step": 3410
    },
    {
      "epoch": 0.8750080164176233,
      "grad_norm": 47.99876403808594,
      "learning_rate": 5e-06,
      "loss": 0.9119,
      "num_input_tokens_seen": 430849488,
      "step": 3411
    },
    {
      "epoch": 0.8750080164176233,
      "loss": 0.8992279767990112,
      "loss_ce": 0.00030217270250432193,
      "loss_iou": 0.427734375,
      "loss_num": 0.00836181640625,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 430849488,
      "step": 3411
    },
    {
      "epoch": 0.8752645417815687,
      "grad_norm": 46.01728439331055,
      "learning_rate": 5e-06,
      "loss": 0.9561,
      "num_input_tokens_seen": 430975304,
      "step": 3412
    },
    {
      "epoch": 0.8752645417815687,
      "loss": 0.984878420829773,
      "loss_ce": 0.000991659821011126,
      "loss_iou": 0.45703125,
      "loss_num": 0.0137939453125,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 430975304,
      "step": 3412
    },
    {
      "epoch": 0.875521067145514,
      "grad_norm": 26.812801361083984,
      "learning_rate": 5e-06,
      "loss": 0.9157,
      "num_input_tokens_seen": 431099984,
      "step": 3413
    },
    {
      "epoch": 0.875521067145514,
      "loss": 0.67731773853302,
      "loss_ce": 0.0008040264947339892,
      "loss_iou": 0.310546875,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.67578125,
      "num_input_tokens_seen": 431099984,
      "step": 3413
    },
    {
      "epoch": 0.8757775925094594,
      "grad_norm": 15.79684066772461,
      "learning_rate": 5e-06,
      "loss": 0.7982,
      "num_input_tokens_seen": 431225296,
      "step": 3414
    },
    {
      "epoch": 0.8757775925094594,
      "loss": 0.8126412034034729,
      "loss_ce": 0.0011177434353157878,
      "loss_iou": 0.373046875,
      "loss_num": 0.01275634765625,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 431225296,
      "step": 3414
    },
    {
      "epoch": 0.8760341178734047,
      "grad_norm": 15.332484245300293,
      "learning_rate": 5e-06,
      "loss": 0.9039,
      "num_input_tokens_seen": 431350240,
      "step": 3415
    },
    {
      "epoch": 0.8760341178734047,
      "loss": 0.8000078201293945,
      "loss_ce": 0.0011796900071203709,
      "loss_iou": 0.37109375,
      "loss_num": 0.01123046875,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 431350240,
      "step": 3415
    },
    {
      "epoch": 0.8762906432373501,
      "grad_norm": 15.827414512634277,
      "learning_rate": 5e-06,
      "loss": 0.8506,
      "num_input_tokens_seen": 431475596,
      "step": 3416
    },
    {
      "epoch": 0.8762906432373501,
      "loss": 0.8470059633255005,
      "loss_ce": 0.00032629843917675316,
      "loss_iou": 0.3984375,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 431475596,
      "step": 3416
    },
    {
      "epoch": 0.8765471686012954,
      "grad_norm": 80.7283706665039,
      "learning_rate": 5e-06,
      "loss": 0.8849,
      "num_input_tokens_seen": 431601064,
      "step": 3417
    },
    {
      "epoch": 0.8765471686012954,
      "loss": 0.7679038643836975,
      "loss_ce": 8.159335993696004e-05,
      "loss_iou": 0.3515625,
      "loss_num": 0.0128173828125,
      "loss_xval": 0.76953125,
      "num_input_tokens_seen": 431601064,
      "step": 3417
    },
    {
      "epoch": 0.8768036939652408,
      "grad_norm": 49.230072021484375,
      "learning_rate": 5e-06,
      "loss": 0.9348,
      "num_input_tokens_seen": 431726572,
      "step": 3418
    },
    {
      "epoch": 0.8768036939652408,
      "loss": 0.8360693454742432,
      "loss_ce": 0.001108458498492837,
      "loss_iou": 0.40234375,
      "loss_num": 0.00604248046875,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 431726572,
      "step": 3418
    },
    {
      "epoch": 0.8770602193291862,
      "grad_norm": 48.07963562011719,
      "learning_rate": 5e-06,
      "loss": 0.8866,
      "num_input_tokens_seen": 431854524,
      "step": 3419
    },
    {
      "epoch": 0.8770602193291862,
      "loss": 0.9888432621955872,
      "loss_ce": 0.0005619989824481308,
      "loss_iou": 0.44921875,
      "loss_num": 0.017822265625,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 431854524,
      "step": 3419
    },
    {
      "epoch": 0.8773167446931315,
      "grad_norm": 53.985050201416016,
      "learning_rate": 5e-06,
      "loss": 0.8852,
      "num_input_tokens_seen": 431981668,
      "step": 3420
    },
    {
      "epoch": 0.8773167446931315,
      "loss": 0.9037037491798401,
      "loss_ce": 0.0003834692179225385,
      "loss_iou": 0.419921875,
      "loss_num": 0.0125732421875,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 431981668,
      "step": 3420
    },
    {
      "epoch": 0.8775732700570769,
      "grad_norm": 44.53376770019531,
      "learning_rate": 5e-06,
      "loss": 0.9842,
      "num_input_tokens_seen": 432108028,
      "step": 3421
    },
    {
      "epoch": 0.8775732700570769,
      "loss": 0.8888950347900391,
      "loss_ce": 0.0002231486578239128,
      "loss_iou": 0.416015625,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 432108028,
      "step": 3421
    },
    {
      "epoch": 0.8778297954210222,
      "grad_norm": 47.403507232666016,
      "learning_rate": 5e-06,
      "loss": 0.8334,
      "num_input_tokens_seen": 432234736,
      "step": 3422
    },
    {
      "epoch": 0.8778297954210222,
      "loss": 0.8107150793075562,
      "loss_ce": 0.0009006505133584142,
      "loss_iou": 0.375,
      "loss_num": 0.01239013671875,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 432234736,
      "step": 3422
    },
    {
      "epoch": 0.8780863207849676,
      "grad_norm": 49.67152786254883,
      "learning_rate": 5e-06,
      "loss": 0.9719,
      "num_input_tokens_seen": 432360092,
      "step": 3423
    },
    {
      "epoch": 0.8780863207849676,
      "loss": 1.1102666854858398,
      "loss_ce": 0.0018682765075936913,
      "loss_iou": 0.49609375,
      "loss_num": 0.0230712890625,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 432360092,
      "step": 3423
    },
    {
      "epoch": 0.878342846148913,
      "grad_norm": 51.985137939453125,
      "learning_rate": 5e-06,
      "loss": 0.8359,
      "num_input_tokens_seen": 432486900,
      "step": 3424
    },
    {
      "epoch": 0.878342846148913,
      "loss": 0.8454709053039551,
      "loss_ce": 0.002697472693398595,
      "loss_iou": 0.396484375,
      "loss_num": 0.00970458984375,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 432486900,
      "step": 3424
    },
    {
      "epoch": 0.8785993715128584,
      "grad_norm": 59.84661102294922,
      "learning_rate": 5e-06,
      "loss": 0.8764,
      "num_input_tokens_seen": 432612772,
      "step": 3425
    },
    {
      "epoch": 0.8785993715128584,
      "loss": 0.926160991191864,
      "loss_ce": 0.000379768869606778,
      "loss_iou": 0.4375,
      "loss_num": 0.010498046875,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 432612772,
      "step": 3425
    },
    {
      "epoch": 0.8788558968768037,
      "grad_norm": 32.007080078125,
      "learning_rate": 5e-06,
      "loss": 0.8649,
      "num_input_tokens_seen": 432737984,
      "step": 3426
    },
    {
      "epoch": 0.8788558968768037,
      "loss": 0.7906807065010071,
      "loss_ce": 0.0018623414216563106,
      "loss_iou": 0.357421875,
      "loss_num": 0.0146484375,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 432737984,
      "step": 3426
    },
    {
      "epoch": 0.879112422240749,
      "grad_norm": 49.53152084350586,
      "learning_rate": 5e-06,
      "loss": 0.8325,
      "num_input_tokens_seen": 432864872,
      "step": 3427
    },
    {
      "epoch": 0.879112422240749,
      "loss": 0.9690131545066833,
      "loss_ce": 0.0002631854440551251,
      "loss_iou": 0.455078125,
      "loss_num": 0.011474609375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 432864872,
      "step": 3427
    },
    {
      "epoch": 0.8793689476046944,
      "grad_norm": 69.46311950683594,
      "learning_rate": 5e-06,
      "loss": 1.0001,
      "num_input_tokens_seen": 432990672,
      "step": 3428
    },
    {
      "epoch": 0.8793689476046944,
      "loss": 0.9777381420135498,
      "loss_ce": 0.00019912939751520753,
      "loss_iou": 0.451171875,
      "loss_num": 0.01531982421875,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 432990672,
      "step": 3428
    },
    {
      "epoch": 0.8796254729686398,
      "grad_norm": 55.93959426879883,
      "learning_rate": 5e-06,
      "loss": 0.8758,
      "num_input_tokens_seen": 433117724,
      "step": 3429
    },
    {
      "epoch": 0.8796254729686398,
      "loss": 0.8691259622573853,
      "loss_ce": 0.00047367080696858466,
      "loss_iou": 0.41015625,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 433117724,
      "step": 3429
    },
    {
      "epoch": 0.8798819983325852,
      "grad_norm": 41.18526077270508,
      "learning_rate": 5e-06,
      "loss": 0.7981,
      "num_input_tokens_seen": 433243388,
      "step": 3430
    },
    {
      "epoch": 0.8798819983325852,
      "loss": 0.6913057565689087,
      "loss_ce": 0.00014360120985656977,
      "loss_iou": 0.314453125,
      "loss_num": 0.01239013671875,
      "loss_xval": 0.69140625,
      "num_input_tokens_seen": 433243388,
      "step": 3430
    },
    {
      "epoch": 0.8801385236965305,
      "grad_norm": 42.80875015258789,
      "learning_rate": 5e-06,
      "loss": 0.944,
      "num_input_tokens_seen": 433370024,
      "step": 3431
    },
    {
      "epoch": 0.8801385236965305,
      "loss": 1.0949082374572754,
      "loss_ce": 0.0026230562943965197,
      "loss_iou": 0.5,
      "loss_num": 0.0185546875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 433370024,
      "step": 3431
    },
    {
      "epoch": 0.8803950490604758,
      "grad_norm": 59.134490966796875,
      "learning_rate": 5e-06,
      "loss": 0.8771,
      "num_input_tokens_seen": 433496936,
      "step": 3432
    },
    {
      "epoch": 0.8803950490604758,
      "loss": 0.8126804828643799,
      "loss_ce": 0.0016453824937343597,
      "loss_iou": 0.380859375,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 433496936,
      "step": 3432
    },
    {
      "epoch": 0.8806515744244212,
      "grad_norm": 46.1022834777832,
      "learning_rate": 5e-06,
      "loss": 0.9529,
      "num_input_tokens_seen": 433622760,
      "step": 3433
    },
    {
      "epoch": 0.8806515744244212,
      "loss": 0.9846500158309937,
      "loss_ce": 0.0002750523271970451,
      "loss_iou": 0.45703125,
      "loss_num": 0.01373291015625,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 433622760,
      "step": 3433
    },
    {
      "epoch": 0.8809080997883666,
      "grad_norm": 22.375951766967773,
      "learning_rate": 5e-06,
      "loss": 0.9513,
      "num_input_tokens_seen": 433748540,
      "step": 3434
    },
    {
      "epoch": 0.8809080997883666,
      "loss": 0.9501669406890869,
      "loss_ce": 0.0038778341840952635,
      "loss_iou": 0.43359375,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 433748540,
      "step": 3434
    },
    {
      "epoch": 0.881164625152312,
      "grad_norm": 17.282991409301758,
      "learning_rate": 5e-06,
      "loss": 0.8549,
      "num_input_tokens_seen": 433874084,
      "step": 3435
    },
    {
      "epoch": 0.881164625152312,
      "loss": 0.8531233072280884,
      "loss_ce": 0.0005841834936290979,
      "loss_iou": 0.390625,
      "loss_num": 0.0142822265625,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 433874084,
      "step": 3435
    },
    {
      "epoch": 0.8814211505162572,
      "grad_norm": 28.396881103515625,
      "learning_rate": 5e-06,
      "loss": 0.9027,
      "num_input_tokens_seen": 434000316,
      "step": 3436
    },
    {
      "epoch": 0.8814211505162572,
      "loss": 0.8971639275550842,
      "loss_ce": 0.0001912479056045413,
      "loss_iou": 0.427734375,
      "loss_num": 0.00823974609375,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 434000316,
      "step": 3436
    },
    {
      "epoch": 0.8816776758802026,
      "grad_norm": 42.88393783569336,
      "learning_rate": 5e-06,
      "loss": 0.9059,
      "num_input_tokens_seen": 434126808,
      "step": 3437
    },
    {
      "epoch": 0.8816776758802026,
      "loss": 0.8238965272903442,
      "loss_ce": 0.004560566507279873,
      "loss_iou": 0.3828125,
      "loss_num": 0.010986328125,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 434126808,
      "step": 3437
    },
    {
      "epoch": 0.881934201244148,
      "grad_norm": 57.59833526611328,
      "learning_rate": 5e-06,
      "loss": 0.8468,
      "num_input_tokens_seen": 434252744,
      "step": 3438
    },
    {
      "epoch": 0.881934201244148,
      "loss": 0.8683846592903137,
      "loss_ce": 0.0051033878698945045,
      "loss_iou": 0.396484375,
      "loss_num": 0.0137939453125,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 434252744,
      "step": 3438
    },
    {
      "epoch": 0.8821907266080934,
      "grad_norm": 38.1158561706543,
      "learning_rate": 5e-06,
      "loss": 1.1038,
      "num_input_tokens_seen": 434379080,
      "step": 3439
    },
    {
      "epoch": 0.8821907266080934,
      "loss": 1.0591309070587158,
      "loss_ce": 0.001513793016783893,
      "loss_iou": 0.484375,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 434379080,
      "step": 3439
    },
    {
      "epoch": 0.8824472519720388,
      "grad_norm": 29.21666145324707,
      "learning_rate": 5e-06,
      "loss": 0.9735,
      "num_input_tokens_seen": 434505172,
      "step": 3440
    },
    {
      "epoch": 0.8824472519720388,
      "loss": 0.7836111187934875,
      "loss_ce": 0.00040801268187351525,
      "loss_iou": 0.365234375,
      "loss_num": 0.01025390625,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 434505172,
      "step": 3440
    },
    {
      "epoch": 0.882703777335984,
      "grad_norm": 233.26312255859375,
      "learning_rate": 5e-06,
      "loss": 0.9878,
      "num_input_tokens_seen": 434630964,
      "step": 3441
    },
    {
      "epoch": 0.882703777335984,
      "loss": 1.0533232688903809,
      "loss_ce": 0.0015654661692678928,
      "loss_iou": 0.45703125,
      "loss_num": 0.0269775390625,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 434630964,
      "step": 3441
    },
    {
      "epoch": 0.8829603026999294,
      "grad_norm": 24.941059112548828,
      "learning_rate": 5e-06,
      "loss": 0.8391,
      "num_input_tokens_seen": 434756576,
      "step": 3442
    },
    {
      "epoch": 0.8829603026999294,
      "loss": 0.929535984992981,
      "loss_ce": 0.002289894036948681,
      "loss_iou": 0.42578125,
      "loss_num": 0.01483154296875,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 434756576,
      "step": 3442
    },
    {
      "epoch": 0.8832168280638748,
      "grad_norm": 29.161884307861328,
      "learning_rate": 5e-06,
      "loss": 0.8047,
      "num_input_tokens_seen": 434883464,
      "step": 3443
    },
    {
      "epoch": 0.8832168280638748,
      "loss": 0.7673634886741638,
      "loss_ce": 0.0012501779710873961,
      "loss_iou": 0.359375,
      "loss_num": 0.0091552734375,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 434883464,
      "step": 3443
    },
    {
      "epoch": 0.8834733534278202,
      "grad_norm": 38.47393798828125,
      "learning_rate": 5e-06,
      "loss": 0.8436,
      "num_input_tokens_seen": 435008456,
      "step": 3444
    },
    {
      "epoch": 0.8834733534278202,
      "loss": 0.7271755337715149,
      "loss_ce": 0.00012476168922148645,
      "loss_iou": 0.34765625,
      "loss_num": 0.00653076171875,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 435008456,
      "step": 3444
    },
    {
      "epoch": 0.8837298787917656,
      "grad_norm": 46.281898498535156,
      "learning_rate": 5e-06,
      "loss": 0.8872,
      "num_input_tokens_seen": 435135056,
      "step": 3445
    },
    {
      "epoch": 0.8837298787917656,
      "loss": 0.8790836334228516,
      "loss_ce": 0.0006656663026660681,
      "loss_iou": 0.416015625,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 435135056,
      "step": 3445
    },
    {
      "epoch": 0.883986404155711,
      "grad_norm": 46.61651611328125,
      "learning_rate": 5e-06,
      "loss": 0.8841,
      "num_input_tokens_seen": 435260520,
      "step": 3446
    },
    {
      "epoch": 0.883986404155711,
      "loss": 0.7990092039108276,
      "loss_ce": 0.0006693446775898337,
      "loss_iou": 0.37890625,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 435260520,
      "step": 3446
    },
    {
      "epoch": 0.8842429295196562,
      "grad_norm": 33.788658142089844,
      "learning_rate": 5e-06,
      "loss": 0.9245,
      "num_input_tokens_seen": 435386344,
      "step": 3447
    },
    {
      "epoch": 0.8842429295196562,
      "loss": 1.005658745765686,
      "loss_ce": 0.004682211205363274,
      "loss_iou": 0.466796875,
      "loss_num": 0.01385498046875,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 435386344,
      "step": 3447
    },
    {
      "epoch": 0.8844994548836016,
      "grad_norm": 47.8157844543457,
      "learning_rate": 5e-06,
      "loss": 0.9217,
      "num_input_tokens_seen": 435512352,
      "step": 3448
    },
    {
      "epoch": 0.8844994548836016,
      "loss": 1.0116376876831055,
      "loss_ce": 0.00040726314182393253,
      "loss_iou": 0.46484375,
      "loss_num": 0.01611328125,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 435512352,
      "step": 3448
    },
    {
      "epoch": 0.884755980247547,
      "grad_norm": 40.95292663574219,
      "learning_rate": 5e-06,
      "loss": 0.9506,
      "num_input_tokens_seen": 435638276,
      "step": 3449
    },
    {
      "epoch": 0.884755980247547,
      "loss": 1.003424882888794,
      "loss_ce": 0.001960084307938814,
      "loss_iou": 0.453125,
      "loss_num": 0.018798828125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 435638276,
      "step": 3449
    },
    {
      "epoch": 0.8850125056114924,
      "grad_norm": 22.41740608215332,
      "learning_rate": 5e-06,
      "loss": 0.9177,
      "num_input_tokens_seen": 435763928,
      "step": 3450
    },
    {
      "epoch": 0.8850125056114924,
      "loss": 0.9013574123382568,
      "loss_ce": 0.00267581082880497,
      "loss_iou": 0.42578125,
      "loss_num": 0.0096435546875,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 435763928,
      "step": 3450
    },
    {
      "epoch": 0.8852690309754377,
      "grad_norm": 36.64149856567383,
      "learning_rate": 5e-06,
      "loss": 0.8779,
      "num_input_tokens_seen": 435889656,
      "step": 3451
    },
    {
      "epoch": 0.8852690309754377,
      "loss": 0.8626788854598999,
      "loss_ce": 0.0003742373373825103,
      "loss_iou": 0.3984375,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 435889656,
      "step": 3451
    },
    {
      "epoch": 0.885525556339383,
      "grad_norm": 61.63970184326172,
      "learning_rate": 5e-06,
      "loss": 0.977,
      "num_input_tokens_seen": 436015808,
      "step": 3452
    },
    {
      "epoch": 0.885525556339383,
      "loss": 0.9916138052940369,
      "loss_ce": 0.0004028629628010094,
      "loss_iou": 0.4609375,
      "loss_num": 0.01416015625,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 436015808,
      "step": 3452
    },
    {
      "epoch": 0.8857820817033284,
      "grad_norm": 44.72106170654297,
      "learning_rate": 5e-06,
      "loss": 1.0507,
      "num_input_tokens_seen": 436141952,
      "step": 3453
    },
    {
      "epoch": 0.8857820817033284,
      "loss": 1.0103474855422974,
      "loss_ce": 0.0005818564677610993,
      "loss_iou": 0.46484375,
      "loss_num": 0.0159912109375,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 436141952,
      "step": 3453
    },
    {
      "epoch": 0.8860386070672738,
      "grad_norm": 38.93879318237305,
      "learning_rate": 5e-06,
      "loss": 0.9543,
      "num_input_tokens_seen": 436268232,
      "step": 3454
    },
    {
      "epoch": 0.8860386070672738,
      "loss": 0.8700358867645264,
      "loss_ce": 0.0028483986388891935,
      "loss_iou": 0.41015625,
      "loss_num": 0.009521484375,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 436268232,
      "step": 3454
    },
    {
      "epoch": 0.8862951324312192,
      "grad_norm": 40.77846145629883,
      "learning_rate": 5e-06,
      "loss": 1.0358,
      "num_input_tokens_seen": 436394084,
      "step": 3455
    },
    {
      "epoch": 0.8862951324312192,
      "loss": 0.9436060190200806,
      "loss_ce": 0.0017114478396251798,
      "loss_iou": 0.41796875,
      "loss_num": 0.0213623046875,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 436394084,
      "step": 3455
    },
    {
      "epoch": 0.8865516577951645,
      "grad_norm": 54.384544372558594,
      "learning_rate": 5e-06,
      "loss": 0.9185,
      "num_input_tokens_seen": 436520584,
      "step": 3456
    },
    {
      "epoch": 0.8865516577951645,
      "loss": 0.839960515499115,
      "loss_ce": 0.0010933056473731995,
      "loss_iou": 0.400390625,
      "loss_num": 0.007537841796875,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 436520584,
      "step": 3456
    },
    {
      "epoch": 0.8868081831591098,
      "grad_norm": 49.29331588745117,
      "learning_rate": 5e-06,
      "loss": 0.9414,
      "num_input_tokens_seen": 436646308,
      "step": 3457
    },
    {
      "epoch": 0.8868081831591098,
      "loss": 1.080345630645752,
      "loss_ce": 0.0012440603459253907,
      "loss_iou": 0.5,
      "loss_num": 0.015380859375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 436646308,
      "step": 3457
    },
    {
      "epoch": 0.8870647085230552,
      "grad_norm": 53.06224060058594,
      "learning_rate": 5e-06,
      "loss": 0.9215,
      "num_input_tokens_seen": 436772312,
      "step": 3458
    },
    {
      "epoch": 0.8870647085230552,
      "loss": 1.0571246147155762,
      "loss_ce": 0.0009722586255520582,
      "loss_iou": 0.48046875,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 436772312,
      "step": 3458
    },
    {
      "epoch": 0.8873212338870006,
      "grad_norm": 56.29994583129883,
      "learning_rate": 5e-06,
      "loss": 0.9182,
      "num_input_tokens_seen": 436899012,
      "step": 3459
    },
    {
      "epoch": 0.8873212338870006,
      "loss": 0.8147017955780029,
      "loss_ce": 0.00024863381986506283,
      "loss_iou": 0.37890625,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 436899012,
      "step": 3459
    },
    {
      "epoch": 0.887577759250946,
      "grad_norm": 62.93098831176758,
      "learning_rate": 5e-06,
      "loss": 1.0228,
      "num_input_tokens_seen": 437025312,
      "step": 3460
    },
    {
      "epoch": 0.887577759250946,
      "loss": 0.9808425903320312,
      "loss_ce": 0.0015944740734994411,
      "loss_iou": 0.443359375,
      "loss_num": 0.0184326171875,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 437025312,
      "step": 3460
    },
    {
      "epoch": 0.8878342846148913,
      "grad_norm": 60.884056091308594,
      "learning_rate": 5e-06,
      "loss": 1.0027,
      "num_input_tokens_seen": 437152084,
      "step": 3461
    },
    {
      "epoch": 0.8878342846148913,
      "loss": 1.1948078870773315,
      "loss_ce": 0.0004719930002465844,
      "loss_iou": 0.5390625,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 437152084,
      "step": 3461
    },
    {
      "epoch": 0.8880908099788366,
      "grad_norm": 59.38124084472656,
      "learning_rate": 5e-06,
      "loss": 0.952,
      "num_input_tokens_seen": 437277848,
      "step": 3462
    },
    {
      "epoch": 0.8880908099788366,
      "loss": 0.9059023261070251,
      "loss_ce": 0.0006288869772106409,
      "loss_iou": 0.431640625,
      "loss_num": 0.008544921875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 437277848,
      "step": 3462
    },
    {
      "epoch": 0.888347335342782,
      "grad_norm": 38.98711013793945,
      "learning_rate": 5e-06,
      "loss": 0.8381,
      "num_input_tokens_seen": 437402532,
      "step": 3463
    },
    {
      "epoch": 0.888347335342782,
      "loss": 0.8584575057029724,
      "loss_ce": 0.0007915201713331044,
      "loss_iou": 0.408203125,
      "loss_num": 0.0079345703125,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 437402532,
      "step": 3463
    },
    {
      "epoch": 0.8886038607067274,
      "grad_norm": 27.732324600219727,
      "learning_rate": 5e-06,
      "loss": 0.9388,
      "num_input_tokens_seen": 437528956,
      "step": 3464
    },
    {
      "epoch": 0.8886038607067274,
      "loss": 0.9284608960151672,
      "loss_ce": 0.005853438284248114,
      "loss_iou": 0.4140625,
      "loss_num": 0.0186767578125,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 437528956,
      "step": 3464
    },
    {
      "epoch": 0.8888603860706727,
      "grad_norm": 50.30615997314453,
      "learning_rate": 5e-06,
      "loss": 0.8218,
      "num_input_tokens_seen": 437655220,
      "step": 3465
    },
    {
      "epoch": 0.8888603860706727,
      "loss": 0.8709135055541992,
      "loss_ce": 0.0003080573515035212,
      "loss_iou": 0.39453125,
      "loss_num": 0.0166015625,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 437655220,
      "step": 3465
    },
    {
      "epoch": 0.8891169114346181,
      "grad_norm": 51.125362396240234,
      "learning_rate": 5e-06,
      "loss": 0.9267,
      "num_input_tokens_seen": 437781580,
      "step": 3466
    },
    {
      "epoch": 0.8891169114346181,
      "loss": 0.846234142780304,
      "loss_ce": 0.0015075721312314272,
      "loss_iou": 0.3984375,
      "loss_num": 0.009521484375,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 437781580,
      "step": 3466
    },
    {
      "epoch": 0.8893734367985635,
      "grad_norm": 43.50301742553711,
      "learning_rate": 5e-06,
      "loss": 0.9021,
      "num_input_tokens_seen": 437908052,
      "step": 3467
    },
    {
      "epoch": 0.8893734367985635,
      "loss": 1.0447622537612915,
      "loss_ce": 0.005211474373936653,
      "loss_iou": 0.482421875,
      "loss_num": 0.01470947265625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 437908052,
      "step": 3467
    },
    {
      "epoch": 0.8896299621625088,
      "grad_norm": 50.587364196777344,
      "learning_rate": 5e-06,
      "loss": 0.8495,
      "num_input_tokens_seen": 438034808,
      "step": 3468
    },
    {
      "epoch": 0.8896299621625088,
      "loss": 0.9229599833488464,
      "loss_ce": 0.001817358541302383,
      "loss_iou": 0.43359375,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 438034808,
      "step": 3468
    },
    {
      "epoch": 0.8898864875264542,
      "grad_norm": 52.134674072265625,
      "learning_rate": 5e-06,
      "loss": 0.9262,
      "num_input_tokens_seen": 438161648,
      "step": 3469
    },
    {
      "epoch": 0.8898864875264542,
      "loss": 1.0784614086151123,
      "loss_ce": 0.0013129300205036998,
      "loss_iou": 0.5,
      "loss_num": 0.015869140625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 438161648,
      "step": 3469
    },
    {
      "epoch": 0.8901430128903995,
      "grad_norm": 52.15785217285156,
      "learning_rate": 5e-06,
      "loss": 0.9972,
      "num_input_tokens_seen": 438287680,
      "step": 3470
    },
    {
      "epoch": 0.8901430128903995,
      "loss": 0.8080508708953857,
      "loss_ce": 0.00043369480408728123,
      "loss_iou": 0.390625,
      "loss_num": 0.00555419921875,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 438287680,
      "step": 3470
    },
    {
      "epoch": 0.8903995382543449,
      "grad_norm": 46.73903274536133,
      "learning_rate": 5e-06,
      "loss": 0.9506,
      "num_input_tokens_seen": 438414072,
      "step": 3471
    },
    {
      "epoch": 0.8903995382543449,
      "loss": 0.8236591815948486,
      "loss_ce": 0.00041702031739987433,
      "loss_iou": 0.39453125,
      "loss_num": 0.007080078125,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 438414072,
      "step": 3471
    },
    {
      "epoch": 0.8906560636182903,
      "grad_norm": 91.40861511230469,
      "learning_rate": 5e-06,
      "loss": 0.9469,
      "num_input_tokens_seen": 438541444,
      "step": 3472
    },
    {
      "epoch": 0.8906560636182903,
      "loss": 1.0221894979476929,
      "loss_ce": 0.002169941784814,
      "loss_iou": 0.451171875,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 438541444,
      "step": 3472
    },
    {
      "epoch": 0.8909125889822356,
      "grad_norm": 42.283748626708984,
      "learning_rate": 5e-06,
      "loss": 1.0101,
      "num_input_tokens_seen": 438667676,
      "step": 3473
    },
    {
      "epoch": 0.8909125889822356,
      "loss": 1.1288270950317383,
      "loss_ce": 0.002362252678722143,
      "loss_iou": 0.51171875,
      "loss_num": 0.020751953125,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 438667676,
      "step": 3473
    },
    {
      "epoch": 0.891169114346181,
      "grad_norm": 28.7772274017334,
      "learning_rate": 5e-06,
      "loss": 0.8939,
      "num_input_tokens_seen": 438793980,
      "step": 3474
    },
    {
      "epoch": 0.891169114346181,
      "loss": 1.1132316589355469,
      "loss_ce": 0.0028801592998206615,
      "loss_iou": 0.48828125,
      "loss_num": 0.0263671875,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 438793980,
      "step": 3474
    },
    {
      "epoch": 0.8914256397101263,
      "grad_norm": 40.3843879699707,
      "learning_rate": 5e-06,
      "loss": 0.9598,
      "num_input_tokens_seen": 438921068,
      "step": 3475
    },
    {
      "epoch": 0.8914256397101263,
      "loss": 0.8080883026123047,
      "loss_ce": 0.000959338212851435,
      "loss_iou": 0.37890625,
      "loss_num": 0.009765625,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 438921068,
      "step": 3475
    },
    {
      "epoch": 0.8916821650740717,
      "grad_norm": 52.686180114746094,
      "learning_rate": 5e-06,
      "loss": 0.8949,
      "num_input_tokens_seen": 439047024,
      "step": 3476
    },
    {
      "epoch": 0.8916821650740717,
      "loss": 1.0003409385681152,
      "loss_ce": 0.0008292689453810453,
      "loss_iou": 0.45703125,
      "loss_num": 0.01708984375,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 439047024,
      "step": 3476
    },
    {
      "epoch": 0.8919386904380171,
      "grad_norm": 48.27030563354492,
      "learning_rate": 5e-06,
      "loss": 0.9501,
      "num_input_tokens_seen": 439173668,
      "step": 3477
    },
    {
      "epoch": 0.8919386904380171,
      "loss": 0.9072990417480469,
      "loss_ce": 0.0010490596760064363,
      "loss_iou": 0.41796875,
      "loss_num": 0.01416015625,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 439173668,
      "step": 3477
    },
    {
      "epoch": 0.8921952158019624,
      "grad_norm": 56.81381607055664,
      "learning_rate": 5e-06,
      "loss": 0.8105,
      "num_input_tokens_seen": 439299416,
      "step": 3478
    },
    {
      "epoch": 0.8921952158019624,
      "loss": 0.822077751159668,
      "loss_ce": 0.0003003695164807141,
      "loss_iou": 0.390625,
      "loss_num": 0.0079345703125,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 439299416,
      "step": 3478
    },
    {
      "epoch": 0.8924517411659078,
      "grad_norm": 36.58035659790039,
      "learning_rate": 5e-06,
      "loss": 0.85,
      "num_input_tokens_seen": 439425120,
      "step": 3479
    },
    {
      "epoch": 0.8924517411659078,
      "loss": 0.8668330907821655,
      "loss_ce": 0.00013380752352532,
      "loss_iou": 0.38671875,
      "loss_num": 0.0186767578125,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 439425120,
      "step": 3479
    },
    {
      "epoch": 0.8927082665298531,
      "grad_norm": 37.54542541503906,
      "learning_rate": 5e-06,
      "loss": 0.956,
      "num_input_tokens_seen": 439551672,
      "step": 3480
    },
    {
      "epoch": 0.8927082665298531,
      "loss": 1.0737719535827637,
      "loss_ce": 0.0019945912063121796,
      "loss_iou": 0.486328125,
      "loss_num": 0.0196533203125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 439551672,
      "step": 3480
    },
    {
      "epoch": 0.8929647918937985,
      "grad_norm": 43.92566680908203,
      "learning_rate": 5e-06,
      "loss": 0.8286,
      "num_input_tokens_seen": 439677248,
      "step": 3481
    },
    {
      "epoch": 0.8929647918937985,
      "loss": 0.9804304242134094,
      "loss_ce": 0.0014264786150306463,
      "loss_iou": 0.431640625,
      "loss_num": 0.0233154296875,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 439677248,
      "step": 3481
    },
    {
      "epoch": 0.8932213172577439,
      "grad_norm": 100.75383758544922,
      "learning_rate": 5e-06,
      "loss": 0.8593,
      "num_input_tokens_seen": 439803464,
      "step": 3482
    },
    {
      "epoch": 0.8932213172577439,
      "loss": 0.7051931619644165,
      "loss_ce": 0.00035918079083785415,
      "loss_iou": 0.330078125,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.703125,
      "num_input_tokens_seen": 439803464,
      "step": 3482
    },
    {
      "epoch": 0.8934778426216892,
      "grad_norm": 48.23073959350586,
      "learning_rate": 5e-06,
      "loss": 0.9091,
      "num_input_tokens_seen": 439929676,
      "step": 3483
    },
    {
      "epoch": 0.8934778426216892,
      "loss": 0.8114031553268433,
      "loss_ce": 0.00012387189781293273,
      "loss_iou": 0.361328125,
      "loss_num": 0.0177001953125,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 439929676,
      "step": 3483
    },
    {
      "epoch": 0.8937343679856345,
      "grad_norm": 40.21246337890625,
      "learning_rate": 5e-06,
      "loss": 0.9172,
      "num_input_tokens_seen": 440056060,
      "step": 3484
    },
    {
      "epoch": 0.8937343679856345,
      "loss": 0.9171539545059204,
      "loss_ce": 0.00016176214558072388,
      "loss_iou": 0.423828125,
      "loss_num": 0.0135498046875,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 440056060,
      "step": 3484
    },
    {
      "epoch": 0.8939908933495799,
      "grad_norm": 35.6041374206543,
      "learning_rate": 5e-06,
      "loss": 0.9138,
      "num_input_tokens_seen": 440182060,
      "step": 3485
    },
    {
      "epoch": 0.8939908933495799,
      "loss": 0.8882452249526978,
      "loss_ce": 0.0003057711583096534,
      "loss_iou": 0.412109375,
      "loss_num": 0.012939453125,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 440182060,
      "step": 3485
    },
    {
      "epoch": 0.8942474187135253,
      "grad_norm": 32.432220458984375,
      "learning_rate": 5e-06,
      "loss": 0.8823,
      "num_input_tokens_seen": 440307220,
      "step": 3486
    },
    {
      "epoch": 0.8942474187135253,
      "loss": 1.074488878250122,
      "loss_ce": 0.0017349713016301394,
      "loss_iou": 0.49609375,
      "loss_num": 0.01611328125,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 440307220,
      "step": 3486
    },
    {
      "epoch": 0.8945039440774707,
      "grad_norm": 39.51986312866211,
      "learning_rate": 5e-06,
      "loss": 1.0157,
      "num_input_tokens_seen": 440432000,
      "step": 3487
    },
    {
      "epoch": 0.8945039440774707,
      "loss": 0.9156252145767212,
      "loss_ce": 0.004492382984608412,
      "loss_iou": 0.42578125,
      "loss_num": 0.0120849609375,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 440432000,
      "step": 3487
    },
    {
      "epoch": 0.8947604694414161,
      "grad_norm": 41.696922302246094,
      "learning_rate": 5e-06,
      "loss": 0.9143,
      "num_input_tokens_seen": 440558472,
      "step": 3488
    },
    {
      "epoch": 0.8947604694414161,
      "loss": 0.8949086666107178,
      "loss_ce": 0.0030630186665803194,
      "loss_iou": 0.396484375,
      "loss_num": 0.01953125,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 440558472,
      "step": 3488
    },
    {
      "epoch": 0.8950169948053613,
      "grad_norm": 53.55394744873047,
      "learning_rate": 5e-06,
      "loss": 1.0735,
      "num_input_tokens_seen": 440684684,
      "step": 3489
    },
    {
      "epoch": 0.8950169948053613,
      "loss": 1.0796884298324585,
      "loss_ce": 0.003028303850442171,
      "loss_iou": 0.47265625,
      "loss_num": 0.0262451171875,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 440684684,
      "step": 3489
    },
    {
      "epoch": 0.8952735201693067,
      "grad_norm": 54.80255126953125,
      "learning_rate": 5e-06,
      "loss": 1.046,
      "num_input_tokens_seen": 440809900,
      "step": 3490
    },
    {
      "epoch": 0.8952735201693067,
      "loss": 1.0688905715942383,
      "loss_ce": 0.0002870369062293321,
      "loss_iou": 0.474609375,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 440809900,
      "step": 3490
    },
    {
      "epoch": 0.8955300455332521,
      "grad_norm": 63.48841857910156,
      "learning_rate": 5e-06,
      "loss": 0.9201,
      "num_input_tokens_seen": 440937392,
      "step": 3491
    },
    {
      "epoch": 0.8955300455332521,
      "loss": 0.8465408086776733,
      "loss_ce": 0.0013259402476251125,
      "loss_iou": 0.392578125,
      "loss_num": 0.0118408203125,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 440937392,
      "step": 3491
    },
    {
      "epoch": 0.8957865708971975,
      "grad_norm": 53.399166107177734,
      "learning_rate": 5e-06,
      "loss": 0.953,
      "num_input_tokens_seen": 441064292,
      "step": 3492
    },
    {
      "epoch": 0.8957865708971975,
      "loss": 0.7807327508926392,
      "loss_ce": 0.0004593436897266656,
      "loss_iou": 0.375,
      "loss_num": 0.00616455078125,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 441064292,
      "step": 3492
    },
    {
      "epoch": 0.8960430962611429,
      "grad_norm": 31.022838592529297,
      "learning_rate": 5e-06,
      "loss": 0.8332,
      "num_input_tokens_seen": 441189936,
      "step": 3493
    },
    {
      "epoch": 0.8960430962611429,
      "loss": 0.8196207284927368,
      "loss_ce": 0.00028479506727308035,
      "loss_iou": 0.390625,
      "loss_num": 0.0076904296875,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 441189936,
      "step": 3493
    },
    {
      "epoch": 0.8962996216250881,
      "grad_norm": 58.422821044921875,
      "learning_rate": 5e-06,
      "loss": 0.8987,
      "num_input_tokens_seen": 441316788,
      "step": 3494
    },
    {
      "epoch": 0.8962996216250881,
      "loss": 0.831887423992157,
      "loss_ce": 0.0027858330868184566,
      "loss_iou": 0.390625,
      "loss_num": 0.00921630859375,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 441316788,
      "step": 3494
    },
    {
      "epoch": 0.8965561469890335,
      "grad_norm": 34.17292022705078,
      "learning_rate": 5e-06,
      "loss": 0.9805,
      "num_input_tokens_seen": 441441892,
      "step": 3495
    },
    {
      "epoch": 0.8965561469890335,
      "loss": 1.2646539211273193,
      "loss_ce": 0.0009820564882829785,
      "loss_iou": 0.55078125,
      "loss_num": 0.032470703125,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 441441892,
      "step": 3495
    },
    {
      "epoch": 0.8968126723529789,
      "grad_norm": 72.06352233886719,
      "learning_rate": 5e-06,
      "loss": 0.8735,
      "num_input_tokens_seen": 441568816,
      "step": 3496
    },
    {
      "epoch": 0.8968126723529789,
      "loss": 0.8789844512939453,
      "loss_ce": 7.81727212597616e-05,
      "loss_iou": 0.421875,
      "loss_num": 0.006622314453125,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 441568816,
      "step": 3496
    },
    {
      "epoch": 0.8970691977169243,
      "grad_norm": 42.339481353759766,
      "learning_rate": 5e-06,
      "loss": 0.8974,
      "num_input_tokens_seen": 441694836,
      "step": 3497
    },
    {
      "epoch": 0.8970691977169243,
      "loss": 0.8050779700279236,
      "loss_ce": 0.0003904563491232693,
      "loss_iou": 0.3828125,
      "loss_num": 0.007598876953125,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 441694836,
      "step": 3497
    },
    {
      "epoch": 0.8973257230808697,
      "grad_norm": 46.16578674316406,
      "learning_rate": 5e-06,
      "loss": 0.8511,
      "num_input_tokens_seen": 441820296,
      "step": 3498
    },
    {
      "epoch": 0.8973257230808697,
      "loss": 0.8251259922981262,
      "loss_ce": 0.0004189509782008827,
      "loss_iou": 0.396484375,
      "loss_num": 0.00604248046875,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 441820296,
      "step": 3498
    },
    {
      "epoch": 0.8975822484448149,
      "grad_norm": 46.324771881103516,
      "learning_rate": 5e-06,
      "loss": 0.9482,
      "num_input_tokens_seen": 441946708,
      "step": 3499
    },
    {
      "epoch": 0.8975822484448149,
      "loss": 0.9134190082550049,
      "loss_ce": 0.0010655266232788563,
      "loss_iou": 0.42578125,
      "loss_num": 0.01220703125,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 441946708,
      "step": 3499
    },
    {
      "epoch": 0.8978387738087603,
      "grad_norm": 87.24795532226562,
      "learning_rate": 5e-06,
      "loss": 0.9858,
      "num_input_tokens_seen": 442072764,
      "step": 3500
    },
    {
      "epoch": 0.8978387738087603,
      "eval_icons_CIoU": 0.2654718831181526,
      "eval_icons_GIoU": 0.22349807620048523,
      "eval_icons_IoU": 0.44777700304985046,
      "eval_icons_MAE_all": 0.027041063643991947,
      "eval_icons_MAE_h": 0.03446871228516102,
      "eval_icons_MAE_w": 0.06065436080098152,
      "eval_icons_MAE_x_boxes": 0.05538228526711464,
      "eval_icons_MAE_y_boxes": 0.035673145204782486,
      "eval_icons_NUM_probability": 0.9998672604560852,
      "eval_icons_inside_bbox": 0.7239583432674408,
      "eval_icons_loss": 1.6387982368469238,
      "eval_icons_loss_ce": 4.188341881672386e-05,
      "eval_icons_loss_iou": 0.75274658203125,
      "eval_icons_loss_num": 0.029598236083984375,
      "eval_icons_loss_xval": 1.65380859375,
      "eval_icons_runtime": 63.3751,
      "eval_icons_samples_per_second": 0.789,
      "eval_icons_steps_per_second": 0.032,
      "num_input_tokens_seen": 442072764,
      "step": 3500
    },
    {
      "epoch": 0.8978387738087603,
      "eval_screenspot_CIoU": 0.13605733960866928,
      "eval_screenspot_GIoU": 0.12390563388665517,
      "eval_screenspot_IoU": 0.3017067611217499,
      "eval_screenspot_MAE_all": 0.07498623803257942,
      "eval_screenspot_MAE_h": 0.06864214067657788,
      "eval_screenspot_MAE_w": 0.1201626608769099,
      "eval_screenspot_MAE_x_boxes": 0.09734771897395451,
      "eval_screenspot_MAE_y_boxes": 0.0548208753267924,
      "eval_screenspot_NUM_probability": 0.9999479254086813,
      "eval_screenspot_inside_bbox": 0.6254166762034098,
      "eval_screenspot_loss": 2.1713383197784424,
      "eval_screenspot_loss_ce": 0.002350811652528743,
      "eval_screenspot_loss_iou": 0.9013671875,
      "eval_screenspot_loss_num": 0.07902272542317708,
      "eval_screenspot_loss_xval": 2.1969401041666665,
      "eval_screenspot_runtime": 110.3971,
      "eval_screenspot_samples_per_second": 0.806,
      "eval_screenspot_steps_per_second": 0.027,
      "num_input_tokens_seen": 442072764,
      "step": 3500
    },
    {
      "epoch": 0.8978387738087603,
      "loss": 2.1443264484405518,
      "loss_ce": 0.0017482805997133255,
      "loss_iou": 0.89453125,
      "loss_num": 0.07080078125,
      "loss_xval": 2.140625,
      "num_input_tokens_seen": 442072764,
      "step": 3500
    },
    {
      "epoch": 0.8980952991727057,
      "grad_norm": 46.38233947753906,
      "learning_rate": 5e-06,
      "loss": 0.8128,
      "num_input_tokens_seen": 442199348,
      "step": 3501
    },
    {
      "epoch": 0.8980952991727057,
      "loss": 0.6705584526062012,
      "loss_ce": 0.00014835037291049957,
      "loss_iou": 0.318359375,
      "loss_num": 0.006805419921875,
      "loss_xval": 0.671875,
      "num_input_tokens_seen": 442199348,
      "step": 3501
    },
    {
      "epoch": 0.8983518245366511,
      "grad_norm": 53.78159713745117,
      "learning_rate": 5e-06,
      "loss": 0.8524,
      "num_input_tokens_seen": 442325216,
      "step": 3502
    },
    {
      "epoch": 0.8983518245366511,
      "loss": 0.8385587334632874,
      "loss_ce": 0.0006681042723357677,
      "loss_iou": 0.384765625,
      "loss_num": 0.01361083984375,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 442325216,
      "step": 3502
    },
    {
      "epoch": 0.8986083499005965,
      "grad_norm": 44.035343170166016,
      "learning_rate": 5e-06,
      "loss": 1.0783,
      "num_input_tokens_seen": 442450048,
      "step": 3503
    },
    {
      "epoch": 0.8986083499005965,
      "loss": 1.1966700553894043,
      "loss_ce": 0.0028223723638802767,
      "loss_iou": 0.51953125,
      "loss_num": 0.03173828125,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 442450048,
      "step": 3503
    },
    {
      "epoch": 0.8988648752645417,
      "grad_norm": 23.796772003173828,
      "learning_rate": 5e-06,
      "loss": 0.875,
      "num_input_tokens_seen": 442575464,
      "step": 3504
    },
    {
      "epoch": 0.8988648752645417,
      "loss": 0.6904147267341614,
      "loss_ce": 0.0009616065653972328,
      "loss_iou": 0.33203125,
      "loss_num": 0.005157470703125,
      "loss_xval": 0.6875,
      "num_input_tokens_seen": 442575464,
      "step": 3504
    },
    {
      "epoch": 0.8991214006284871,
      "grad_norm": 23.05321502685547,
      "learning_rate": 5e-06,
      "loss": 0.8855,
      "num_input_tokens_seen": 442701156,
      "step": 3505
    },
    {
      "epoch": 0.8991214006284871,
      "loss": 0.9829712510108948,
      "loss_ce": 0.0003051835810765624,
      "loss_iou": 0.431640625,
      "loss_num": 0.0240478515625,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 442701156,
      "step": 3505
    },
    {
      "epoch": 0.8993779259924325,
      "grad_norm": 37.0819091796875,
      "learning_rate": 5e-06,
      "loss": 0.9167,
      "num_input_tokens_seen": 442827108,
      "step": 3506
    },
    {
      "epoch": 0.8993779259924325,
      "loss": 0.9251057505607605,
      "loss_ce": 0.001765865832567215,
      "loss_iou": 0.4296875,
      "loss_num": 0.0123291015625,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 442827108,
      "step": 3506
    },
    {
      "epoch": 0.8996344513563779,
      "grad_norm": 45.012508392333984,
      "learning_rate": 5e-06,
      "loss": 0.9256,
      "num_input_tokens_seen": 442953696,
      "step": 3507
    },
    {
      "epoch": 0.8996344513563779,
      "loss": 1.1885885000228882,
      "loss_ce": 0.00011190435907337815,
      "loss_iou": 0.54296875,
      "loss_num": 0.0205078125,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 442953696,
      "step": 3507
    },
    {
      "epoch": 0.8998909767203233,
      "grad_norm": 52.82979202270508,
      "learning_rate": 5e-06,
      "loss": 0.8228,
      "num_input_tokens_seen": 443080104,
      "step": 3508
    },
    {
      "epoch": 0.8998909767203233,
      "loss": 0.8294578790664673,
      "loss_ce": 0.005361170042306185,
      "loss_iou": 0.37109375,
      "loss_num": 0.015869140625,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 443080104,
      "step": 3508
    },
    {
      "epoch": 0.9001475020842686,
      "grad_norm": 61.6356315612793,
      "learning_rate": 5e-06,
      "loss": 0.8873,
      "num_input_tokens_seen": 443207104,
      "step": 3509
    },
    {
      "epoch": 0.9001475020842686,
      "loss": 0.8206233978271484,
      "loss_ce": 0.0007991431630216539,
      "loss_iou": 0.384765625,
      "loss_num": 0.01031494140625,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 443207104,
      "step": 3509
    },
    {
      "epoch": 0.9004040274482139,
      "grad_norm": 59.79911804199219,
      "learning_rate": 5e-06,
      "loss": 0.9424,
      "num_input_tokens_seen": 443334084,
      "step": 3510
    },
    {
      "epoch": 0.9004040274482139,
      "loss": 1.0409942865371704,
      "loss_ce": 0.007791214156895876,
      "loss_iou": 0.462890625,
      "loss_num": 0.021240234375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 443334084,
      "step": 3510
    },
    {
      "epoch": 0.9006605528121593,
      "grad_norm": 57.79722213745117,
      "learning_rate": 5e-06,
      "loss": 0.8694,
      "num_input_tokens_seen": 443460344,
      "step": 3511
    },
    {
      "epoch": 0.9006605528121593,
      "loss": 0.8211153745651245,
      "loss_ce": 0.0008028781157918274,
      "loss_iou": 0.38671875,
      "loss_num": 0.009033203125,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 443460344,
      "step": 3511
    },
    {
      "epoch": 0.9009170781761047,
      "grad_norm": 97.26219177246094,
      "learning_rate": 5e-06,
      "loss": 0.9486,
      "num_input_tokens_seen": 443585716,
      "step": 3512
    },
    {
      "epoch": 0.9009170781761047,
      "loss": 1.117616891860962,
      "loss_ce": 0.00042932823998853564,
      "loss_iou": 0.515625,
      "loss_num": 0.0177001953125,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 443585716,
      "step": 3512
    },
    {
      "epoch": 0.90117360354005,
      "grad_norm": 47.98212814331055,
      "learning_rate": 5e-06,
      "loss": 0.9914,
      "num_input_tokens_seen": 443711520,
      "step": 3513
    },
    {
      "epoch": 0.90117360354005,
      "loss": 0.7896994948387146,
      "loss_ce": 0.0001486846449552104,
      "loss_iou": 0.375,
      "loss_num": 0.00738525390625,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 443711520,
      "step": 3513
    },
    {
      "epoch": 0.9014301289039954,
      "grad_norm": 45.594024658203125,
      "learning_rate": 5e-06,
      "loss": 0.9398,
      "num_input_tokens_seen": 443837168,
      "step": 3514
    },
    {
      "epoch": 0.9014301289039954,
      "loss": 0.8663794994354248,
      "loss_ce": 0.0011451354948803782,
      "loss_iou": 0.40234375,
      "loss_num": 0.01171875,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 443837168,
      "step": 3514
    },
    {
      "epoch": 0.9016866542679407,
      "grad_norm": 44.8537483215332,
      "learning_rate": 5e-06,
      "loss": 0.9758,
      "num_input_tokens_seen": 443964116,
      "step": 3515
    },
    {
      "epoch": 0.9016866542679407,
      "loss": 0.9496171474456787,
      "loss_ce": 0.003816381096839905,
      "loss_iou": 0.431640625,
      "loss_num": 0.016357421875,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 443964116,
      "step": 3515
    },
    {
      "epoch": 0.9019431796318861,
      "grad_norm": 53.01325225830078,
      "learning_rate": 5e-06,
      "loss": 0.8896,
      "num_input_tokens_seen": 444090036,
      "step": 3516
    },
    {
      "epoch": 0.9019431796318861,
      "loss": 0.8805411458015442,
      "loss_ce": 0.0011466338764876127,
      "loss_iou": 0.41015625,
      "loss_num": 0.01214599609375,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 444090036,
      "step": 3516
    },
    {
      "epoch": 0.9021997049958315,
      "grad_norm": 51.024559020996094,
      "learning_rate": 5e-06,
      "loss": 1.0241,
      "num_input_tokens_seen": 444216560,
      "step": 3517
    },
    {
      "epoch": 0.9021997049958315,
      "loss": 1.1311421394348145,
      "loss_ce": 0.006630385294556618,
      "loss_iou": 0.50390625,
      "loss_num": 0.023681640625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 444216560,
      "step": 3517
    },
    {
      "epoch": 0.9024562303597768,
      "grad_norm": 44.28757858276367,
      "learning_rate": 5e-06,
      "loss": 0.8767,
      "num_input_tokens_seen": 444342192,
      "step": 3518
    },
    {
      "epoch": 0.9024562303597768,
      "loss": 0.9214938879013062,
      "loss_ce": 0.0010837230365723372,
      "loss_iou": 0.4296875,
      "loss_num": 0.0120849609375,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 444342192,
      "step": 3518
    },
    {
      "epoch": 0.9027127557237222,
      "grad_norm": 52.65424346923828,
      "learning_rate": 5e-06,
      "loss": 0.8605,
      "num_input_tokens_seen": 444468660,
      "step": 3519
    },
    {
      "epoch": 0.9027127557237222,
      "loss": 0.9345363974571228,
      "loss_ce": 0.003384036710485816,
      "loss_iou": 0.42578125,
      "loss_num": 0.0162353515625,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 444468660,
      "step": 3519
    },
    {
      "epoch": 0.9029692810876675,
      "grad_norm": 58.502655029296875,
      "learning_rate": 5e-06,
      "loss": 0.8722,
      "num_input_tokens_seen": 444595660,
      "step": 3520
    },
    {
      "epoch": 0.9029692810876675,
      "loss": 0.9721913933753967,
      "loss_ce": 0.0019765368197113276,
      "loss_iou": 0.44140625,
      "loss_num": 0.0179443359375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 444595660,
      "step": 3520
    },
    {
      "epoch": 0.9032258064516129,
      "grad_norm": 46.94337463378906,
      "learning_rate": 5e-06,
      "loss": 0.8831,
      "num_input_tokens_seen": 444721632,
      "step": 3521
    },
    {
      "epoch": 0.9032258064516129,
      "loss": 0.6785579919815063,
      "loss_ce": 0.004241609014570713,
      "loss_iou": 0.326171875,
      "loss_num": 0.00445556640625,
      "loss_xval": 0.67578125,
      "num_input_tokens_seen": 444721632,
      "step": 3521
    },
    {
      "epoch": 0.9034823318155583,
      "grad_norm": 45.724517822265625,
      "learning_rate": 5e-06,
      "loss": 0.914,
      "num_input_tokens_seen": 444847820,
      "step": 3522
    },
    {
      "epoch": 0.9034823318155583,
      "loss": 0.9274861216545105,
      "loss_ce": 0.001704866299405694,
      "loss_iou": 0.439453125,
      "loss_num": 0.00946044921875,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 444847820,
      "step": 3522
    },
    {
      "epoch": 0.9037388571795036,
      "grad_norm": 42.25807189941406,
      "learning_rate": 5e-06,
      "loss": 0.9332,
      "num_input_tokens_seen": 444973040,
      "step": 3523
    },
    {
      "epoch": 0.9037388571795036,
      "loss": 0.9668737649917603,
      "loss_ce": 0.002518265275284648,
      "loss_iou": 0.431640625,
      "loss_num": 0.02001953125,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 444973040,
      "step": 3523
    },
    {
      "epoch": 0.903995382543449,
      "grad_norm": 25.604503631591797,
      "learning_rate": 5e-06,
      "loss": 0.9098,
      "num_input_tokens_seen": 445099168,
      "step": 3524
    },
    {
      "epoch": 0.903995382543449,
      "loss": 0.9530107378959656,
      "loss_ce": 0.005745092872530222,
      "loss_iou": 0.416015625,
      "loss_num": 0.0228271484375,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 445099168,
      "step": 3524
    },
    {
      "epoch": 0.9042519079073943,
      "grad_norm": 44.05077362060547,
      "learning_rate": 5e-06,
      "loss": 0.9523,
      "num_input_tokens_seen": 445223668,
      "step": 3525
    },
    {
      "epoch": 0.9042519079073943,
      "loss": 0.9463621377944946,
      "loss_ce": 0.002026232425123453,
      "loss_iou": 0.427734375,
      "loss_num": 0.018310546875,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 445223668,
      "step": 3525
    },
    {
      "epoch": 0.9045084332713397,
      "grad_norm": 26.812744140625,
      "learning_rate": 5e-06,
      "loss": 0.9285,
      "num_input_tokens_seen": 445349012,
      "step": 3526
    },
    {
      "epoch": 0.9045084332713397,
      "loss": 0.8913105130195618,
      "loss_ce": 0.0011737886816263199,
      "loss_iou": 0.412109375,
      "loss_num": 0.01312255859375,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 445349012,
      "step": 3526
    },
    {
      "epoch": 0.904764958635285,
      "grad_norm": 38.29542541503906,
      "learning_rate": 5e-06,
      "loss": 0.931,
      "num_input_tokens_seen": 445476084,
      "step": 3527
    },
    {
      "epoch": 0.904764958635285,
      "loss": 0.7823600769042969,
      "loss_ce": 0.0006218089838512242,
      "loss_iou": 0.373046875,
      "loss_num": 0.00738525390625,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 445476084,
      "step": 3527
    },
    {
      "epoch": 0.9050214839992304,
      "grad_norm": 56.2513542175293,
      "learning_rate": 5e-06,
      "loss": 0.9113,
      "num_input_tokens_seen": 445602484,
      "step": 3528
    },
    {
      "epoch": 0.9050214839992304,
      "loss": 0.833781361579895,
      "loss_ce": 0.0022383553441613913,
      "loss_iou": 0.3828125,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 445602484,
      "step": 3528
    },
    {
      "epoch": 0.9052780093631758,
      "grad_norm": 47.22053527832031,
      "learning_rate": 5e-06,
      "loss": 0.9416,
      "num_input_tokens_seen": 445728248,
      "step": 3529
    },
    {
      "epoch": 0.9052780093631758,
      "loss": 1.0316959619522095,
      "loss_ce": 0.0009342351695522666,
      "loss_iou": 0.470703125,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 445728248,
      "step": 3529
    },
    {
      "epoch": 0.9055345347271212,
      "grad_norm": 35.72885513305664,
      "learning_rate": 5e-06,
      "loss": 1.0237,
      "num_input_tokens_seen": 445854940,
      "step": 3530
    },
    {
      "epoch": 0.9055345347271212,
      "loss": 0.9220623970031738,
      "loss_ce": 0.00018737863865680993,
      "loss_iou": 0.43359375,
      "loss_num": 0.01104736328125,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 445854940,
      "step": 3530
    },
    {
      "epoch": 0.9057910600910665,
      "grad_norm": 25.30722427368164,
      "learning_rate": 5e-06,
      "loss": 0.936,
      "num_input_tokens_seen": 445981600,
      "step": 3531
    },
    {
      "epoch": 0.9057910600910665,
      "loss": 0.9216327667236328,
      "loss_ce": 0.0017109165200963616,
      "loss_iou": 0.4296875,
      "loss_num": 0.01202392578125,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 445981600,
      "step": 3531
    },
    {
      "epoch": 0.9060475854550119,
      "grad_norm": 28.16413116455078,
      "learning_rate": 5e-06,
      "loss": 0.7903,
      "num_input_tokens_seen": 446107548,
      "step": 3532
    },
    {
      "epoch": 0.9060475854550119,
      "loss": 0.7405537366867065,
      "loss_ce": 0.001295936875976622,
      "loss_iou": 0.341796875,
      "loss_num": 0.01123046875,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 446107548,
      "step": 3532
    },
    {
      "epoch": 0.9063041108189572,
      "grad_norm": 32.50393295288086,
      "learning_rate": 5e-06,
      "loss": 0.7892,
      "num_input_tokens_seen": 446233924,
      "step": 3533
    },
    {
      "epoch": 0.9063041108189572,
      "loss": 0.773316502571106,
      "loss_ce": 0.0013438657624647021,
      "loss_iou": 0.361328125,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 446233924,
      "step": 3533
    },
    {
      "epoch": 0.9065606361829026,
      "grad_norm": 37.29848861694336,
      "learning_rate": 5e-06,
      "loss": 0.8753,
      "num_input_tokens_seen": 446359204,
      "step": 3534
    },
    {
      "epoch": 0.9065606361829026,
      "loss": 1.0286892652511597,
      "loss_ce": 0.0028103869408369064,
      "loss_iou": 0.4765625,
      "loss_num": 0.0147705078125,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 446359204,
      "step": 3534
    },
    {
      "epoch": 0.906817161546848,
      "grad_norm": 29.306903839111328,
      "learning_rate": 5e-06,
      "loss": 0.9663,
      "num_input_tokens_seen": 446486140,
      "step": 3535
    },
    {
      "epoch": 0.906817161546848,
      "loss": 0.9763796329498291,
      "loss_ce": 0.0017702667973935604,
      "loss_iou": 0.443359375,
      "loss_num": 0.017822265625,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 446486140,
      "step": 3535
    },
    {
      "epoch": 0.9070736869107933,
      "grad_norm": 29.029014587402344,
      "learning_rate": 5e-06,
      "loss": 0.9751,
      "num_input_tokens_seen": 446612376,
      "step": 3536
    },
    {
      "epoch": 0.9070736869107933,
      "loss": 0.7437125444412231,
      "loss_ce": 0.0005485069705173373,
      "loss_iou": 0.34375,
      "loss_num": 0.0107421875,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 446612376,
      "step": 3536
    },
    {
      "epoch": 0.9073302122747386,
      "grad_norm": 17.07200813293457,
      "learning_rate": 5e-06,
      "loss": 0.8208,
      "num_input_tokens_seen": 446737408,
      "step": 3537
    },
    {
      "epoch": 0.9073302122747386,
      "loss": 0.6629765033721924,
      "loss_ce": 0.001111278892494738,
      "loss_iou": 0.306640625,
      "loss_num": 0.009521484375,
      "loss_xval": 0.66015625,
      "num_input_tokens_seen": 446737408,
      "step": 3537
    },
    {
      "epoch": 0.907586737638684,
      "grad_norm": 24.991750717163086,
      "learning_rate": 5e-06,
      "loss": 0.7943,
      "num_input_tokens_seen": 446863392,
      "step": 3538
    },
    {
      "epoch": 0.907586737638684,
      "loss": 0.8355567455291748,
      "loss_ce": 0.008408309891819954,
      "loss_iou": 0.37109375,
      "loss_num": 0.016845703125,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 446863392,
      "step": 3538
    },
    {
      "epoch": 0.9078432630026294,
      "grad_norm": 20.243528366088867,
      "learning_rate": 5e-06,
      "loss": 0.8369,
      "num_input_tokens_seen": 446989348,
      "step": 3539
    },
    {
      "epoch": 0.9078432630026294,
      "loss": 0.7361337542533875,
      "loss_ce": 0.0022469796240329742,
      "loss_iou": 0.35546875,
      "loss_num": 0.004241943359375,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 446989348,
      "step": 3539
    },
    {
      "epoch": 0.9080997883665748,
      "grad_norm": 33.501129150390625,
      "learning_rate": 5e-06,
      "loss": 0.9269,
      "num_input_tokens_seen": 447116184,
      "step": 3540
    },
    {
      "epoch": 0.9080997883665748,
      "loss": 0.7837704420089722,
      "loss_ce": 0.0008114438387565315,
      "loss_iou": 0.3515625,
      "loss_num": 0.015625,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 447116184,
      "step": 3540
    },
    {
      "epoch": 0.9083563137305201,
      "grad_norm": 43.51060104370117,
      "learning_rate": 5e-06,
      "loss": 0.8697,
      "num_input_tokens_seen": 447241240,
      "step": 3541
    },
    {
      "epoch": 0.9083563137305201,
      "loss": 0.9702218770980835,
      "loss_ce": 0.001960119465366006,
      "loss_iou": 0.4296875,
      "loss_num": 0.021484375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 447241240,
      "step": 3541
    },
    {
      "epoch": 0.9086128390944654,
      "grad_norm": 55.73686599731445,
      "learning_rate": 5e-06,
      "loss": 0.8724,
      "num_input_tokens_seen": 447367776,
      "step": 3542
    },
    {
      "epoch": 0.9086128390944654,
      "loss": 0.7337223291397095,
      "loss_ce": 0.0008121485006995499,
      "loss_iou": 0.349609375,
      "loss_num": 0.00665283203125,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 447367776,
      "step": 3542
    },
    {
      "epoch": 0.9088693644584108,
      "grad_norm": 54.588218688964844,
      "learning_rate": 5e-06,
      "loss": 0.8397,
      "num_input_tokens_seen": 447494868,
      "step": 3543
    },
    {
      "epoch": 0.9088693644584108,
      "loss": 0.9064417481422424,
      "loss_ce": 0.0011683020275086164,
      "loss_iou": 0.4296875,
      "loss_num": 0.00927734375,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 447494868,
      "step": 3543
    },
    {
      "epoch": 0.9091258898223562,
      "grad_norm": 69.662109375,
      "learning_rate": 5e-06,
      "loss": 0.9427,
      "num_input_tokens_seen": 447621452,
      "step": 3544
    },
    {
      "epoch": 0.9091258898223562,
      "loss": 0.9093494415283203,
      "loss_ce": 0.0021228936966508627,
      "loss_iou": 0.42578125,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 447621452,
      "step": 3544
    },
    {
      "epoch": 0.9093824151863016,
      "grad_norm": 45.868526458740234,
      "learning_rate": 5e-06,
      "loss": 1.0042,
      "num_input_tokens_seen": 447747044,
      "step": 3545
    },
    {
      "epoch": 0.9093824151863016,
      "loss": 0.877912700176239,
      "loss_ce": 0.0009595580631867051,
      "loss_iou": 0.421875,
      "loss_num": 0.006561279296875,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 447747044,
      "step": 3545
    },
    {
      "epoch": 0.9096389405502469,
      "grad_norm": 31.22001075744629,
      "learning_rate": 5e-06,
      "loss": 0.9164,
      "num_input_tokens_seen": 447872636,
      "step": 3546
    },
    {
      "epoch": 0.9096389405502469,
      "loss": 0.9559316635131836,
      "loss_ce": 0.00305080134421587,
      "loss_iou": 0.41796875,
      "loss_num": 0.0235595703125,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 447872636,
      "step": 3546
    },
    {
      "epoch": 0.9098954659141922,
      "grad_norm": 31.076433181762695,
      "learning_rate": 5e-06,
      "loss": 0.859,
      "num_input_tokens_seen": 447998564,
      "step": 3547
    },
    {
      "epoch": 0.9098954659141922,
      "loss": 0.8893541097640991,
      "loss_ce": 0.0006822406430728734,
      "loss_iou": 0.419921875,
      "loss_num": 0.00994873046875,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 447998564,
      "step": 3547
    },
    {
      "epoch": 0.9101519912781376,
      "grad_norm": 32.137046813964844,
      "learning_rate": 5e-06,
      "loss": 0.861,
      "num_input_tokens_seen": 448125348,
      "step": 3548
    },
    {
      "epoch": 0.9101519912781376,
      "loss": 0.7507063150405884,
      "loss_ce": 0.0009504628833383322,
      "loss_iou": 0.34765625,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.75,
      "num_input_tokens_seen": 448125348,
      "step": 3548
    },
    {
      "epoch": 0.910408516642083,
      "grad_norm": 29.698827743530273,
      "learning_rate": 5e-06,
      "loss": 0.8532,
      "num_input_tokens_seen": 448251052,
      "step": 3549
    },
    {
      "epoch": 0.910408516642083,
      "loss": 0.7895252704620361,
      "loss_ce": 0.0009510432719253004,
      "loss_iou": 0.37890625,
      "loss_num": 0.006439208984375,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 448251052,
      "step": 3549
    },
    {
      "epoch": 0.9106650420060284,
      "grad_norm": 25.09073829650879,
      "learning_rate": 5e-06,
      "loss": 1.02,
      "num_input_tokens_seen": 448376396,
      "step": 3550
    },
    {
      "epoch": 0.9106650420060284,
      "loss": 0.967451810836792,
      "loss_ce": 0.002852232661098242,
      "loss_iou": 0.447265625,
      "loss_num": 0.01416015625,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 448376396,
      "step": 3550
    },
    {
      "epoch": 0.9109215673699738,
      "grad_norm": 30.87039566040039,
      "learning_rate": 5e-06,
      "loss": 0.912,
      "num_input_tokens_seen": 448503012,
      "step": 3551
    },
    {
      "epoch": 0.9109215673699738,
      "loss": 0.9961769580841064,
      "loss_ce": 0.0005714566214010119,
      "loss_iou": 0.45703125,
      "loss_num": 0.0162353515625,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 448503012,
      "step": 3551
    },
    {
      "epoch": 0.911178092733919,
      "grad_norm": 47.42852783203125,
      "learning_rate": 5e-06,
      "loss": 0.8658,
      "num_input_tokens_seen": 448628396,
      "step": 3552
    },
    {
      "epoch": 0.911178092733919,
      "loss": 0.8807763457298279,
      "loss_ce": 0.00040522898780182004,
      "loss_iou": 0.412109375,
      "loss_num": 0.01165771484375,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 448628396,
      "step": 3552
    },
    {
      "epoch": 0.9114346180978644,
      "grad_norm": 46.73428726196289,
      "learning_rate": 5e-06,
      "loss": 0.9065,
      "num_input_tokens_seen": 448755092,
      "step": 3553
    },
    {
      "epoch": 0.9114346180978644,
      "loss": 0.9566335678100586,
      "loss_ce": 9.056551789399236e-05,
      "loss_iou": 0.453125,
      "loss_num": 0.01007080078125,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 448755092,
      "step": 3553
    },
    {
      "epoch": 0.9116911434618098,
      "grad_norm": 41.932430267333984,
      "learning_rate": 5e-06,
      "loss": 0.893,
      "num_input_tokens_seen": 448882040,
      "step": 3554
    },
    {
      "epoch": 0.9116911434618098,
      "loss": 0.7321056723594666,
      "loss_ce": 0.00017206420307047665,
      "loss_iou": 0.341796875,
      "loss_num": 0.009765625,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 448882040,
      "step": 3554
    },
    {
      "epoch": 0.9119476688257552,
      "grad_norm": 52.546939849853516,
      "learning_rate": 5e-06,
      "loss": 0.8637,
      "num_input_tokens_seen": 449009772,
      "step": 3555
    },
    {
      "epoch": 0.9119476688257552,
      "loss": 0.8133898377418518,
      "loss_ce": 0.0006457075942307711,
      "loss_iou": 0.384765625,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 449009772,
      "step": 3555
    },
    {
      "epoch": 0.9122041941897006,
      "grad_norm": 60.80083465576172,
      "learning_rate": 5e-06,
      "loss": 0.9484,
      "num_input_tokens_seen": 449136108,
      "step": 3556
    },
    {
      "epoch": 0.9122041941897006,
      "loss": 0.7951382398605347,
      "loss_ce": 0.0007046492537483573,
      "loss_iou": 0.369140625,
      "loss_num": 0.01123046875,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 449136108,
      "step": 3556
    },
    {
      "epoch": 0.9124607195536458,
      "grad_norm": 46.38669204711914,
      "learning_rate": 5e-06,
      "loss": 0.9402,
      "num_input_tokens_seen": 449263896,
      "step": 3557
    },
    {
      "epoch": 0.9124607195536458,
      "loss": 0.962466835975647,
      "loss_ce": 0.0010409834794700146,
      "loss_iou": 0.4375,
      "loss_num": 0.017333984375,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 449263896,
      "step": 3557
    },
    {
      "epoch": 0.9127172449175912,
      "grad_norm": 32.94407272338867,
      "learning_rate": 5e-06,
      "loss": 0.7165,
      "num_input_tokens_seen": 449389812,
      "step": 3558
    },
    {
      "epoch": 0.9127172449175912,
      "loss": 0.7186746597290039,
      "loss_ce": 0.0009012097143568099,
      "loss_iou": 0.341796875,
      "loss_num": 0.007080078125,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 449389812,
      "step": 3558
    },
    {
      "epoch": 0.9129737702815366,
      "grad_norm": 38.93385696411133,
      "learning_rate": 5e-06,
      "loss": 0.9362,
      "num_input_tokens_seen": 449516076,
      "step": 3559
    },
    {
      "epoch": 0.9129737702815366,
      "loss": 0.7839512228965759,
      "loss_ce": 0.00050395104335621,
      "loss_iou": 0.3671875,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 449516076,
      "step": 3559
    },
    {
      "epoch": 0.913230295645482,
      "grad_norm": 39.94411087036133,
      "learning_rate": 5e-06,
      "loss": 0.9397,
      "num_input_tokens_seen": 449642108,
      "step": 3560
    },
    {
      "epoch": 0.913230295645482,
      "loss": 0.9796422719955444,
      "loss_ce": 0.0006384333246387541,
      "loss_iou": 0.455078125,
      "loss_num": 0.0137939453125,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 449642108,
      "step": 3560
    },
    {
      "epoch": 0.9134868210094274,
      "grad_norm": 66.95171356201172,
      "learning_rate": 5e-06,
      "loss": 1.0358,
      "num_input_tokens_seen": 449768256,
      "step": 3561
    },
    {
      "epoch": 0.9134868210094274,
      "loss": 0.8995403051376343,
      "loss_ce": 0.004032548982650042,
      "loss_iou": 0.408203125,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 449768256,
      "step": 3561
    },
    {
      "epoch": 0.9137433463733726,
      "grad_norm": 60.34748458862305,
      "learning_rate": 5e-06,
      "loss": 0.9017,
      "num_input_tokens_seen": 449895892,
      "step": 3562
    },
    {
      "epoch": 0.9137433463733726,
      "loss": 0.760934591293335,
      "loss_ce": 0.00043656484922394156,
      "loss_iou": 0.361328125,
      "loss_num": 0.00762939453125,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 449895892,
      "step": 3562
    },
    {
      "epoch": 0.913999871737318,
      "grad_norm": 51.024227142333984,
      "learning_rate": 5e-06,
      "loss": 0.9594,
      "num_input_tokens_seen": 450023040,
      "step": 3563
    },
    {
      "epoch": 0.913999871737318,
      "loss": 1.0174822807312012,
      "loss_ce": 0.0028338762931525707,
      "loss_iou": 0.451171875,
      "loss_num": 0.022705078125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 450023040,
      "step": 3563
    },
    {
      "epoch": 0.9142563971012634,
      "grad_norm": 23.56356430053711,
      "learning_rate": 5e-06,
      "loss": 0.7902,
      "num_input_tokens_seen": 450151016,
      "step": 3564
    },
    {
      "epoch": 0.9142563971012634,
      "loss": 0.7439143657684326,
      "loss_ce": 0.0005061838892288506,
      "loss_iou": 0.35546875,
      "loss_num": 0.0067138671875,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 450151016,
      "step": 3564
    },
    {
      "epoch": 0.9145129224652088,
      "grad_norm": 38.1552619934082,
      "learning_rate": 5e-06,
      "loss": 0.9373,
      "num_input_tokens_seen": 450277132,
      "step": 3565
    },
    {
      "epoch": 0.9145129224652088,
      "loss": 0.7573054432868958,
      "loss_ce": 0.00046950666001066566,
      "loss_iou": 0.359375,
      "loss_num": 0.00738525390625,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 450277132,
      "step": 3565
    },
    {
      "epoch": 0.9147694478291541,
      "grad_norm": 38.852298736572266,
      "learning_rate": 5e-06,
      "loss": 0.9107,
      "num_input_tokens_seen": 450403884,
      "step": 3566
    },
    {
      "epoch": 0.9147694478291541,
      "loss": 0.8297868371009827,
      "loss_ce": 0.00019696576055139303,
      "loss_iou": 0.390625,
      "loss_num": 0.00994873046875,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 450403884,
      "step": 3566
    },
    {
      "epoch": 0.9150259731930994,
      "grad_norm": 46.44561767578125,
      "learning_rate": 5e-06,
      "loss": 0.9108,
      "num_input_tokens_seen": 450530036,
      "step": 3567
    },
    {
      "epoch": 0.9150259731930994,
      "loss": 0.910895824432373,
      "loss_ce": 0.003913380671292543,
      "loss_iou": 0.404296875,
      "loss_num": 0.0194091796875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 450530036,
      "step": 3567
    },
    {
      "epoch": 0.9152824985570448,
      "grad_norm": 36.37361145019531,
      "learning_rate": 5e-06,
      "loss": 0.9989,
      "num_input_tokens_seen": 450656160,
      "step": 3568
    },
    {
      "epoch": 0.9152824985570448,
      "loss": 1.080442190170288,
      "loss_ce": 0.00036418650415726006,
      "loss_iou": 0.49609375,
      "loss_num": 0.017333984375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 450656160,
      "step": 3568
    },
    {
      "epoch": 0.9155390239209902,
      "grad_norm": 45.88718795776367,
      "learning_rate": 5e-06,
      "loss": 0.7905,
      "num_input_tokens_seen": 450783064,
      "step": 3569
    },
    {
      "epoch": 0.9155390239209902,
      "loss": 0.9332125782966614,
      "loss_ce": 0.003036813111975789,
      "loss_iou": 0.423828125,
      "loss_num": 0.0162353515625,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 450783064,
      "step": 3569
    },
    {
      "epoch": 0.9157955492849356,
      "grad_norm": 54.20616149902344,
      "learning_rate": 5e-06,
      "loss": 0.9388,
      "num_input_tokens_seen": 450909132,
      "step": 3570
    },
    {
      "epoch": 0.9157955492849356,
      "loss": 0.7763097286224365,
      "loss_ce": 0.0028722588904201984,
      "loss_iou": 0.36328125,
      "loss_num": 0.00897216796875,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 450909132,
      "step": 3570
    },
    {
      "epoch": 0.9160520746488809,
      "grad_norm": 56.94639205932617,
      "learning_rate": 5e-06,
      "loss": 0.8622,
      "num_input_tokens_seen": 451035772,
      "step": 3571
    },
    {
      "epoch": 0.9160520746488809,
      "loss": 0.7380505204200745,
      "loss_ce": 0.0024548314977437258,
      "loss_iou": 0.341796875,
      "loss_num": 0.0103759765625,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 451035772,
      "step": 3571
    },
    {
      "epoch": 0.9163086000128262,
      "grad_norm": 44.200870513916016,
      "learning_rate": 5e-06,
      "loss": 0.9807,
      "num_input_tokens_seen": 451162696,
      "step": 3572
    },
    {
      "epoch": 0.9163086000128262,
      "loss": 1.127568006515503,
      "loss_ce": 0.002079758094623685,
      "loss_iou": 0.53125,
      "loss_num": 0.012451171875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 451162696,
      "step": 3572
    },
    {
      "epoch": 0.9165651253767716,
      "grad_norm": 78.45826721191406,
      "learning_rate": 5e-06,
      "loss": 0.8828,
      "num_input_tokens_seen": 451288544,
      "step": 3573
    },
    {
      "epoch": 0.9165651253767716,
      "loss": 0.7745845317840576,
      "loss_ce": 0.0031001700554043055,
      "loss_iou": 0.349609375,
      "loss_num": 0.013916015625,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 451288544,
      "step": 3573
    },
    {
      "epoch": 0.916821650740717,
      "grad_norm": 374.9405822753906,
      "learning_rate": 5e-06,
      "loss": 0.9584,
      "num_input_tokens_seen": 451416008,
      "step": 3574
    },
    {
      "epoch": 0.916821650740717,
      "loss": 1.0144587755203247,
      "loss_ce": 0.003716591279953718,
      "loss_iou": 0.455078125,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 451416008,
      "step": 3574
    },
    {
      "epoch": 0.9170781761046624,
      "grad_norm": 54.926761627197266,
      "learning_rate": 5e-06,
      "loss": 0.9177,
      "num_input_tokens_seen": 451542784,
      "step": 3575
    },
    {
      "epoch": 0.9170781761046624,
      "loss": 0.9802862405776978,
      "loss_ce": 0.0007940400973893702,
      "loss_iou": 0.44921875,
      "loss_num": 0.0162353515625,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 451542784,
      "step": 3575
    },
    {
      "epoch": 0.9173347014686077,
      "grad_norm": 55.24159622192383,
      "learning_rate": 5e-06,
      "loss": 0.9116,
      "num_input_tokens_seen": 451668940,
      "step": 3576
    },
    {
      "epoch": 0.9173347014686077,
      "loss": 0.7721350193023682,
      "loss_ce": 0.0006505917990580201,
      "loss_iou": 0.369140625,
      "loss_num": 0.0068359375,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 451668940,
      "step": 3576
    },
    {
      "epoch": 0.9175912268325531,
      "grad_norm": 55.0659065246582,
      "learning_rate": 5e-06,
      "loss": 0.914,
      "num_input_tokens_seen": 451795444,
      "step": 3577
    },
    {
      "epoch": 0.9175912268325531,
      "loss": 0.8302195072174072,
      "loss_ce": 0.0016062329523265362,
      "loss_iou": 0.3671875,
      "loss_num": 0.01904296875,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 451795444,
      "step": 3577
    },
    {
      "epoch": 0.9178477521964984,
      "grad_norm": 39.24929428100586,
      "learning_rate": 5e-06,
      "loss": 0.9625,
      "num_input_tokens_seen": 451920896,
      "step": 3578
    },
    {
      "epoch": 0.9178477521964984,
      "loss": 0.9146767258644104,
      "loss_ce": 0.002811483573168516,
      "loss_iou": 0.419921875,
      "loss_num": 0.01458740234375,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 451920896,
      "step": 3578
    },
    {
      "epoch": 0.9181042775604438,
      "grad_norm": 25.633136749267578,
      "learning_rate": 5e-06,
      "loss": 0.8703,
      "num_input_tokens_seen": 452047252,
      "step": 3579
    },
    {
      "epoch": 0.9181042775604438,
      "loss": 0.7458038330078125,
      "loss_ce": 0.00044251521467231214,
      "loss_iou": 0.3515625,
      "loss_num": 0.008544921875,
      "loss_xval": 0.74609375,
      "num_input_tokens_seen": 452047252,
      "step": 3579
    },
    {
      "epoch": 0.9183608029243892,
      "grad_norm": 27.30088233947754,
      "learning_rate": 5e-06,
      "loss": 0.8912,
      "num_input_tokens_seen": 452174380,
      "step": 3580
    },
    {
      "epoch": 0.9183608029243892,
      "loss": 0.9592449069023132,
      "loss_ce": 0.0007487643742933869,
      "loss_iou": 0.4453125,
      "loss_num": 0.01336669921875,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 452174380,
      "step": 3580
    },
    {
      "epoch": 0.9186173282883345,
      "grad_norm": 32.88852310180664,
      "learning_rate": 5e-06,
      "loss": 0.8588,
      "num_input_tokens_seen": 452301304,
      "step": 3581
    },
    {
      "epoch": 0.9186173282883345,
      "loss": 1.1653746366500854,
      "loss_ce": 0.000823814538307488,
      "loss_iou": 0.5234375,
      "loss_num": 0.0240478515625,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 452301304,
      "step": 3581
    },
    {
      "epoch": 0.9188738536522799,
      "grad_norm": 46.7718620300293,
      "learning_rate": 5e-06,
      "loss": 0.8391,
      "num_input_tokens_seen": 452428916,
      "step": 3582
    },
    {
      "epoch": 0.9188738536522799,
      "loss": 0.8042782545089722,
      "loss_ce": 0.0005673380801454186,
      "loss_iou": 0.37890625,
      "loss_num": 0.00909423828125,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 452428916,
      "step": 3582
    },
    {
      "epoch": 0.9191303790162252,
      "grad_norm": 34.7113037109375,
      "learning_rate": 5e-06,
      "loss": 0.8511,
      "num_input_tokens_seen": 452553180,
      "step": 3583
    },
    {
      "epoch": 0.9191303790162252,
      "loss": 0.8503733277320862,
      "loss_ce": 0.001740533858537674,
      "loss_iou": 0.396484375,
      "loss_num": 0.01092529296875,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 452553180,
      "step": 3583
    },
    {
      "epoch": 0.9193869043801706,
      "grad_norm": 23.291885375976562,
      "learning_rate": 5e-06,
      "loss": 0.8714,
      "num_input_tokens_seen": 452680548,
      "step": 3584
    },
    {
      "epoch": 0.9193869043801706,
      "loss": 0.9060357809066772,
      "loss_ce": 0.001250644912943244,
      "loss_iou": 0.42578125,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 452680548,
      "step": 3584
    },
    {
      "epoch": 0.919643429744116,
      "grad_norm": 29.620586395263672,
      "learning_rate": 5e-06,
      "loss": 0.8036,
      "num_input_tokens_seen": 452807456,
      "step": 3585
    },
    {
      "epoch": 0.919643429744116,
      "loss": 0.7334659695625305,
      "loss_ce": 0.001532346592284739,
      "loss_iou": 0.3515625,
      "loss_num": 0.00616455078125,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 452807456,
      "step": 3585
    },
    {
      "epoch": 0.9198999551080613,
      "grad_norm": 57.58934783935547,
      "learning_rate": 5e-06,
      "loss": 0.8835,
      "num_input_tokens_seen": 452932564,
      "step": 3586
    },
    {
      "epoch": 0.9198999551080613,
      "loss": 0.8320668935775757,
      "loss_ce": 0.004918421618640423,
      "loss_iou": 0.376953125,
      "loss_num": 0.0145263671875,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 452932564,
      "step": 3586
    },
    {
      "epoch": 0.9201564804720067,
      "grad_norm": 52.12625503540039,
      "learning_rate": 5e-06,
      "loss": 0.8993,
      "num_input_tokens_seen": 453058740,
      "step": 3587
    },
    {
      "epoch": 0.9201564804720067,
      "loss": 0.8211240768432617,
      "loss_ce": 0.0032529851887375116,
      "loss_iou": 0.37890625,
      "loss_num": 0.01214599609375,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 453058740,
      "step": 3587
    },
    {
      "epoch": 0.920413005835952,
      "grad_norm": 61.159114837646484,
      "learning_rate": 5e-06,
      "loss": 0.9127,
      "num_input_tokens_seen": 453186036,
      "step": 3588
    },
    {
      "epoch": 0.920413005835952,
      "loss": 1.0000274181365967,
      "loss_ce": 0.0005156383849680424,
      "loss_iou": 0.4609375,
      "loss_num": 0.0152587890625,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 453186036,
      "step": 3588
    },
    {
      "epoch": 0.9206695311998974,
      "grad_norm": 46.093658447265625,
      "learning_rate": 5e-06,
      "loss": 1.0092,
      "num_input_tokens_seen": 453311944,
      "step": 3589
    },
    {
      "epoch": 0.9206695311998974,
      "loss": 0.9159447550773621,
      "loss_ce": 0.00041744066402316093,
      "loss_iou": 0.4375,
      "loss_num": 0.00823974609375,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 453311944,
      "step": 3589
    },
    {
      "epoch": 0.9209260565638427,
      "grad_norm": 16.026203155517578,
      "learning_rate": 5e-06,
      "loss": 0.9792,
      "num_input_tokens_seen": 453437612,
      "step": 3590
    },
    {
      "epoch": 0.9209260565638427,
      "loss": 0.9551845788955688,
      "loss_ce": 0.0030361248645931482,
      "loss_iou": 0.427734375,
      "loss_num": 0.0194091796875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 453437612,
      "step": 3590
    },
    {
      "epoch": 0.9211825819277881,
      "grad_norm": 24.938465118408203,
      "learning_rate": 5e-06,
      "loss": 0.8859,
      "num_input_tokens_seen": 453563296,
      "step": 3591
    },
    {
      "epoch": 0.9211825819277881,
      "loss": 0.7368862628936768,
      "loss_ce": 0.0020230235531926155,
      "loss_iou": 0.345703125,
      "loss_num": 0.00860595703125,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 453563296,
      "step": 3591
    },
    {
      "epoch": 0.9214391072917335,
      "grad_norm": 39.061153411865234,
      "learning_rate": 5e-06,
      "loss": 0.8627,
      "num_input_tokens_seen": 453689440,
      "step": 3592
    },
    {
      "epoch": 0.9214391072917335,
      "loss": 0.8733949661254883,
      "loss_ce": 0.0023012193851172924,
      "loss_iou": 0.41796875,
      "loss_num": 0.00732421875,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 453689440,
      "step": 3592
    },
    {
      "epoch": 0.9216956326556788,
      "grad_norm": 60.24197006225586,
      "learning_rate": 5e-06,
      "loss": 0.944,
      "num_input_tokens_seen": 453816548,
      "step": 3593
    },
    {
      "epoch": 0.9216956326556788,
      "loss": 0.9968253374099731,
      "loss_ce": 0.0021964095067232847,
      "loss_iou": 0.453125,
      "loss_num": 0.017578125,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 453816548,
      "step": 3593
    },
    {
      "epoch": 0.9219521580196242,
      "grad_norm": 67.1270751953125,
      "learning_rate": 5e-06,
      "loss": 1.0212,
      "num_input_tokens_seen": 453942516,
      "step": 3594
    },
    {
      "epoch": 0.9219521580196242,
      "loss": 1.1927027702331543,
      "loss_ce": 0.0012964674970135093,
      "loss_iou": 0.5234375,
      "loss_num": 0.0284423828125,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 453942516,
      "step": 3594
    },
    {
      "epoch": 0.9222086833835695,
      "grad_norm": 46.8626823425293,
      "learning_rate": 5e-06,
      "loss": 0.908,
      "num_input_tokens_seen": 454068868,
      "step": 3595
    },
    {
      "epoch": 0.9222086833835695,
      "loss": 0.8053247928619385,
      "loss_ce": 0.00014900733367539942,
      "loss_iou": 0.3828125,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 454068868,
      "step": 3595
    },
    {
      "epoch": 0.9224652087475149,
      "grad_norm": 33.43415832519531,
      "learning_rate": 5e-06,
      "loss": 0.8109,
      "num_input_tokens_seen": 454194348,
      "step": 3596
    },
    {
      "epoch": 0.9224652087475149,
      "loss": 0.7763883471488953,
      "loss_ce": 0.0005094447988085449,
      "loss_iou": 0.375,
      "loss_num": 0.00555419921875,
      "loss_xval": 0.77734375,
      "num_input_tokens_seen": 454194348,
      "step": 3596
    },
    {
      "epoch": 0.9227217341114603,
      "grad_norm": 33.79922866821289,
      "learning_rate": 5e-06,
      "loss": 0.7817,
      "num_input_tokens_seen": 454320176,
      "step": 3597
    },
    {
      "epoch": 0.9227217341114603,
      "loss": 0.8497979640960693,
      "loss_ce": 0.0001886047248262912,
      "loss_iou": 0.38671875,
      "loss_num": 0.01513671875,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 454320176,
      "step": 3597
    },
    {
      "epoch": 0.9229782594754057,
      "grad_norm": 32.944217681884766,
      "learning_rate": 5e-06,
      "loss": 0.9339,
      "num_input_tokens_seen": 454445352,
      "step": 3598
    },
    {
      "epoch": 0.9229782594754057,
      "loss": 0.923587441444397,
      "loss_ce": 0.001712408266030252,
      "loss_iou": 0.41796875,
      "loss_num": 0.0172119140625,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 454445352,
      "step": 3598
    },
    {
      "epoch": 0.923234784839351,
      "grad_norm": 31.126129150390625,
      "learning_rate": 5e-06,
      "loss": 0.8728,
      "num_input_tokens_seen": 454572012,
      "step": 3599
    },
    {
      "epoch": 0.923234784839351,
      "loss": 1.0917811393737793,
      "loss_ce": 0.0019373171962797642,
      "loss_iou": 0.5078125,
      "loss_num": 0.0146484375,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 454572012,
      "step": 3599
    },
    {
      "epoch": 0.9234913102032963,
      "grad_norm": 27.537437438964844,
      "learning_rate": 5e-06,
      "loss": 0.9779,
      "num_input_tokens_seen": 454699700,
      "step": 3600
    },
    {
      "epoch": 0.9234913102032963,
      "loss": 0.8416576385498047,
      "loss_ce": 0.00010485924576641992,
      "loss_iou": 0.390625,
      "loss_num": 0.0118408203125,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 454699700,
      "step": 3600
    },
    {
      "epoch": 0.9237478355672417,
      "grad_norm": 42.39928436279297,
      "learning_rate": 5e-06,
      "loss": 0.9024,
      "num_input_tokens_seen": 454826896,
      "step": 3601
    },
    {
      "epoch": 0.9237478355672417,
      "loss": 0.9392867684364319,
      "loss_ce": 0.000321900995913893,
      "loss_iou": 0.43359375,
      "loss_num": 0.01409912109375,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 454826896,
      "step": 3601
    },
    {
      "epoch": 0.9240043609311871,
      "grad_norm": 62.7063102722168,
      "learning_rate": 5e-06,
      "loss": 0.8097,
      "num_input_tokens_seen": 454952152,
      "step": 3602
    },
    {
      "epoch": 0.9240043609311871,
      "loss": 0.8290905952453613,
      "loss_ce": 0.00047733503743074834,
      "loss_iou": 0.3828125,
      "loss_num": 0.0123291015625,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 454952152,
      "step": 3602
    },
    {
      "epoch": 0.9242608862951325,
      "grad_norm": 52.665802001953125,
      "learning_rate": 5e-06,
      "loss": 0.893,
      "num_input_tokens_seen": 455078584,
      "step": 3603
    },
    {
      "epoch": 0.9242608862951325,
      "loss": 0.8709479570388794,
      "loss_ce": 0.0013190761674195528,
      "loss_iou": 0.40625,
      "loss_num": 0.01153564453125,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 455078584,
      "step": 3603
    },
    {
      "epoch": 0.9245174116590777,
      "grad_norm": 58.03290939331055,
      "learning_rate": 5e-06,
      "loss": 0.7812,
      "num_input_tokens_seen": 455205408,
      "step": 3604
    },
    {
      "epoch": 0.9245174116590777,
      "loss": 0.7831684350967407,
      "loss_ce": 0.0009418905829079449,
      "loss_iou": 0.357421875,
      "loss_num": 0.01336669921875,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 455205408,
      "step": 3604
    },
    {
      "epoch": 0.9247739370230231,
      "grad_norm": 45.604888916015625,
      "learning_rate": 5e-06,
      "loss": 1.0439,
      "num_input_tokens_seen": 455331492,
      "step": 3605
    },
    {
      "epoch": 0.9247739370230231,
      "loss": 0.974195122718811,
      "loss_ce": 0.0005623459001071751,
      "loss_iou": 0.455078125,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 455331492,
      "step": 3605
    },
    {
      "epoch": 0.9250304623869685,
      "grad_norm": 17.472393035888672,
      "learning_rate": 5e-06,
      "loss": 0.7814,
      "num_input_tokens_seen": 455457104,
      "step": 3606
    },
    {
      "epoch": 0.9250304623869685,
      "loss": 0.8266090750694275,
      "loss_ce": 0.0019020545296370983,
      "loss_iou": 0.38671875,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 455457104,
      "step": 3606
    },
    {
      "epoch": 0.9252869877509139,
      "grad_norm": 22.610918045043945,
      "learning_rate": 5e-06,
      "loss": 0.9,
      "num_input_tokens_seen": 455583380,
      "step": 3607
    },
    {
      "epoch": 0.9252869877509139,
      "loss": 1.0453102588653564,
      "loss_ce": 0.0003884239122271538,
      "loss_iou": 0.478515625,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 455583380,
      "step": 3607
    },
    {
      "epoch": 0.9255435131148593,
      "grad_norm": 28.802215576171875,
      "learning_rate": 5e-06,
      "loss": 0.8824,
      "num_input_tokens_seen": 455709616,
      "step": 3608
    },
    {
      "epoch": 0.9255435131148593,
      "loss": 0.7435708045959473,
      "loss_ce": 0.0001626167504582554,
      "loss_iou": 0.35546875,
      "loss_num": 0.0064697265625,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 455709616,
      "step": 3608
    },
    {
      "epoch": 0.9258000384788045,
      "grad_norm": 32.86478042602539,
      "learning_rate": 5e-06,
      "loss": 0.9994,
      "num_input_tokens_seen": 455834816,
      "step": 3609
    },
    {
      "epoch": 0.9258000384788045,
      "loss": 0.9032742381095886,
      "loss_ce": 0.0033718880731612444,
      "loss_iou": 0.4296875,
      "loss_num": 0.00823974609375,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 455834816,
      "step": 3609
    },
    {
      "epoch": 0.9260565638427499,
      "grad_norm": 46.2650146484375,
      "learning_rate": 5e-06,
      "loss": 0.9291,
      "num_input_tokens_seen": 455961152,
      "step": 3610
    },
    {
      "epoch": 0.9260565638427499,
      "loss": 0.9017542600631714,
      "loss_ce": 0.002340232487767935,
      "loss_iou": 0.408203125,
      "loss_num": 0.0166015625,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 455961152,
      "step": 3610
    },
    {
      "epoch": 0.9263130892066953,
      "grad_norm": 48.566314697265625,
      "learning_rate": 5e-06,
      "loss": 1.0094,
      "num_input_tokens_seen": 456087856,
      "step": 3611
    },
    {
      "epoch": 0.9263130892066953,
      "loss": 1.0985465049743652,
      "loss_ce": 0.0008902645204216242,
      "loss_iou": 0.498046875,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 456087856,
      "step": 3611
    },
    {
      "epoch": 0.9265696145706407,
      "grad_norm": 52.738258361816406,
      "learning_rate": 5e-06,
      "loss": 0.9319,
      "num_input_tokens_seen": 456214648,
      "step": 3612
    },
    {
      "epoch": 0.9265696145706407,
      "loss": 1.1087466478347778,
      "loss_ce": 0.00034821435110643506,
      "loss_iou": 0.498046875,
      "loss_num": 0.0224609375,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 456214648,
      "step": 3612
    },
    {
      "epoch": 0.9268261399345861,
      "grad_norm": 87.74256134033203,
      "learning_rate": 5e-06,
      "loss": 1.0374,
      "num_input_tokens_seen": 456340876,
      "step": 3613
    },
    {
      "epoch": 0.9268261399345861,
      "loss": 1.212399959564209,
      "loss_ce": 0.002927233465015888,
      "loss_iou": 0.55859375,
      "loss_num": 0.0184326171875,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 456340876,
      "step": 3613
    },
    {
      "epoch": 0.9270826652985313,
      "grad_norm": 34.726375579833984,
      "learning_rate": 5e-06,
      "loss": 0.9775,
      "num_input_tokens_seen": 456466792,
      "step": 3614
    },
    {
      "epoch": 0.9270826652985313,
      "loss": 1.0891778469085693,
      "loss_ce": 0.003240433521568775,
      "loss_iou": 0.48828125,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 456466792,
      "step": 3614
    },
    {
      "epoch": 0.9273391906624767,
      "grad_norm": 42.018211364746094,
      "learning_rate": 5e-06,
      "loss": 0.9414,
      "num_input_tokens_seen": 456592720,
      "step": 3615
    },
    {
      "epoch": 0.9273391906624767,
      "loss": 0.7270696759223938,
      "loss_ce": 0.0009954444831237197,
      "loss_iou": 0.345703125,
      "loss_num": 0.00689697265625,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 456592720,
      "step": 3615
    },
    {
      "epoch": 0.9275957160264221,
      "grad_norm": 51.56932830810547,
      "learning_rate": 5e-06,
      "loss": 0.8751,
      "num_input_tokens_seen": 456718344,
      "step": 3616
    },
    {
      "epoch": 0.9275957160264221,
      "loss": 0.9201453924179077,
      "loss_ce": 0.00022348684433382004,
      "loss_iou": 0.431640625,
      "loss_num": 0.01141357421875,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 456718344,
      "step": 3616
    },
    {
      "epoch": 0.9278522413903675,
      "grad_norm": 50.86412048339844,
      "learning_rate": 5e-06,
      "loss": 1.082,
      "num_input_tokens_seen": 456844544,
      "step": 3617
    },
    {
      "epoch": 0.9278522413903675,
      "loss": 1.0754153728485107,
      "loss_ce": 0.001684975577518344,
      "loss_iou": 0.48828125,
      "loss_num": 0.01904296875,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 456844544,
      "step": 3617
    },
    {
      "epoch": 0.9281087667543129,
      "grad_norm": 42.509864807128906,
      "learning_rate": 5e-06,
      "loss": 0.9267,
      "num_input_tokens_seen": 456969720,
      "step": 3618
    },
    {
      "epoch": 0.9281087667543129,
      "loss": 0.9366359710693359,
      "loss_ce": 0.00255396100692451,
      "loss_iou": 0.4375,
      "loss_num": 0.011962890625,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 456969720,
      "step": 3618
    },
    {
      "epoch": 0.9283652921182582,
      "grad_norm": 56.220130920410156,
      "learning_rate": 5e-06,
      "loss": 1.0288,
      "num_input_tokens_seen": 457096896,
      "step": 3619
    },
    {
      "epoch": 0.9283652921182582,
      "loss": 1.1990458965301514,
      "loss_ce": 0.00031540400232188404,
      "loss_iou": 0.5390625,
      "loss_num": 0.02490234375,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 457096896,
      "step": 3619
    },
    {
      "epoch": 0.9286218174822035,
      "grad_norm": 69.47427368164062,
      "learning_rate": 5e-06,
      "loss": 1.0006,
      "num_input_tokens_seen": 457223960,
      "step": 3620
    },
    {
      "epoch": 0.9286218174822035,
      "loss": 1.0552663803100586,
      "loss_ce": 0.001067073317244649,
      "loss_iou": 0.470703125,
      "loss_num": 0.022216796875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 457223960,
      "step": 3620
    },
    {
      "epoch": 0.9288783428461489,
      "grad_norm": 43.77383041381836,
      "learning_rate": 5e-06,
      "loss": 0.9502,
      "num_input_tokens_seen": 457349692,
      "step": 3621
    },
    {
      "epoch": 0.9288783428461489,
      "loss": 0.9590688943862915,
      "loss_ce": 8.446291030850261e-05,
      "loss_iou": 0.455078125,
      "loss_num": 0.010009765625,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 457349692,
      "step": 3621
    },
    {
      "epoch": 0.9291348682100943,
      "grad_norm": 21.029878616333008,
      "learning_rate": 5e-06,
      "loss": 0.7843,
      "num_input_tokens_seen": 457475188,
      "step": 3622
    },
    {
      "epoch": 0.9291348682100943,
      "loss": 0.6746558547019958,
      "loss_ce": 9.533100092085078e-05,
      "loss_iou": 0.318359375,
      "loss_num": 0.007598876953125,
      "loss_xval": 0.67578125,
      "num_input_tokens_seen": 457475188,
      "step": 3622
    },
    {
      "epoch": 0.9293913935740397,
      "grad_norm": 32.0560188293457,
      "learning_rate": 5e-06,
      "loss": 0.8874,
      "num_input_tokens_seen": 457601012,
      "step": 3623
    },
    {
      "epoch": 0.9293913935740397,
      "loss": 0.780167818069458,
      "loss_ce": 0.00038270355435088277,
      "loss_iou": 0.37109375,
      "loss_num": 0.0078125,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 457601012,
      "step": 3623
    },
    {
      "epoch": 0.929647918937985,
      "grad_norm": 42.61419677734375,
      "learning_rate": 5e-06,
      "loss": 0.8395,
      "num_input_tokens_seen": 457726752,
      "step": 3624
    },
    {
      "epoch": 0.929647918937985,
      "loss": 0.901187539100647,
      "loss_ce": 0.0012851858045905828,
      "loss_iou": 0.416015625,
      "loss_num": 0.0135498046875,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 457726752,
      "step": 3624
    },
    {
      "epoch": 0.9299044443019303,
      "grad_norm": 42.177120208740234,
      "learning_rate": 5e-06,
      "loss": 0.8281,
      "num_input_tokens_seen": 457853292,
      "step": 3625
    },
    {
      "epoch": 0.9299044443019303,
      "loss": 0.7232677936553955,
      "loss_ce": 0.005006087943911552,
      "loss_iou": 0.337890625,
      "loss_num": 0.00860595703125,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 457853292,
      "step": 3625
    },
    {
      "epoch": 0.9301609696658757,
      "grad_norm": 48.13968276977539,
      "learning_rate": 5e-06,
      "loss": 0.8246,
      "num_input_tokens_seen": 457978896,
      "step": 3626
    },
    {
      "epoch": 0.9301609696658757,
      "loss": 0.8834838271141052,
      "loss_ce": 0.00042718046461232007,
      "loss_iou": 0.41796875,
      "loss_num": 0.00885009765625,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 457978896,
      "step": 3626
    },
    {
      "epoch": 0.9304174950298211,
      "grad_norm": 53.01694869995117,
      "learning_rate": 5e-06,
      "loss": 0.9535,
      "num_input_tokens_seen": 458106124,
      "step": 3627
    },
    {
      "epoch": 0.9304174950298211,
      "loss": 0.9416027069091797,
      "loss_ce": 0.0001964666589628905,
      "loss_iou": 0.4453125,
      "loss_num": 0.01007080078125,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 458106124,
      "step": 3627
    },
    {
      "epoch": 0.9306740203937665,
      "grad_norm": 55.440818786621094,
      "learning_rate": 5e-06,
      "loss": 0.9012,
      "num_input_tokens_seen": 458232356,
      "step": 3628
    },
    {
      "epoch": 0.9306740203937665,
      "loss": 0.8334956169128418,
      "loss_ce": 0.000487843353766948,
      "loss_iou": 0.396484375,
      "loss_num": 0.008056640625,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 458232356,
      "step": 3628
    },
    {
      "epoch": 0.9309305457577118,
      "grad_norm": 55.91246795654297,
      "learning_rate": 5e-06,
      "loss": 0.9581,
      "num_input_tokens_seen": 458359300,
      "step": 3629
    },
    {
      "epoch": 0.9309305457577118,
      "loss": 1.0234041213989258,
      "loss_ce": 0.008755714632570744,
      "loss_iou": 0.45703125,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 458359300,
      "step": 3629
    },
    {
      "epoch": 0.9311870711216571,
      "grad_norm": 56.13252639770508,
      "learning_rate": 5e-06,
      "loss": 0.9764,
      "num_input_tokens_seen": 458485020,
      "step": 3630
    },
    {
      "epoch": 0.9311870711216571,
      "loss": 0.9368298053741455,
      "loss_ce": 0.000794700812548399,
      "loss_iou": 0.4375,
      "loss_num": 0.0123291015625,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 458485020,
      "step": 3630
    },
    {
      "epoch": 0.9314435964856025,
      "grad_norm": 41.314849853515625,
      "learning_rate": 5e-06,
      "loss": 0.9195,
      "num_input_tokens_seen": 458610780,
      "step": 3631
    },
    {
      "epoch": 0.9314435964856025,
      "loss": 0.8165313005447388,
      "loss_ce": 0.0011015902273356915,
      "loss_iou": 0.38671875,
      "loss_num": 0.00823974609375,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 458610780,
      "step": 3631
    },
    {
      "epoch": 0.9317001218495479,
      "grad_norm": 28.087688446044922,
      "learning_rate": 5e-06,
      "loss": 0.8585,
      "num_input_tokens_seen": 458736188,
      "step": 3632
    },
    {
      "epoch": 0.9317001218495479,
      "loss": 0.7565664649009705,
      "loss_ce": 0.0011953659122809768,
      "loss_iou": 0.3515625,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.75390625,
      "num_input_tokens_seen": 458736188,
      "step": 3632
    },
    {
      "epoch": 0.9319566472134932,
      "grad_norm": 45.88303756713867,
      "learning_rate": 5e-06,
      "loss": 0.9229,
      "num_input_tokens_seen": 458863872,
      "step": 3633
    },
    {
      "epoch": 0.9319566472134932,
      "loss": 0.9181811809539795,
      "loss_ce": 0.000456543464679271,
      "loss_iou": 0.416015625,
      "loss_num": 0.017333984375,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 458863872,
      "step": 3633
    },
    {
      "epoch": 0.9322131725774386,
      "grad_norm": 42.30138397216797,
      "learning_rate": 5e-06,
      "loss": 0.8692,
      "num_input_tokens_seen": 458989892,
      "step": 3634
    },
    {
      "epoch": 0.9322131725774386,
      "loss": 0.8961564302444458,
      "loss_ce": 0.0016251273918896914,
      "loss_iou": 0.412109375,
      "loss_num": 0.01409912109375,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 458989892,
      "step": 3634
    },
    {
      "epoch": 0.9324696979413839,
      "grad_norm": 37.58060836791992,
      "learning_rate": 5e-06,
      "loss": 0.9469,
      "num_input_tokens_seen": 459116316,
      "step": 3635
    },
    {
      "epoch": 0.9324696979413839,
      "loss": 1.11305570602417,
      "loss_ce": 0.0022158133797347546,
      "loss_iou": 0.4765625,
      "loss_num": 0.031494140625,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 459116316,
      "step": 3635
    },
    {
      "epoch": 0.9327262233053293,
      "grad_norm": 61.639183044433594,
      "learning_rate": 5e-06,
      "loss": 0.892,
      "num_input_tokens_seen": 459242340,
      "step": 3636
    },
    {
      "epoch": 0.9327262233053293,
      "loss": 0.9611966013908386,
      "loss_ce": 0.0007474091253243387,
      "loss_iou": 0.4453125,
      "loss_num": 0.014404296875,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 459242340,
      "step": 3636
    },
    {
      "epoch": 0.9329827486692747,
      "grad_norm": 62.089813232421875,
      "learning_rate": 5e-06,
      "loss": 0.9647,
      "num_input_tokens_seen": 459369136,
      "step": 3637
    },
    {
      "epoch": 0.9329827486692747,
      "loss": 1.1087772846221924,
      "loss_ce": 0.0037967923562973738,
      "loss_iou": 0.5234375,
      "loss_num": 0.01177978515625,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 459369136,
      "step": 3637
    },
    {
      "epoch": 0.93323927403322,
      "grad_norm": 58.67341995239258,
      "learning_rate": 5e-06,
      "loss": 0.8872,
      "num_input_tokens_seen": 459496396,
      "step": 3638
    },
    {
      "epoch": 0.93323927403322,
      "loss": 0.8088112473487854,
      "loss_ce": 0.0011940447147935629,
      "loss_iou": 0.38671875,
      "loss_num": 0.006317138671875,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 459496396,
      "step": 3638
    },
    {
      "epoch": 0.9334957993971654,
      "grad_norm": 44.146175384521484,
      "learning_rate": 5e-06,
      "loss": 1.0315,
      "num_input_tokens_seen": 459622532,
      "step": 3639
    },
    {
      "epoch": 0.9334957993971654,
      "loss": 0.9892755746841431,
      "loss_ce": 0.0014826415572315454,
      "loss_iou": 0.45703125,
      "loss_num": 0.01470947265625,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 459622532,
      "step": 3639
    },
    {
      "epoch": 0.9337523247611108,
      "grad_norm": 23.908166885375977,
      "learning_rate": 5e-06,
      "loss": 0.8639,
      "num_input_tokens_seen": 459747636,
      "step": 3640
    },
    {
      "epoch": 0.9337523247611108,
      "loss": 0.9046178460121155,
      "loss_ce": 0.0044713616371154785,
      "loss_iou": 0.41015625,
      "loss_num": 0.015869140625,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 459747636,
      "step": 3640
    },
    {
      "epoch": 0.9340088501250561,
      "grad_norm": 32.32481384277344,
      "learning_rate": 5e-06,
      "loss": 0.7744,
      "num_input_tokens_seen": 459873052,
      "step": 3641
    },
    {
      "epoch": 0.9340088501250561,
      "loss": 0.7062988877296448,
      "loss_ce": 0.000976654002442956,
      "loss_iou": 0.337890625,
      "loss_num": 0.005462646484375,
      "loss_xval": 0.70703125,
      "num_input_tokens_seen": 459873052,
      "step": 3641
    },
    {
      "epoch": 0.9342653754890015,
      "grad_norm": 50.25830841064453,
      "learning_rate": 5e-06,
      "loss": 0.9323,
      "num_input_tokens_seen": 459999188,
      "step": 3642
    },
    {
      "epoch": 0.9342653754890015,
      "loss": 1.0281184911727905,
      "loss_ce": 0.0022396312560886145,
      "loss_iou": 0.453125,
      "loss_num": 0.02392578125,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 459999188,
      "step": 3642
    },
    {
      "epoch": 0.9345219008529468,
      "grad_norm": 89.45670318603516,
      "learning_rate": 5e-06,
      "loss": 0.9455,
      "num_input_tokens_seen": 460126464,
      "step": 3643
    },
    {
      "epoch": 0.9345219008529468,
      "loss": 0.8807382583618164,
      "loss_ce": 0.0010996382916346192,
      "loss_iou": 0.404296875,
      "loss_num": 0.013916015625,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 460126464,
      "step": 3643
    },
    {
      "epoch": 0.9347784262168922,
      "grad_norm": 66.78504943847656,
      "learning_rate": 5e-06,
      "loss": 0.9175,
      "num_input_tokens_seen": 460253064,
      "step": 3644
    },
    {
      "epoch": 0.9347784262168922,
      "loss": 0.8511741161346436,
      "loss_ce": 9.992434934247285e-05,
      "loss_iou": 0.408203125,
      "loss_num": 0.006591796875,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 460253064,
      "step": 3644
    },
    {
      "epoch": 0.9350349515808376,
      "grad_norm": 53.24028015136719,
      "learning_rate": 5e-06,
      "loss": 0.9803,
      "num_input_tokens_seen": 460378032,
      "step": 3645
    },
    {
      "epoch": 0.9350349515808376,
      "loss": 0.9953749179840088,
      "loss_ce": 0.0029433807358145714,
      "loss_iou": 0.4609375,
      "loss_num": 0.01416015625,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 460378032,
      "step": 3645
    },
    {
      "epoch": 0.9352914769447829,
      "grad_norm": 51.65861511230469,
      "learning_rate": 5e-06,
      "loss": 0.8478,
      "num_input_tokens_seen": 460504200,
      "step": 3646
    },
    {
      "epoch": 0.9352914769447829,
      "loss": 0.7812744379043579,
      "loss_ce": 0.0010010175174102187,
      "loss_iou": 0.36328125,
      "loss_num": 0.01025390625,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 460504200,
      "step": 3646
    },
    {
      "epoch": 0.9355480023087283,
      "grad_norm": 22.881704330444336,
      "learning_rate": 5e-06,
      "loss": 0.9662,
      "num_input_tokens_seen": 460630776,
      "step": 3647
    },
    {
      "epoch": 0.9355480023087283,
      "loss": 1.030810832977295,
      "loss_ce": 0.0005374557804316282,
      "loss_iou": 0.4765625,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 460630776,
      "step": 3647
    },
    {
      "epoch": 0.9358045276726736,
      "grad_norm": 17.687257766723633,
      "learning_rate": 5e-06,
      "loss": 0.8345,
      "num_input_tokens_seen": 460757308,
      "step": 3648
    },
    {
      "epoch": 0.9358045276726736,
      "loss": 0.7762504816055298,
      "loss_ce": 0.0037895129062235355,
      "loss_iou": 0.357421875,
      "loss_num": 0.01116943359375,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 460757308,
      "step": 3648
    },
    {
      "epoch": 0.936061053036619,
      "grad_norm": 19.461666107177734,
      "learning_rate": 5e-06,
      "loss": 0.8649,
      "num_input_tokens_seen": 460884004,
      "step": 3649
    },
    {
      "epoch": 0.936061053036619,
      "loss": 1.0872846841812134,
      "loss_ce": 0.0003706810239236802,
      "loss_iou": 0.490234375,
      "loss_num": 0.021240234375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 460884004,
      "step": 3649
    },
    {
      "epoch": 0.9363175784005644,
      "grad_norm": 22.722980499267578,
      "learning_rate": 5e-06,
      "loss": 1.0365,
      "num_input_tokens_seen": 461009596,
      "step": 3650
    },
    {
      "epoch": 0.9363175784005644,
      "loss": 1.154809594154358,
      "loss_ce": 0.0014892304316163063,
      "loss_iou": 0.5234375,
      "loss_num": 0.02197265625,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 461009596,
      "step": 3650
    },
    {
      "epoch": 0.9365741037645097,
      "grad_norm": 42.22420120239258,
      "learning_rate": 5e-06,
      "loss": 0.9204,
      "num_input_tokens_seen": 461135524,
      "step": 3651
    },
    {
      "epoch": 0.9365741037645097,
      "loss": 0.8227266073226929,
      "loss_ce": 0.000949179579038173,
      "loss_iou": 0.396484375,
      "loss_num": 0.006195068359375,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 461135524,
      "step": 3651
    },
    {
      "epoch": 0.936830629128455,
      "grad_norm": 50.24898147583008,
      "learning_rate": 5e-06,
      "loss": 0.8997,
      "num_input_tokens_seen": 461261168,
      "step": 3652
    },
    {
      "epoch": 0.936830629128455,
      "loss": 0.9576809406280518,
      "loss_ce": 0.0006497344584204257,
      "loss_iou": 0.453125,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 461261168,
      "step": 3652
    },
    {
      "epoch": 0.9370871544924004,
      "grad_norm": 43.68164825439453,
      "learning_rate": 5e-06,
      "loss": 0.8666,
      "num_input_tokens_seen": 461387196,
      "step": 3653
    },
    {
      "epoch": 0.9370871544924004,
      "loss": 1.0145068168640137,
      "loss_ce": 0.0052294377237558365,
      "loss_iou": 0.466796875,
      "loss_num": 0.01483154296875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 461387196,
      "step": 3653
    },
    {
      "epoch": 0.9373436798563458,
      "grad_norm": 46.75363540649414,
      "learning_rate": 5e-06,
      "loss": 1.0214,
      "num_input_tokens_seen": 461512724,
      "step": 3654
    },
    {
      "epoch": 0.9373436798563458,
      "loss": 0.7811845541000366,
      "loss_ce": 0.001399439643137157,
      "loss_iou": 0.373046875,
      "loss_num": 0.007080078125,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 461512724,
      "step": 3654
    },
    {
      "epoch": 0.9376002052202912,
      "grad_norm": 53.401100158691406,
      "learning_rate": 5e-06,
      "loss": 0.8979,
      "num_input_tokens_seen": 461638060,
      "step": 3655
    },
    {
      "epoch": 0.9376002052202912,
      "loss": 1.0050694942474365,
      "loss_ce": 0.0009190713753923774,
      "loss_iou": 0.462890625,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 461638060,
      "step": 3655
    },
    {
      "epoch": 0.9378567305842365,
      "grad_norm": 59.01826858520508,
      "learning_rate": 5e-06,
      "loss": 0.9241,
      "num_input_tokens_seen": 461764684,
      "step": 3656
    },
    {
      "epoch": 0.9378567305842365,
      "loss": 0.933512806892395,
      "loss_ce": 0.0013839035527780652,
      "loss_iou": 0.439453125,
      "loss_num": 0.010498046875,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 461764684,
      "step": 3656
    },
    {
      "epoch": 0.9381132559481818,
      "grad_norm": 51.875030517578125,
      "learning_rate": 5e-06,
      "loss": 0.9358,
      "num_input_tokens_seen": 461890704,
      "step": 3657
    },
    {
      "epoch": 0.9381132559481818,
      "loss": 0.9886319637298584,
      "loss_ce": 0.0013272779760882258,
      "loss_iou": 0.45703125,
      "loss_num": 0.0147705078125,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 461890704,
      "step": 3657
    },
    {
      "epoch": 0.9383697813121272,
      "grad_norm": 40.0760498046875,
      "learning_rate": 5e-06,
      "loss": 0.7648,
      "num_input_tokens_seen": 462016656,
      "step": 3658
    },
    {
      "epoch": 0.9383697813121272,
      "loss": 0.7332104444503784,
      "loss_ce": 0.0005444451235234737,
      "loss_iou": 0.357421875,
      "loss_num": 0.0037078857421875,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 462016656,
      "step": 3658
    },
    {
      "epoch": 0.9386263066760726,
      "grad_norm": 38.35814666748047,
      "learning_rate": 5e-06,
      "loss": 0.905,
      "num_input_tokens_seen": 462143496,
      "step": 3659
    },
    {
      "epoch": 0.9386263066760726,
      "loss": 0.8020642995834351,
      "loss_ce": 0.0007947119302116334,
      "loss_iou": 0.3671875,
      "loss_num": 0.013427734375,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 462143496,
      "step": 3659
    },
    {
      "epoch": 0.938882832040018,
      "grad_norm": 35.964195251464844,
      "learning_rate": 5e-06,
      "loss": 0.8655,
      "num_input_tokens_seen": 462270156,
      "step": 3660
    },
    {
      "epoch": 0.938882832040018,
      "loss": 0.8244752287864685,
      "loss_ce": 0.0006226631812751293,
      "loss_iou": 0.3828125,
      "loss_num": 0.01123046875,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 462270156,
      "step": 3660
    },
    {
      "epoch": 0.9391393574039634,
      "grad_norm": 46.9801025390625,
      "learning_rate": 5e-06,
      "loss": 1.0206,
      "num_input_tokens_seen": 462397404,
      "step": 3661
    },
    {
      "epoch": 0.9391393574039634,
      "loss": 0.9656798839569092,
      "loss_ce": 0.002300997031852603,
      "loss_iou": 0.4375,
      "loss_num": 0.01806640625,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 462397404,
      "step": 3661
    },
    {
      "epoch": 0.9393958827679086,
      "grad_norm": 56.319007873535156,
      "learning_rate": 5e-06,
      "loss": 0.94,
      "num_input_tokens_seen": 462524196,
      "step": 3662
    },
    {
      "epoch": 0.9393958827679086,
      "loss": 1.1229097843170166,
      "loss_ce": 0.0003511852119117975,
      "loss_iou": 0.50390625,
      "loss_num": 0.0223388671875,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 462524196,
      "step": 3662
    },
    {
      "epoch": 0.939652408131854,
      "grad_norm": 47.455387115478516,
      "learning_rate": 5e-06,
      "loss": 0.8953,
      "num_input_tokens_seen": 462650016,
      "step": 3663
    },
    {
      "epoch": 0.939652408131854,
      "loss": 0.8016010522842407,
      "loss_ce": 0.0008197662536986172,
      "loss_iou": 0.3828125,
      "loss_num": 0.00677490234375,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 462650016,
      "step": 3663
    },
    {
      "epoch": 0.9399089334957994,
      "grad_norm": 33.535064697265625,
      "learning_rate": 5e-06,
      "loss": 0.9892,
      "num_input_tokens_seen": 462775232,
      "step": 3664
    },
    {
      "epoch": 0.9399089334957994,
      "loss": 1.0777400732040405,
      "loss_ce": 0.0020564687438309193,
      "loss_iou": 0.4921875,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 462775232,
      "step": 3664
    },
    {
      "epoch": 0.9401654588597448,
      "grad_norm": 44.496517181396484,
      "learning_rate": 5e-06,
      "loss": 0.9211,
      "num_input_tokens_seen": 462902160,
      "step": 3665
    },
    {
      "epoch": 0.9401654588597448,
      "loss": 0.9035837650299072,
      "loss_ce": 0.00026341804186813533,
      "loss_iou": 0.421875,
      "loss_num": 0.0113525390625,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 462902160,
      "step": 3665
    },
    {
      "epoch": 0.9404219842236902,
      "grad_norm": 65.98197937011719,
      "learning_rate": 5e-06,
      "loss": 0.9368,
      "num_input_tokens_seen": 463028444,
      "step": 3666
    },
    {
      "epoch": 0.9404219842236902,
      "loss": 0.8799336552619934,
      "loss_ce": 0.0007833061972633004,
      "loss_iou": 0.4140625,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 463028444,
      "step": 3666
    },
    {
      "epoch": 0.9406785095876354,
      "grad_norm": 46.119964599609375,
      "learning_rate": 5e-06,
      "loss": 0.8714,
      "num_input_tokens_seen": 463154212,
      "step": 3667
    },
    {
      "epoch": 0.9406785095876354,
      "loss": 1.0372419357299805,
      "loss_ce": 0.0003767046728171408,
      "loss_iou": 0.484375,
      "loss_num": 0.01336669921875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 463154212,
      "step": 3667
    },
    {
      "epoch": 0.9409350349515808,
      "grad_norm": 17.11545181274414,
      "learning_rate": 5e-06,
      "loss": 0.9543,
      "num_input_tokens_seen": 463280008,
      "step": 3668
    },
    {
      "epoch": 0.9409350349515808,
      "loss": 0.9404551386833191,
      "loss_ce": 0.0005137299885973334,
      "loss_iou": 0.416015625,
      "loss_num": 0.021728515625,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 463280008,
      "step": 3668
    },
    {
      "epoch": 0.9411915603155262,
      "grad_norm": 18.474149703979492,
      "learning_rate": 5e-06,
      "loss": 0.8131,
      "num_input_tokens_seen": 463406896,
      "step": 3669
    },
    {
      "epoch": 0.9411915603155262,
      "loss": 0.7674820423126221,
      "loss_ce": 0.0003921784518752247,
      "loss_iou": 0.369140625,
      "loss_num": 0.00567626953125,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 463406896,
      "step": 3669
    },
    {
      "epoch": 0.9414480856794716,
      "grad_norm": 29.74514389038086,
      "learning_rate": 5e-06,
      "loss": 0.8518,
      "num_input_tokens_seen": 463532576,
      "step": 3670
    },
    {
      "epoch": 0.9414480856794716,
      "loss": 0.948577344417572,
      "loss_ce": 0.003020706120878458,
      "loss_iou": 0.4296875,
      "loss_num": 0.0174560546875,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 463532576,
      "step": 3670
    },
    {
      "epoch": 0.941704611043417,
      "grad_norm": 38.65204620361328,
      "learning_rate": 5e-06,
      "loss": 0.8229,
      "num_input_tokens_seen": 463659208,
      "step": 3671
    },
    {
      "epoch": 0.941704611043417,
      "loss": 0.766069233417511,
      "loss_ce": 0.00020010270236525685,
      "loss_iou": 0.36328125,
      "loss_num": 0.00762939453125,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 463659208,
      "step": 3671
    },
    {
      "epoch": 0.9419611364073622,
      "grad_norm": 45.91474151611328,
      "learning_rate": 5e-06,
      "loss": 0.8713,
      "num_input_tokens_seen": 463786220,
      "step": 3672
    },
    {
      "epoch": 0.9419611364073622,
      "loss": 0.8210895657539368,
      "loss_ce": 0.0005329824052751064,
      "loss_iou": 0.38671875,
      "loss_num": 0.00982666015625,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 463786220,
      "step": 3672
    },
    {
      "epoch": 0.9422176617713076,
      "grad_norm": 51.34685134887695,
      "learning_rate": 5e-06,
      "loss": 0.8784,
      "num_input_tokens_seen": 463912412,
      "step": 3673
    },
    {
      "epoch": 0.9422176617713076,
      "loss": 0.9496025443077087,
      "loss_ce": 0.00038384145591408014,
      "loss_iou": 0.435546875,
      "loss_num": 0.0155029296875,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 463912412,
      "step": 3673
    },
    {
      "epoch": 0.942474187135253,
      "grad_norm": 49.33169937133789,
      "learning_rate": 5e-06,
      "loss": 0.8636,
      "num_input_tokens_seen": 464038364,
      "step": 3674
    },
    {
      "epoch": 0.942474187135253,
      "loss": 0.9540407657623291,
      "loss_ce": 0.0018923444440588355,
      "loss_iou": 0.451171875,
      "loss_num": 0.00982666015625,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 464038364,
      "step": 3674
    },
    {
      "epoch": 0.9427307124991984,
      "grad_norm": 56.22955322265625,
      "learning_rate": 5e-06,
      "loss": 0.9139,
      "num_input_tokens_seen": 464164724,
      "step": 3675
    },
    {
      "epoch": 0.9427307124991984,
      "loss": 0.9937374591827393,
      "loss_ce": 0.0008175497641786933,
      "loss_iou": 0.462890625,
      "loss_num": 0.01336669921875,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 464164724,
      "step": 3675
    },
    {
      "epoch": 0.9429872378631438,
      "grad_norm": 42.889610290527344,
      "learning_rate": 5e-06,
      "loss": 0.8155,
      "num_input_tokens_seen": 464290780,
      "step": 3676
    },
    {
      "epoch": 0.9429872378631438,
      "loss": 0.8258544206619263,
      "loss_ce": 0.004565386101603508,
      "loss_iou": 0.380859375,
      "loss_num": 0.0120849609375,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 464290780,
      "step": 3676
    },
    {
      "epoch": 0.943243763227089,
      "grad_norm": 28.904233932495117,
      "learning_rate": 5e-06,
      "loss": 0.8226,
      "num_input_tokens_seen": 464417488,
      "step": 3677
    },
    {
      "epoch": 0.943243763227089,
      "loss": 0.7690805792808533,
      "loss_ce": 0.0015024568419903517,
      "loss_iou": 0.353515625,
      "loss_num": 0.01202392578125,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 464417488,
      "step": 3677
    },
    {
      "epoch": 0.9435002885910344,
      "grad_norm": 24.394237518310547,
      "learning_rate": 5e-06,
      "loss": 0.899,
      "num_input_tokens_seen": 464542888,
      "step": 3678
    },
    {
      "epoch": 0.9435002885910344,
      "loss": 0.9014326333999634,
      "loss_ce": 6.545497308252379e-05,
      "loss_iou": 0.419921875,
      "loss_num": 0.01202392578125,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 464542888,
      "step": 3678
    },
    {
      "epoch": 0.9437568139549798,
      "grad_norm": 36.753684997558594,
      "learning_rate": 5e-06,
      "loss": 0.8346,
      "num_input_tokens_seen": 464668952,
      "step": 3679
    },
    {
      "epoch": 0.9437568139549798,
      "loss": 0.839881181716919,
      "loss_ce": 0.0010140028316527605,
      "loss_iou": 0.404296875,
      "loss_num": 0.00634765625,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 464668952,
      "step": 3679
    },
    {
      "epoch": 0.9440133393189252,
      "grad_norm": 43.150936126708984,
      "learning_rate": 5e-06,
      "loss": 0.9304,
      "num_input_tokens_seen": 464795268,
      "step": 3680
    },
    {
      "epoch": 0.9440133393189252,
      "loss": 0.7612678408622742,
      "loss_ce": 0.001013916451483965,
      "loss_iou": 0.361328125,
      "loss_num": 0.00762939453125,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 464795268,
      "step": 3680
    },
    {
      "epoch": 0.9442698646828706,
      "grad_norm": 46.340431213378906,
      "learning_rate": 5e-06,
      "loss": 0.9256,
      "num_input_tokens_seen": 464921296,
      "step": 3681
    },
    {
      "epoch": 0.9442698646828706,
      "loss": 0.9561992287635803,
      "loss_ce": 0.0020976890809834003,
      "loss_iou": 0.42578125,
      "loss_num": 0.0206298828125,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 464921296,
      "step": 3681
    },
    {
      "epoch": 0.9445263900468159,
      "grad_norm": 38.905548095703125,
      "learning_rate": 5e-06,
      "loss": 0.9243,
      "num_input_tokens_seen": 465045980,
      "step": 3682
    },
    {
      "epoch": 0.9445263900468159,
      "loss": 1.012319803237915,
      "loss_ce": 0.00011273652489762753,
      "loss_iou": 0.4609375,
      "loss_num": 0.017822265625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 465045980,
      "step": 3682
    },
    {
      "epoch": 0.9447829154107612,
      "grad_norm": 40.27955627441406,
      "learning_rate": 5e-06,
      "loss": 0.7801,
      "num_input_tokens_seen": 465172884,
      "step": 3683
    },
    {
      "epoch": 0.9447829154107612,
      "loss": 0.842250406742096,
      "loss_ce": 0.0009418433764949441,
      "loss_iou": 0.3828125,
      "loss_num": 0.01531982421875,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 465172884,
      "step": 3683
    },
    {
      "epoch": 0.9450394407747066,
      "grad_norm": 43.6458740234375,
      "learning_rate": 5e-06,
      "loss": 1.0094,
      "num_input_tokens_seen": 465298676,
      "step": 3684
    },
    {
      "epoch": 0.9450394407747066,
      "loss": 1.2069745063781738,
      "loss_ce": 0.00043152051512151957,
      "loss_iou": 0.55859375,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 465298676,
      "step": 3684
    },
    {
      "epoch": 0.945295966138652,
      "grad_norm": 61.86376190185547,
      "learning_rate": 5e-06,
      "loss": 0.874,
      "num_input_tokens_seen": 465425952,
      "step": 3685
    },
    {
      "epoch": 0.945295966138652,
      "loss": 0.7857323288917542,
      "loss_ce": 0.006923707202076912,
      "loss_iou": 0.37109375,
      "loss_num": 0.007537841796875,
      "loss_xval": 0.77734375,
      "num_input_tokens_seen": 465425952,
      "step": 3685
    },
    {
      "epoch": 0.9455524915025973,
      "grad_norm": 46.10440444946289,
      "learning_rate": 5e-06,
      "loss": 0.9371,
      "num_input_tokens_seen": 465552716,
      "step": 3686
    },
    {
      "epoch": 0.9455524915025973,
      "loss": 0.8794236183166504,
      "loss_ce": 0.0010056063765659928,
      "loss_iou": 0.412109375,
      "loss_num": 0.0106201171875,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 465552716,
      "step": 3686
    },
    {
      "epoch": 0.9458090168665427,
      "grad_norm": 27.472898483276367,
      "learning_rate": 5e-06,
      "loss": 0.9771,
      "num_input_tokens_seen": 465680000,
      "step": 3687
    },
    {
      "epoch": 0.9458090168665427,
      "loss": 0.8636884689331055,
      "loss_ce": 0.001139703905209899,
      "loss_iou": 0.392578125,
      "loss_num": 0.01544189453125,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 465680000,
      "step": 3687
    },
    {
      "epoch": 0.946065542230488,
      "grad_norm": 33.50684356689453,
      "learning_rate": 5e-06,
      "loss": 0.8289,
      "num_input_tokens_seen": 465805816,
      "step": 3688
    },
    {
      "epoch": 0.946065542230488,
      "loss": 0.8775566220283508,
      "loss_ce": 0.0006034750258550048,
      "loss_iou": 0.41796875,
      "loss_num": 0.008056640625,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 465805816,
      "step": 3688
    },
    {
      "epoch": 0.9463220675944334,
      "grad_norm": 43.293846130371094,
      "learning_rate": 5e-06,
      "loss": 0.8586,
      "num_input_tokens_seen": 465931704,
      "step": 3689
    },
    {
      "epoch": 0.9463220675944334,
      "loss": 0.7833787798881531,
      "loss_ce": 0.00017566840688232332,
      "loss_iou": 0.375,
      "loss_num": 0.006805419921875,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 465931704,
      "step": 3689
    },
    {
      "epoch": 0.9465785929583788,
      "grad_norm": 40.77540588378906,
      "learning_rate": 5e-06,
      "loss": 0.839,
      "num_input_tokens_seen": 466058468,
      "step": 3690
    },
    {
      "epoch": 0.9465785929583788,
      "loss": 1.017223596572876,
      "loss_ce": 0.0006221048533916473,
      "loss_iou": 0.46484375,
      "loss_num": 0.017578125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 466058468,
      "step": 3690
    },
    {
      "epoch": 0.9468351183223241,
      "grad_norm": 59.32502746582031,
      "learning_rate": 5e-06,
      "loss": 0.9095,
      "num_input_tokens_seen": 466185296,
      "step": 3691
    },
    {
      "epoch": 0.9468351183223241,
      "loss": 0.7418409585952759,
      "loss_ce": 0.00648941146209836,
      "loss_iou": 0.353515625,
      "loss_num": 0.0057373046875,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 466185296,
      "step": 3691
    },
    {
      "epoch": 0.9470916436862695,
      "grad_norm": 43.48308181762695,
      "learning_rate": 5e-06,
      "loss": 0.8813,
      "num_input_tokens_seen": 466311512,
      "step": 3692
    },
    {
      "epoch": 0.9470916436862695,
      "loss": 1.031076192855835,
      "loss_ce": 0.0022675730288028717,
      "loss_iou": 0.46875,
      "loss_num": 0.0184326171875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 466311512,
      "step": 3692
    },
    {
      "epoch": 0.9473481690502148,
      "grad_norm": 23.717506408691406,
      "learning_rate": 5e-06,
      "loss": 0.7842,
      "num_input_tokens_seen": 466437752,
      "step": 3693
    },
    {
      "epoch": 0.9473481690502148,
      "loss": 0.7203108072280884,
      "loss_ce": 0.00046216571354307234,
      "loss_iou": 0.326171875,
      "loss_num": 0.0135498046875,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 466437752,
      "step": 3693
    },
    {
      "epoch": 0.9476046944141602,
      "grad_norm": 42.92779541015625,
      "learning_rate": 5e-06,
      "loss": 1.0188,
      "num_input_tokens_seen": 466563664,
      "step": 3694
    },
    {
      "epoch": 0.9476046944141602,
      "loss": 1.1214138269424438,
      "loss_ce": 0.00032010371796786785,
      "loss_iou": 0.515625,
      "loss_num": 0.017333984375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 466563664,
      "step": 3694
    },
    {
      "epoch": 0.9478612197781056,
      "grad_norm": 56.469242095947266,
      "learning_rate": 5e-06,
      "loss": 0.8992,
      "num_input_tokens_seen": 466689696,
      "step": 3695
    },
    {
      "epoch": 0.9478612197781056,
      "loss": 0.9403088092803955,
      "loss_ce": 0.0008556349202990532,
      "loss_iou": 0.431640625,
      "loss_num": 0.01519775390625,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 466689696,
      "step": 3695
    },
    {
      "epoch": 0.9481177451420509,
      "grad_norm": 47.9663200378418,
      "learning_rate": 5e-06,
      "loss": 0.9895,
      "num_input_tokens_seen": 466816772,
      "step": 3696
    },
    {
      "epoch": 0.9481177451420509,
      "loss": 1.106593370437622,
      "loss_ce": 0.0016128328861668706,
      "loss_iou": 0.51171875,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 466816772,
      "step": 3696
    },
    {
      "epoch": 0.9483742705059963,
      "grad_norm": 47.70061492919922,
      "learning_rate": 5e-06,
      "loss": 0.8814,
      "num_input_tokens_seen": 466943316,
      "step": 3697
    },
    {
      "epoch": 0.9483742705059963,
      "loss": 0.8160202503204346,
      "loss_ce": 0.00010233210196020082,
      "loss_iou": 0.37109375,
      "loss_num": 0.01531982421875,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 466943316,
      "step": 3697
    },
    {
      "epoch": 0.9486307958699416,
      "grad_norm": 42.98957061767578,
      "learning_rate": 5e-06,
      "loss": 0.9469,
      "num_input_tokens_seen": 467069748,
      "step": 3698
    },
    {
      "epoch": 0.9486307958699416,
      "loss": 0.6683716177940369,
      "loss_ce": 0.0006470466614700854,
      "loss_iou": 0.322265625,
      "loss_num": 0.00433349609375,
      "loss_xval": 0.66796875,
      "num_input_tokens_seen": 467069748,
      "step": 3698
    },
    {
      "epoch": 0.948887321233887,
      "grad_norm": 32.64594650268555,
      "learning_rate": 5e-06,
      "loss": 0.9006,
      "num_input_tokens_seen": 467196448,
      "step": 3699
    },
    {
      "epoch": 0.948887321233887,
      "loss": 0.7862898111343384,
      "loss_ce": 0.0006452803499996662,
      "loss_iou": 0.365234375,
      "loss_num": 0.01104736328125,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 467196448,
      "step": 3699
    },
    {
      "epoch": 0.9491438465978324,
      "grad_norm": 37.68442916870117,
      "learning_rate": 5e-06,
      "loss": 0.9414,
      "num_input_tokens_seen": 467323660,
      "step": 3700
    },
    {
      "epoch": 0.9491438465978324,
      "loss": 0.9298077821731567,
      "loss_ce": 0.002561731729656458,
      "loss_iou": 0.421875,
      "loss_num": 0.0169677734375,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 467323660,
      "step": 3700
    },
    {
      "epoch": 0.9494003719617777,
      "grad_norm": 47.4990348815918,
      "learning_rate": 5e-06,
      "loss": 0.8805,
      "num_input_tokens_seen": 467450212,
      "step": 3701
    },
    {
      "epoch": 0.9494003719617777,
      "loss": 0.9245873689651489,
      "loss_ce": 0.0024681999348104,
      "loss_iou": 0.41796875,
      "loss_num": 0.017333984375,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 467450212,
      "step": 3701
    },
    {
      "epoch": 0.9496568973257231,
      "grad_norm": 42.406986236572266,
      "learning_rate": 5e-06,
      "loss": 0.8944,
      "num_input_tokens_seen": 467576284,
      "step": 3702
    },
    {
      "epoch": 0.9496568973257231,
      "loss": 0.7691506147384644,
      "loss_ce": 0.00035180055419914424,
      "loss_iou": 0.361328125,
      "loss_num": 0.009033203125,
      "loss_xval": 0.76953125,
      "num_input_tokens_seen": 467576284,
      "step": 3702
    },
    {
      "epoch": 0.9499134226896685,
      "grad_norm": 37.537933349609375,
      "learning_rate": 5e-06,
      "loss": 0.8845,
      "num_input_tokens_seen": 467703352,
      "step": 3703
    },
    {
      "epoch": 0.9499134226896685,
      "loss": 1.1004343032836914,
      "loss_ce": 0.004731159191578627,
      "loss_iou": 0.4921875,
      "loss_num": 0.0223388671875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 467703352,
      "step": 3703
    },
    {
      "epoch": 0.9501699480536138,
      "grad_norm": 41.88649368286133,
      "learning_rate": 5e-06,
      "loss": 0.9663,
      "num_input_tokens_seen": 467829652,
      "step": 3704
    },
    {
      "epoch": 0.9501699480536138,
      "loss": 0.9605839848518372,
      "loss_ce": 0.0006230776780284941,
      "loss_iou": 0.44140625,
      "loss_num": 0.015869140625,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 467829652,
      "step": 3704
    },
    {
      "epoch": 0.9504264734175591,
      "grad_norm": 68.59712219238281,
      "learning_rate": 5e-06,
      "loss": 0.9565,
      "num_input_tokens_seen": 467955092,
      "step": 3705
    },
    {
      "epoch": 0.9504264734175591,
      "loss": 0.8306628465652466,
      "loss_ce": 0.002049524337053299,
      "loss_iou": 0.39453125,
      "loss_num": 0.00775146484375,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 467955092,
      "step": 3705
    },
    {
      "epoch": 0.9506829987815045,
      "grad_norm": 52.74204635620117,
      "learning_rate": 5e-06,
      "loss": 0.9608,
      "num_input_tokens_seen": 468081248,
      "step": 3706
    },
    {
      "epoch": 0.9506829987815045,
      "loss": 0.969720721244812,
      "loss_ce": 0.00048247570521198213,
      "loss_iou": 0.439453125,
      "loss_num": 0.018310546875,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 468081248,
      "step": 3706
    },
    {
      "epoch": 0.9509395241454499,
      "grad_norm": 52.946876525878906,
      "learning_rate": 5e-06,
      "loss": 1.0146,
      "num_input_tokens_seen": 468208124,
      "step": 3707
    },
    {
      "epoch": 0.9509395241454499,
      "loss": 0.933703601360321,
      "loss_ce": 0.000598156766500324,
      "loss_iou": 0.4375,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 468208124,
      "step": 3707
    },
    {
      "epoch": 0.9511960495093953,
      "grad_norm": 35.36286163330078,
      "learning_rate": 5e-06,
      "loss": 0.9431,
      "num_input_tokens_seen": 468333596,
      "step": 3708
    },
    {
      "epoch": 0.9511960495093953,
      "loss": 0.8565495610237122,
      "loss_ce": 0.000592526514083147,
      "loss_iou": 0.392578125,
      "loss_num": 0.01416015625,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 468333596,
      "step": 3708
    },
    {
      "epoch": 0.9514525748733406,
      "grad_norm": 28.405380249023438,
      "learning_rate": 5e-06,
      "loss": 0.7674,
      "num_input_tokens_seen": 468460872,
      "step": 3709
    },
    {
      "epoch": 0.9514525748733406,
      "loss": 0.7805876731872559,
      "loss_ce": 0.000802493654191494,
      "loss_iou": 0.357421875,
      "loss_num": 0.0128173828125,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 468460872,
      "step": 3709
    },
    {
      "epoch": 0.9517091002372859,
      "grad_norm": 28.12193489074707,
      "learning_rate": 5e-06,
      "loss": 0.8429,
      "num_input_tokens_seen": 468586144,
      "step": 3710
    },
    {
      "epoch": 0.9517091002372859,
      "loss": 0.8768465518951416,
      "loss_ce": 0.0006257933564484119,
      "loss_iou": 0.412109375,
      "loss_num": 0.0103759765625,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 468586144,
      "step": 3710
    },
    {
      "epoch": 0.9519656256012313,
      "grad_norm": 39.958927154541016,
      "learning_rate": 5e-06,
      "loss": 0.8794,
      "num_input_tokens_seen": 468711804,
      "step": 3711
    },
    {
      "epoch": 0.9519656256012313,
      "loss": 0.9256656169891357,
      "loss_ce": 0.0006167399697005749,
      "loss_iou": 0.421875,
      "loss_num": 0.015869140625,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 468711804,
      "step": 3711
    },
    {
      "epoch": 0.9522221509651767,
      "grad_norm": 44.818870544433594,
      "learning_rate": 5e-06,
      "loss": 0.8668,
      "num_input_tokens_seen": 468838132,
      "step": 3712
    },
    {
      "epoch": 0.9522221509651767,
      "loss": 0.9414329528808594,
      "loss_ce": 0.000514992862008512,
      "loss_iou": 0.431640625,
      "loss_num": 0.0152587890625,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 468838132,
      "step": 3712
    },
    {
      "epoch": 0.9524786763291221,
      "grad_norm": 33.827354431152344,
      "learning_rate": 5e-06,
      "loss": 0.9093,
      "num_input_tokens_seen": 468964208,
      "step": 3713
    },
    {
      "epoch": 0.9524786763291221,
      "loss": 0.9042959213256836,
      "loss_ce": 0.0026845782995224,
      "loss_iou": 0.419921875,
      "loss_num": 0.0126953125,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 468964208,
      "step": 3713
    },
    {
      "epoch": 0.9527352016930674,
      "grad_norm": 46.68196487426758,
      "learning_rate": 5e-06,
      "loss": 0.8385,
      "num_input_tokens_seen": 469091080,
      "step": 3714
    },
    {
      "epoch": 0.9527352016930674,
      "loss": 0.8529127836227417,
      "loss_ce": 0.0003737600054591894,
      "loss_iou": 0.408203125,
      "loss_num": 0.00701904296875,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 469091080,
      "step": 3714
    },
    {
      "epoch": 0.9529917270570127,
      "grad_norm": 68.15245819091797,
      "learning_rate": 5e-06,
      "loss": 1.0186,
      "num_input_tokens_seen": 469216920,
      "step": 3715
    },
    {
      "epoch": 0.9529917270570127,
      "loss": 1.0548653602600098,
      "loss_ce": 0.0016427828231826425,
      "loss_iou": 0.486328125,
      "loss_num": 0.0162353515625,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 469216920,
      "step": 3715
    },
    {
      "epoch": 0.9532482524209581,
      "grad_norm": 53.18130111694336,
      "learning_rate": 5e-06,
      "loss": 0.9276,
      "num_input_tokens_seen": 469344556,
      "step": 3716
    },
    {
      "epoch": 0.9532482524209581,
      "loss": 1.0641156435012817,
      "loss_ce": 0.004301172681152821,
      "loss_iou": 0.462890625,
      "loss_num": 0.0267333984375,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 469344556,
      "step": 3716
    },
    {
      "epoch": 0.9535047777849035,
      "grad_norm": 42.49665069580078,
      "learning_rate": 5e-06,
      "loss": 1.0328,
      "num_input_tokens_seen": 469469620,
      "step": 3717
    },
    {
      "epoch": 0.9535047777849035,
      "loss": 1.0054821968078613,
      "loss_ce": 0.0015759584493935108,
      "loss_iou": 0.46484375,
      "loss_num": 0.01513671875,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 469469620,
      "step": 3717
    },
    {
      "epoch": 0.9537613031488489,
      "grad_norm": 30.475875854492188,
      "learning_rate": 5e-06,
      "loss": 0.8971,
      "num_input_tokens_seen": 469594732,
      "step": 3718
    },
    {
      "epoch": 0.9537613031488489,
      "loss": 0.8059152364730835,
      "loss_ce": 0.0002511662896722555,
      "loss_iou": 0.3828125,
      "loss_num": 0.00811767578125,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 469594732,
      "step": 3718
    },
    {
      "epoch": 0.9540178285127942,
      "grad_norm": 38.36625289916992,
      "learning_rate": 5e-06,
      "loss": 0.9594,
      "num_input_tokens_seen": 469721000,
      "step": 3719
    },
    {
      "epoch": 0.9540178285127942,
      "loss": 0.9581032395362854,
      "loss_ce": 0.000583761720918119,
      "loss_iou": 0.439453125,
      "loss_num": 0.015869140625,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 469721000,
      "step": 3719
    },
    {
      "epoch": 0.9542743538767395,
      "grad_norm": 38.52410125732422,
      "learning_rate": 5e-06,
      "loss": 0.9408,
      "num_input_tokens_seen": 469846920,
      "step": 3720
    },
    {
      "epoch": 0.9542743538767395,
      "loss": 0.8575612306594849,
      "loss_ce": 0.0006276440690271556,
      "loss_iou": 0.39453125,
      "loss_num": 0.01312255859375,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 469846920,
      "step": 3720
    },
    {
      "epoch": 0.9545308792406849,
      "grad_norm": 49.05297088623047,
      "learning_rate": 5e-06,
      "loss": 0.9711,
      "num_input_tokens_seen": 469973608,
      "step": 3721
    },
    {
      "epoch": 0.9545308792406849,
      "loss": 0.8868104219436646,
      "loss_ce": 0.004730363842099905,
      "loss_iou": 0.408203125,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 469973608,
      "step": 3721
    },
    {
      "epoch": 0.9547874046046303,
      "grad_norm": 49.10481643676758,
      "learning_rate": 5e-06,
      "loss": 0.9803,
      "num_input_tokens_seen": 470100028,
      "step": 3722
    },
    {
      "epoch": 0.9547874046046303,
      "loss": 1.051772117614746,
      "loss_ce": 0.0005025180871598423,
      "loss_iou": 0.490234375,
      "loss_num": 0.013671875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 470100028,
      "step": 3722
    },
    {
      "epoch": 0.9550439299685757,
      "grad_norm": 44.24982452392578,
      "learning_rate": 5e-06,
      "loss": 0.9829,
      "num_input_tokens_seen": 470226356,
      "step": 3723
    },
    {
      "epoch": 0.9550439299685757,
      "loss": 1.1333545446395874,
      "loss_ce": 0.0015185597585514188,
      "loss_iou": 0.5234375,
      "loss_num": 0.017578125,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 470226356,
      "step": 3723
    },
    {
      "epoch": 0.955300455332521,
      "grad_norm": 57.111114501953125,
      "learning_rate": 5e-06,
      "loss": 0.81,
      "num_input_tokens_seen": 470353288,
      "step": 3724
    },
    {
      "epoch": 0.955300455332521,
      "loss": 0.9511011242866516,
      "loss_ce": 0.0006617032922804356,
      "loss_iou": 0.4453125,
      "loss_num": 0.01220703125,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 470353288,
      "step": 3724
    },
    {
      "epoch": 0.9555569806964663,
      "grad_norm": 56.31776428222656,
      "learning_rate": 5e-06,
      "loss": 0.8451,
      "num_input_tokens_seen": 470479236,
      "step": 3725
    },
    {
      "epoch": 0.9555569806964663,
      "loss": 0.8598451614379883,
      "loss_ce": 0.0004702183650806546,
      "loss_iou": 0.404296875,
      "loss_num": 0.0096435546875,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 470479236,
      "step": 3725
    },
    {
      "epoch": 0.9558135060604117,
      "grad_norm": 55.03281021118164,
      "learning_rate": 5e-06,
      "loss": 0.9499,
      "num_input_tokens_seen": 470606296,
      "step": 3726
    },
    {
      "epoch": 0.9558135060604117,
      "loss": 0.8283292651176453,
      "loss_ce": 0.0031339661218225956,
      "loss_iou": 0.36328125,
      "loss_num": 0.0196533203125,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 470606296,
      "step": 3726
    },
    {
      "epoch": 0.9560700314243571,
      "grad_norm": 48.802059173583984,
      "learning_rate": 5e-06,
      "loss": 0.9125,
      "num_input_tokens_seen": 470731420,
      "step": 3727
    },
    {
      "epoch": 0.9560700314243571,
      "loss": 1.2767093181610107,
      "loss_ce": 0.000830433564260602,
      "loss_iou": 0.57421875,
      "loss_num": 0.025634765625,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 470731420,
      "step": 3727
    },
    {
      "epoch": 0.9563265567883025,
      "grad_norm": 49.176475524902344,
      "learning_rate": 5e-06,
      "loss": 0.8638,
      "num_input_tokens_seen": 470857928,
      "step": 3728
    },
    {
      "epoch": 0.9563265567883025,
      "loss": 0.7283087372779846,
      "loss_ce": 0.00028139573987573385,
      "loss_iou": 0.3515625,
      "loss_num": 0.004608154296875,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 470857928,
      "step": 3728
    },
    {
      "epoch": 0.9565830821522479,
      "grad_norm": 55.19975662231445,
      "learning_rate": 5e-06,
      "loss": 0.8153,
      "num_input_tokens_seen": 470983320,
      "step": 3729
    },
    {
      "epoch": 0.9565830821522479,
      "loss": 0.9633890390396118,
      "loss_ce": 0.001963268034160137,
      "loss_iou": 0.455078125,
      "loss_num": 0.0101318359375,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 470983320,
      "step": 3729
    },
    {
      "epoch": 0.9568396075161931,
      "grad_norm": 46.52829360961914,
      "learning_rate": 5e-06,
      "loss": 1.007,
      "num_input_tokens_seen": 471109344,
      "step": 3730
    },
    {
      "epoch": 0.9568396075161931,
      "loss": 1.0144968032836914,
      "loss_ce": 0.004731196444481611,
      "loss_iou": 0.458984375,
      "loss_num": 0.01806640625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 471109344,
      "step": 3730
    },
    {
      "epoch": 0.9570961328801385,
      "grad_norm": 37.07002639770508,
      "learning_rate": 5e-06,
      "loss": 0.9242,
      "num_input_tokens_seen": 471235136,
      "step": 3731
    },
    {
      "epoch": 0.9570961328801385,
      "loss": 0.9647266864776611,
      "loss_ce": 0.0003712321340572089,
      "loss_iou": 0.4453125,
      "loss_num": 0.01434326171875,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 471235136,
      "step": 3731
    },
    {
      "epoch": 0.9573526582440839,
      "grad_norm": 33.90400695800781,
      "learning_rate": 5e-06,
      "loss": 0.9179,
      "num_input_tokens_seen": 471360944,
      "step": 3732
    },
    {
      "epoch": 0.9573526582440839,
      "loss": 1.016692876815796,
      "loss_ce": 0.0020444290712475777,
      "loss_iou": 0.435546875,
      "loss_num": 0.02880859375,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 471360944,
      "step": 3732
    },
    {
      "epoch": 0.9576091836080293,
      "grad_norm": 35.045352935791016,
      "learning_rate": 5e-06,
      "loss": 0.9199,
      "num_input_tokens_seen": 471487496,
      "step": 3733
    },
    {
      "epoch": 0.9576091836080293,
      "loss": 0.8688026666641235,
      "loss_ce": 0.0006386188324540854,
      "loss_iou": 0.40625,
      "loss_num": 0.01123046875,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 471487496,
      "step": 3733
    },
    {
      "epoch": 0.9578657089719746,
      "grad_norm": 45.78194046020508,
      "learning_rate": 5e-06,
      "loss": 0.8633,
      "num_input_tokens_seen": 471613500,
      "step": 3734
    },
    {
      "epoch": 0.9578657089719746,
      "loss": 1.1330904960632324,
      "loss_ce": 0.003695887280628085,
      "loss_iou": 0.51171875,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 471613500,
      "step": 3734
    },
    {
      "epoch": 0.9581222343359199,
      "grad_norm": 53.44545364379883,
      "learning_rate": 5e-06,
      "loss": 0.85,
      "num_input_tokens_seen": 471739428,
      "step": 3735
    },
    {
      "epoch": 0.9581222343359199,
      "loss": 0.8890461921691895,
      "loss_ce": 0.008919235318899155,
      "loss_iou": 0.39453125,
      "loss_num": 0.018310546875,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 471739428,
      "step": 3735
    },
    {
      "epoch": 0.9583787596998653,
      "grad_norm": 43.31914138793945,
      "learning_rate": 5e-06,
      "loss": 0.9573,
      "num_input_tokens_seen": 471865228,
      "step": 3736
    },
    {
      "epoch": 0.9583787596998653,
      "loss": 1.0277109146118164,
      "loss_ce": 0.0006113672279752791,
      "loss_iou": 0.4765625,
      "loss_num": 0.01519775390625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 471865228,
      "step": 3736
    },
    {
      "epoch": 0.9586352850638107,
      "grad_norm": 46.960105895996094,
      "learning_rate": 5e-06,
      "loss": 0.8798,
      "num_input_tokens_seen": 471991716,
      "step": 3737
    },
    {
      "epoch": 0.9586352850638107,
      "loss": 0.848606526851654,
      "loss_ce": 0.0037578989285975695,
      "loss_iou": 0.36328125,
      "loss_num": 0.0238037109375,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 471991716,
      "step": 3737
    },
    {
      "epoch": 0.9588918104277561,
      "grad_norm": 42.24656677246094,
      "learning_rate": 5e-06,
      "loss": 0.9303,
      "num_input_tokens_seen": 472117944,
      "step": 3738
    },
    {
      "epoch": 0.9588918104277561,
      "loss": 0.7858527898788452,
      "loss_ce": 0.0016731544164940715,
      "loss_iou": 0.35546875,
      "loss_num": 0.01422119140625,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 472117944,
      "step": 3738
    },
    {
      "epoch": 0.9591483357917014,
      "grad_norm": 40.11541748046875,
      "learning_rate": 5e-06,
      "loss": 0.8473,
      "num_input_tokens_seen": 472245048,
      "step": 3739
    },
    {
      "epoch": 0.9591483357917014,
      "loss": 0.7120316028594971,
      "loss_ce": 0.001582384342327714,
      "loss_iou": 0.330078125,
      "loss_num": 0.01025390625,
      "loss_xval": 0.7109375,
      "num_input_tokens_seen": 472245048,
      "step": 3739
    },
    {
      "epoch": 0.9594048611556467,
      "grad_norm": 48.304927825927734,
      "learning_rate": 5e-06,
      "loss": 0.8505,
      "num_input_tokens_seen": 472370164,
      "step": 3740
    },
    {
      "epoch": 0.9594048611556467,
      "loss": 0.7848272323608398,
      "loss_ce": 0.0004034331941511482,
      "loss_iou": 0.361328125,
      "loss_num": 0.01226806640625,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 472370164,
      "step": 3740
    },
    {
      "epoch": 0.9596613865195921,
      "grad_norm": 64.52574920654297,
      "learning_rate": 5e-06,
      "loss": 0.928,
      "num_input_tokens_seen": 472496728,
      "step": 3741
    },
    {
      "epoch": 0.9596613865195921,
      "loss": 1.0613837242126465,
      "loss_ce": 0.0027899255510419607,
      "loss_iou": 0.482421875,
      "loss_num": 0.018310546875,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 472496728,
      "step": 3741
    },
    {
      "epoch": 0.9599179118835375,
      "grad_norm": 59.014198303222656,
      "learning_rate": 5e-06,
      "loss": 0.9887,
      "num_input_tokens_seen": 472623668,
      "step": 3742
    },
    {
      "epoch": 0.9599179118835375,
      "loss": 0.9604536294937134,
      "loss_ce": 0.0009809542680159211,
      "loss_iou": 0.44921875,
      "loss_num": 0.012451171875,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 472623668,
      "step": 3742
    },
    {
      "epoch": 0.9601744372474829,
      "grad_norm": 39.682281494140625,
      "learning_rate": 5e-06,
      "loss": 0.9474,
      "num_input_tokens_seen": 472748204,
      "step": 3743
    },
    {
      "epoch": 0.9601744372474829,
      "loss": 1.0365900993347168,
      "loss_ce": 0.0009454383980482817,
      "loss_iou": 0.466796875,
      "loss_num": 0.019775390625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 472748204,
      "step": 3743
    },
    {
      "epoch": 0.9604309626114282,
      "grad_norm": 42.579471588134766,
      "learning_rate": 5e-06,
      "loss": 0.8822,
      "num_input_tokens_seen": 472875364,
      "step": 3744
    },
    {
      "epoch": 0.9604309626114282,
      "loss": 0.9522095322608948,
      "loss_ce": 0.00030522566521540284,
      "loss_iou": 0.44140625,
      "loss_num": 0.0140380859375,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 472875364,
      "step": 3744
    },
    {
      "epoch": 0.9606874879753735,
      "grad_norm": 50.972434997558594,
      "learning_rate": 5e-06,
      "loss": 0.9854,
      "num_input_tokens_seen": 473001916,
      "step": 3745
    },
    {
      "epoch": 0.9606874879753735,
      "loss": 1.01099693775177,
      "loss_ce": 0.0007430281257256866,
      "loss_iou": 0.4609375,
      "loss_num": 0.01806640625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 473001916,
      "step": 3745
    },
    {
      "epoch": 0.9609440133393189,
      "grad_norm": 42.45807647705078,
      "learning_rate": 5e-06,
      "loss": 0.8632,
      "num_input_tokens_seen": 473128576,
      "step": 3746
    },
    {
      "epoch": 0.9609440133393189,
      "loss": 0.7900751829147339,
      "loss_ce": 0.0005243601626716554,
      "loss_iou": 0.380859375,
      "loss_num": 0.005889892578125,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 473128576,
      "step": 3746
    },
    {
      "epoch": 0.9612005387032643,
      "grad_norm": 68.20001983642578,
      "learning_rate": 5e-06,
      "loss": 0.8823,
      "num_input_tokens_seen": 473256068,
      "step": 3747
    },
    {
      "epoch": 0.9612005387032643,
      "loss": 0.804835319519043,
      "loss_ce": 0.00014778485638089478,
      "loss_iou": 0.380859375,
      "loss_num": 0.00830078125,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 473256068,
      "step": 3747
    },
    {
      "epoch": 0.9614570640672097,
      "grad_norm": 47.22114562988281,
      "learning_rate": 5e-06,
      "loss": 0.8793,
      "num_input_tokens_seen": 473382484,
      "step": 3748
    },
    {
      "epoch": 0.9614570640672097,
      "loss": 0.7414042949676514,
      "loss_ce": 0.00019337376579642296,
      "loss_iou": 0.349609375,
      "loss_num": 0.0084228515625,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 473382484,
      "step": 3748
    },
    {
      "epoch": 0.961713589431155,
      "grad_norm": 18.614967346191406,
      "learning_rate": 5e-06,
      "loss": 0.8882,
      "num_input_tokens_seen": 473509912,
      "step": 3749
    },
    {
      "epoch": 0.961713589431155,
      "loss": 0.8926327228546143,
      "loss_ce": 0.0027401724364608526,
      "loss_iou": 0.40625,
      "loss_num": 0.01544189453125,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 473509912,
      "step": 3749
    },
    {
      "epoch": 0.9619701147951004,
      "grad_norm": 18.26949691772461,
      "learning_rate": 5e-06,
      "loss": 0.8563,
      "num_input_tokens_seen": 473637088,
      "step": 3750
    },
    {
      "epoch": 0.9619701147951004,
      "eval_icons_CIoU": 0.28159932792186737,
      "eval_icons_GIoU": 0.23562762141227722,
      "eval_icons_IoU": 0.4743051379919052,
      "eval_icons_MAE_all": 0.028068319894373417,
      "eval_icons_MAE_h": 0.03759913891553879,
      "eval_icons_MAE_w": 0.06105516292154789,
      "eval_icons_MAE_x_boxes": 0.05570170655846596,
      "eval_icons_MAE_y_boxes": 0.03951370343565941,
      "eval_icons_NUM_probability": 0.9995871186256409,
      "eval_icons_inside_bbox": 0.6805555522441864,
      "eval_icons_loss": 1.634150505065918,
      "eval_icons_loss_ce": 7.489781819458585e-05,
      "eval_icons_loss_iou": 0.743896484375,
      "eval_icons_loss_num": 0.030408859252929688,
      "eval_icons_loss_xval": 1.640625,
      "eval_icons_runtime": 58.2421,
      "eval_icons_samples_per_second": 0.858,
      "eval_icons_steps_per_second": 0.034,
      "num_input_tokens_seen": 473637088,
      "step": 3750
    },
    {
      "epoch": 0.9619701147951004,
      "eval_screenspot_CIoU": 0.139450969795386,
      "eval_screenspot_GIoU": 0.12380100786685944,
      "eval_screenspot_IoU": 0.3015509694814682,
      "eval_screenspot_MAE_all": 0.07744511092702548,
      "eval_screenspot_MAE_h": 0.0702316810687383,
      "eval_screenspot_MAE_w": 0.1192569633324941,
      "eval_screenspot_MAE_x_boxes": 0.1045909399787585,
      "eval_screenspot_MAE_y_boxes": 0.05536154036720594,
      "eval_screenspot_NUM_probability": 0.9999455809593201,
      "eval_screenspot_inside_bbox": 0.6016666690508524,
      "eval_screenspot_loss": 2.1740405559539795,
      "eval_screenspot_loss_ce": 0.0010580015562785168,
      "eval_screenspot_loss_iou": 0.8953450520833334,
      "eval_screenspot_loss_num": 0.08156585693359375,
      "eval_screenspot_loss_xval": 2.1985677083333335,
      "eval_screenspot_runtime": 111.2254,
      "eval_screenspot_samples_per_second": 0.8,
      "eval_screenspot_steps_per_second": 0.027,
      "num_input_tokens_seen": 473637088,
      "step": 3750
    },
    {
      "epoch": 0.9619701147951004,
      "loss": 2.1521248817443848,
      "loss_ce": 0.00075742625631392,
      "loss_iou": 0.890625,
      "loss_num": 0.07421875,
      "loss_xval": 2.15625,
      "num_input_tokens_seen": 473637088,
      "step": 3750
    },
    {
      "epoch": 0.9622266401590457,
      "grad_norm": 15.118363380432129,
      "learning_rate": 5e-06,
      "loss": 0.7363,
      "num_input_tokens_seen": 473762988,
      "step": 3751
    },
    {
      "epoch": 0.9622266401590457,
      "loss": 0.6468114256858826,
      "loss_ce": 0.00032707888749428093,
      "loss_iou": 0.3125,
      "loss_num": 0.00421142578125,
      "loss_xval": 0.6484375,
      "num_input_tokens_seen": 473762988,
      "step": 3751
    },
    {
      "epoch": 0.9624831655229911,
      "grad_norm": 20.239749908447266,
      "learning_rate": 5e-06,
      "loss": 0.9043,
      "num_input_tokens_seen": 473889364,
      "step": 3752
    },
    {
      "epoch": 0.9624831655229911,
      "loss": 0.7558808326721191,
      "loss_ce": 0.0024628937244415283,
      "loss_iou": 0.349609375,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.75390625,
      "num_input_tokens_seen": 473889364,
      "step": 3752
    },
    {
      "epoch": 0.9627396908869365,
      "grad_norm": 27.54178810119629,
      "learning_rate": 5e-06,
      "loss": 0.7943,
      "num_input_tokens_seen": 474016532,
      "step": 3753
    },
    {
      "epoch": 0.9627396908869365,
      "loss": 0.8111331462860107,
      "loss_ce": 0.0013186900177970529,
      "loss_iou": 0.376953125,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 474016532,
      "step": 3753
    },
    {
      "epoch": 0.9629962162508818,
      "grad_norm": 62.48238754272461,
      "learning_rate": 5e-06,
      "loss": 0.7971,
      "num_input_tokens_seen": 474143172,
      "step": 3754
    },
    {
      "epoch": 0.9629962162508818,
      "loss": 0.7653334140777588,
      "loss_ce": 0.00019668778986670077,
      "loss_iou": 0.359375,
      "loss_num": 0.00921630859375,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 474143172,
      "step": 3754
    },
    {
      "epoch": 0.9632527416148272,
      "grad_norm": 44.72796630859375,
      "learning_rate": 5e-06,
      "loss": 0.9834,
      "num_input_tokens_seen": 474269056,
      "step": 3755
    },
    {
      "epoch": 0.9632527416148272,
      "loss": 1.1097055673599243,
      "loss_ce": 0.0008188991341739893,
      "loss_iou": 0.498046875,
      "loss_num": 0.0228271484375,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 474269056,
      "step": 3755
    },
    {
      "epoch": 0.9635092669787725,
      "grad_norm": 21.309350967407227,
      "learning_rate": 5e-06,
      "loss": 0.9436,
      "num_input_tokens_seen": 474395460,
      "step": 3756
    },
    {
      "epoch": 0.9635092669787725,
      "loss": 1.0083272457122803,
      "loss_ce": 0.0014913163613528013,
      "loss_iou": 0.4609375,
      "loss_num": 0.017333984375,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 474395460,
      "step": 3756
    },
    {
      "epoch": 0.9637657923427179,
      "grad_norm": 28.973154067993164,
      "learning_rate": 5e-06,
      "loss": 0.9667,
      "num_input_tokens_seen": 474521812,
      "step": 3757
    },
    {
      "epoch": 0.9637657923427179,
      "loss": 0.8583625555038452,
      "loss_ce": 0.000940679747145623,
      "loss_iou": 0.380859375,
      "loss_num": 0.0191650390625,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 474521812,
      "step": 3757
    },
    {
      "epoch": 0.9640223177066632,
      "grad_norm": 26.086645126342773,
      "learning_rate": 5e-06,
      "loss": 0.8433,
      "num_input_tokens_seen": 474648048,
      "step": 3758
    },
    {
      "epoch": 0.9640223177066632,
      "loss": 0.8629547357559204,
      "loss_ce": 0.00016175792552530766,
      "loss_iou": 0.41015625,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 474648048,
      "step": 3758
    },
    {
      "epoch": 0.9642788430706086,
      "grad_norm": 38.165348052978516,
      "learning_rate": 5e-06,
      "loss": 0.8225,
      "num_input_tokens_seen": 474775276,
      "step": 3759
    },
    {
      "epoch": 0.9642788430706086,
      "loss": 0.9540954828262329,
      "loss_ce": 0.0029236450791358948,
      "loss_iou": 0.421875,
      "loss_num": 0.0211181640625,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 474775276,
      "step": 3759
    },
    {
      "epoch": 0.964535368434554,
      "grad_norm": 56.49632263183594,
      "learning_rate": 5e-06,
      "loss": 0.9588,
      "num_input_tokens_seen": 474901596,
      "step": 3760
    },
    {
      "epoch": 0.964535368434554,
      "loss": 0.7659876942634583,
      "loss_ce": 0.0003626969119068235,
      "loss_iou": 0.369140625,
      "loss_num": 0.00518798828125,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 474901596,
      "step": 3760
    },
    {
      "epoch": 0.9647918937984993,
      "grad_norm": 44.99468994140625,
      "learning_rate": 5e-06,
      "loss": 1.0001,
      "num_input_tokens_seen": 475027836,
      "step": 3761
    },
    {
      "epoch": 0.9647918937984993,
      "loss": 0.8458908796310425,
      "loss_ce": 0.00018773060583043844,
      "loss_iou": 0.404296875,
      "loss_num": 0.006988525390625,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 475027836,
      "step": 3761
    },
    {
      "epoch": 0.9650484191624447,
      "grad_norm": 41.79753494262695,
      "learning_rate": 5e-06,
      "loss": 0.8195,
      "num_input_tokens_seen": 475155716,
      "step": 3762
    },
    {
      "epoch": 0.9650484191624447,
      "loss": 0.8121501207351685,
      "loss_ce": 0.00013845294597558677,
      "loss_iou": 0.380859375,
      "loss_num": 0.01031494140625,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 475155716,
      "step": 3762
    },
    {
      "epoch": 0.96530494452639,
      "grad_norm": 42.61994171142578,
      "learning_rate": 5e-06,
      "loss": 0.8966,
      "num_input_tokens_seen": 475281868,
      "step": 3763
    },
    {
      "epoch": 0.96530494452639,
      "loss": 0.9151062965393066,
      "loss_ce": 0.0029969641473144293,
      "loss_iou": 0.423828125,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 475281868,
      "step": 3763
    },
    {
      "epoch": 0.9655614698903354,
      "grad_norm": 39.85020446777344,
      "learning_rate": 5e-06,
      "loss": 0.8359,
      "num_input_tokens_seen": 475408504,
      "step": 3764
    },
    {
      "epoch": 0.9655614698903354,
      "loss": 0.9258280396461487,
      "loss_ce": 0.00029090908356010914,
      "loss_iou": 0.435546875,
      "loss_num": 0.01068115234375,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 475408504,
      "step": 3764
    },
    {
      "epoch": 0.9658179952542808,
      "grad_norm": 29.624691009521484,
      "learning_rate": 5e-06,
      "loss": 0.9379,
      "num_input_tokens_seen": 475532992,
      "step": 3765
    },
    {
      "epoch": 0.9658179952542808,
      "loss": 0.9038563966751099,
      "loss_ce": 0.0015126244397833943,
      "loss_iou": 0.4140625,
      "loss_num": 0.0147705078125,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 475532992,
      "step": 3765
    },
    {
      "epoch": 0.9660745206182261,
      "grad_norm": 29.585498809814453,
      "learning_rate": 5e-06,
      "loss": 0.9796,
      "num_input_tokens_seen": 475659856,
      "step": 3766
    },
    {
      "epoch": 0.9660745206182261,
      "loss": 0.9447678327560425,
      "loss_ce": 0.0014084293507039547,
      "loss_iou": 0.416015625,
      "loss_num": 0.0223388671875,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 475659856,
      "step": 3766
    },
    {
      "epoch": 0.9663310459821715,
      "grad_norm": 44.51248550415039,
      "learning_rate": 5e-06,
      "loss": 0.9305,
      "num_input_tokens_seen": 475785884,
      "step": 3767
    },
    {
      "epoch": 0.9663310459821715,
      "loss": 0.9744595289230347,
      "loss_ce": 0.0003384186129551381,
      "loss_iou": 0.447265625,
      "loss_num": 0.015625,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 475785884,
      "step": 3767
    },
    {
      "epoch": 0.9665875713461168,
      "grad_norm": 39.980674743652344,
      "learning_rate": 5e-06,
      "loss": 0.9248,
      "num_input_tokens_seen": 475912860,
      "step": 3768
    },
    {
      "epoch": 0.9665875713461168,
      "loss": 0.8187769055366516,
      "loss_ce": 0.0004175486392341554,
      "loss_iou": 0.390625,
      "loss_num": 0.007080078125,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 475912860,
      "step": 3768
    },
    {
      "epoch": 0.9668440967100622,
      "grad_norm": 62.116050720214844,
      "learning_rate": 5e-06,
      "loss": 0.7571,
      "num_input_tokens_seen": 476040564,
      "step": 3769
    },
    {
      "epoch": 0.9668440967100622,
      "loss": 0.8192197680473328,
      "loss_ce": 0.0018369618337601423,
      "loss_iou": 0.388671875,
      "loss_num": 0.00811767578125,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 476040564,
      "step": 3769
    },
    {
      "epoch": 0.9671006220740076,
      "grad_norm": 42.37794876098633,
      "learning_rate": 5e-06,
      "loss": 0.9116,
      "num_input_tokens_seen": 476165888,
      "step": 3770
    },
    {
      "epoch": 0.9671006220740076,
      "loss": 0.974213182926178,
      "loss_ce": 0.002045197645202279,
      "loss_iou": 0.4453125,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 476165888,
      "step": 3770
    },
    {
      "epoch": 0.967357147437953,
      "grad_norm": 33.12092208862305,
      "learning_rate": 5e-06,
      "loss": 0.8708,
      "num_input_tokens_seen": 476293396,
      "step": 3771
    },
    {
      "epoch": 0.967357147437953,
      "loss": 0.6794819831848145,
      "loss_ce": 0.0005269336979836226,
      "loss_iou": 0.328125,
      "loss_num": 0.00469970703125,
      "loss_xval": 0.6796875,
      "num_input_tokens_seen": 476293396,
      "step": 3771
    },
    {
      "epoch": 0.9676136728018983,
      "grad_norm": 36.52384948730469,
      "learning_rate": 5e-06,
      "loss": 0.8753,
      "num_input_tokens_seen": 476419128,
      "step": 3772
    },
    {
      "epoch": 0.9676136728018983,
      "loss": 0.9944947957992554,
      "loss_ce": 0.0008425063570030034,
      "loss_iou": 0.4609375,
      "loss_num": 0.01416015625,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 476419128,
      "step": 3772
    },
    {
      "epoch": 0.9678701981658436,
      "grad_norm": 31.59944725036621,
      "learning_rate": 5e-06,
      "loss": 0.8248,
      "num_input_tokens_seen": 476545764,
      "step": 3773
    },
    {
      "epoch": 0.9678701981658436,
      "loss": 0.763606071472168,
      "loss_ce": 0.0004224727163091302,
      "loss_iou": 0.361328125,
      "loss_num": 0.008056640625,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 476545764,
      "step": 3773
    },
    {
      "epoch": 0.968126723529789,
      "grad_norm": 36.53330993652344,
      "learning_rate": 5e-06,
      "loss": 0.8699,
      "num_input_tokens_seen": 476671620,
      "step": 3774
    },
    {
      "epoch": 0.968126723529789,
      "loss": 0.9843180179595947,
      "loss_ce": 0.0018961526220664382,
      "loss_iou": 0.458984375,
      "loss_num": 0.012939453125,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 476671620,
      "step": 3774
    },
    {
      "epoch": 0.9683832488937344,
      "grad_norm": 47.60365295410156,
      "learning_rate": 5e-06,
      "loss": 0.9461,
      "num_input_tokens_seen": 476798852,
      "step": 3775
    },
    {
      "epoch": 0.9683832488937344,
      "loss": 0.9560651779174805,
      "loss_ce": 0.0019636217039078474,
      "loss_iou": 0.439453125,
      "loss_num": 0.01470947265625,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 476798852,
      "step": 3775
    },
    {
      "epoch": 0.9686397742576798,
      "grad_norm": 68.0597152709961,
      "learning_rate": 5e-06,
      "loss": 0.9664,
      "num_input_tokens_seen": 476926000,
      "step": 3776
    },
    {
      "epoch": 0.9686397742576798,
      "loss": 0.9471697807312012,
      "loss_ce": 0.001368994009681046,
      "loss_iou": 0.43359375,
      "loss_num": 0.0155029296875,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 476926000,
      "step": 3776
    },
    {
      "epoch": 0.968896299621625,
      "grad_norm": 51.54879379272461,
      "learning_rate": 5e-06,
      "loss": 0.9529,
      "num_input_tokens_seen": 477053680,
      "step": 3777
    },
    {
      "epoch": 0.968896299621625,
      "loss": 0.9372760653495789,
      "loss_ce": 0.007588581182062626,
      "loss_iou": 0.43359375,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 477053680,
      "step": 3777
    },
    {
      "epoch": 0.9691528249855704,
      "grad_norm": 55.4357795715332,
      "learning_rate": 5e-06,
      "loss": 0.9686,
      "num_input_tokens_seen": 477179636,
      "step": 3778
    },
    {
      "epoch": 0.9691528249855704,
      "loss": 1.04085111618042,
      "loss_ce": 0.0003237906494177878,
      "loss_iou": 0.4921875,
      "loss_num": 0.0115966796875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 477179636,
      "step": 3778
    },
    {
      "epoch": 0.9694093503495158,
      "grad_norm": 59.3634147644043,
      "learning_rate": 5e-06,
      "loss": 0.9863,
      "num_input_tokens_seen": 477307344,
      "step": 3779
    },
    {
      "epoch": 0.9694093503495158,
      "loss": 0.8808553218841553,
      "loss_ce": 0.0014608247438445687,
      "loss_iou": 0.423828125,
      "loss_num": 0.0064697265625,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 477307344,
      "step": 3779
    },
    {
      "epoch": 0.9696658757134612,
      "grad_norm": 57.58024215698242,
      "learning_rate": 5e-06,
      "loss": 0.88,
      "num_input_tokens_seen": 477435008,
      "step": 3780
    },
    {
      "epoch": 0.9696658757134612,
      "loss": 0.8308746814727783,
      "loss_ce": 0.0005524898879230022,
      "loss_iou": 0.373046875,
      "loss_num": 0.0167236328125,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 477435008,
      "step": 3780
    },
    {
      "epoch": 0.9699224010774066,
      "grad_norm": 53.64982604980469,
      "learning_rate": 5e-06,
      "loss": 0.9129,
      "num_input_tokens_seen": 477562544,
      "step": 3781
    },
    {
      "epoch": 0.9699224010774066,
      "loss": 0.9248617887496948,
      "loss_ce": 0.0020102285780012608,
      "loss_iou": 0.419921875,
      "loss_num": 0.0164794921875,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 477562544,
      "step": 3781
    },
    {
      "epoch": 0.9701789264413518,
      "grad_norm": 50.849205017089844,
      "learning_rate": 5e-06,
      "loss": 1.0309,
      "num_input_tokens_seen": 477689252,
      "step": 3782
    },
    {
      "epoch": 0.9701789264413518,
      "loss": 1.0201706886291504,
      "loss_ce": 0.0030808113515377045,
      "loss_iou": 0.474609375,
      "loss_num": 0.01336669921875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 477689252,
      "step": 3782
    },
    {
      "epoch": 0.9704354518052972,
      "grad_norm": 43.21278381347656,
      "learning_rate": 5e-06,
      "loss": 0.8686,
      "num_input_tokens_seen": 477815532,
      "step": 3783
    },
    {
      "epoch": 0.9704354518052972,
      "loss": 0.8473470211029053,
      "loss_ce": 0.00017904967535287142,
      "loss_iou": 0.39453125,
      "loss_num": 0.01177978515625,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 477815532,
      "step": 3783
    },
    {
      "epoch": 0.9706919771692426,
      "grad_norm": 42.83711242675781,
      "learning_rate": 5e-06,
      "loss": 0.8671,
      "num_input_tokens_seen": 477942116,
      "step": 3784
    },
    {
      "epoch": 0.9706919771692426,
      "loss": 1.0270847082138062,
      "loss_ce": 0.0002292288700118661,
      "loss_iou": 0.462890625,
      "loss_num": 0.020263671875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 477942116,
      "step": 3784
    },
    {
      "epoch": 0.970948502533188,
      "grad_norm": 48.00284194946289,
      "learning_rate": 5e-06,
      "loss": 0.9883,
      "num_input_tokens_seen": 478067464,
      "step": 3785
    },
    {
      "epoch": 0.970948502533188,
      "loss": 0.9106899499893188,
      "loss_ce": 0.0007779004517942667,
      "loss_iou": 0.421875,
      "loss_num": 0.01318359375,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 478067464,
      "step": 3785
    },
    {
      "epoch": 0.9712050278971334,
      "grad_norm": 49.067779541015625,
      "learning_rate": 5e-06,
      "loss": 0.8579,
      "num_input_tokens_seen": 478193656,
      "step": 3786
    },
    {
      "epoch": 0.9712050278971334,
      "loss": 0.6648258566856384,
      "loss_ce": 0.00027508524362929165,
      "loss_iou": 0.3125,
      "loss_num": 0.00799560546875,
      "loss_xval": 0.6640625,
      "num_input_tokens_seen": 478193656,
      "step": 3786
    },
    {
      "epoch": 0.9714615532610786,
      "grad_norm": 45.956016540527344,
      "learning_rate": 5e-06,
      "loss": 0.7353,
      "num_input_tokens_seen": 478320828,
      "step": 3787
    },
    {
      "epoch": 0.9714615532610786,
      "loss": 0.8010964393615723,
      "loss_ce": 0.0008034704369492829,
      "loss_iou": 0.37890625,
      "loss_num": 0.00897216796875,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 478320828,
      "step": 3787
    },
    {
      "epoch": 0.971718078625024,
      "grad_norm": 49.53134536743164,
      "learning_rate": 5e-06,
      "loss": 0.9559,
      "num_input_tokens_seen": 478448120,
      "step": 3788
    },
    {
      "epoch": 0.971718078625024,
      "loss": 0.8926812410354614,
      "loss_ce": 0.0005913989734835923,
      "loss_iou": 0.416015625,
      "loss_num": 0.01202392578125,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 478448120,
      "step": 3788
    },
    {
      "epoch": 0.9719746039889694,
      "grad_norm": 48.36085891723633,
      "learning_rate": 5e-06,
      "loss": 0.8586,
      "num_input_tokens_seen": 478573980,
      "step": 3789
    },
    {
      "epoch": 0.9719746039889694,
      "loss": 0.9248802661895752,
      "loss_ce": 0.0005638045840896666,
      "loss_iou": 0.4296875,
      "loss_num": 0.01336669921875,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 478573980,
      "step": 3789
    },
    {
      "epoch": 0.9722311293529148,
      "grad_norm": 43.8896598815918,
      "learning_rate": 5e-06,
      "loss": 0.8679,
      "num_input_tokens_seen": 478700460,
      "step": 3790
    },
    {
      "epoch": 0.9722311293529148,
      "loss": 1.0170912742614746,
      "loss_ce": 0.0007339154835790396,
      "loss_iou": 0.4609375,
      "loss_num": 0.018798828125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 478700460,
      "step": 3790
    },
    {
      "epoch": 0.9724876547168602,
      "grad_norm": 41.30145263671875,
      "learning_rate": 5e-06,
      "loss": 1.0382,
      "num_input_tokens_seen": 478827868,
      "step": 3791
    },
    {
      "epoch": 0.9724876547168602,
      "loss": 1.1369524002075195,
      "loss_ce": 0.00047791990800760686,
      "loss_iou": 0.515625,
      "loss_num": 0.021728515625,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 478827868,
      "step": 3791
    },
    {
      "epoch": 0.9727441800808055,
      "grad_norm": 91.9818344116211,
      "learning_rate": 5e-06,
      "loss": 0.797,
      "num_input_tokens_seen": 478954456,
      "step": 3792
    },
    {
      "epoch": 0.9727441800808055,
      "loss": 0.6783241033554077,
      "loss_ce": 0.004007694311439991,
      "loss_iou": 0.32421875,
      "loss_num": 0.005584716796875,
      "loss_xval": 0.67578125,
      "num_input_tokens_seen": 478954456,
      "step": 3792
    },
    {
      "epoch": 0.9730007054447508,
      "grad_norm": 56.80247497558594,
      "learning_rate": 5e-06,
      "loss": 0.9786,
      "num_input_tokens_seen": 479081532,
      "step": 3793
    },
    {
      "epoch": 0.9730007054447508,
      "loss": 0.9465374946594238,
      "loss_ce": 0.0017132906941697001,
      "loss_iou": 0.44140625,
      "loss_num": 0.01190185546875,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 479081532,
      "step": 3793
    },
    {
      "epoch": 0.9732572308086962,
      "grad_norm": 60.84225082397461,
      "learning_rate": 5e-06,
      "loss": 0.9072,
      "num_input_tokens_seen": 479208724,
      "step": 3794
    },
    {
      "epoch": 0.9732572308086962,
      "loss": 0.7912815809249878,
      "loss_ce": 0.002951489295810461,
      "loss_iou": 0.361328125,
      "loss_num": 0.01275634765625,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 479208724,
      "step": 3794
    },
    {
      "epoch": 0.9735137561726416,
      "grad_norm": 43.424171447753906,
      "learning_rate": 5e-06,
      "loss": 0.9856,
      "num_input_tokens_seen": 479332984,
      "step": 3795
    },
    {
      "epoch": 0.9735137561726416,
      "loss": 0.9396910071372986,
      "loss_ce": 0.0012144551146775484,
      "loss_iou": 0.4296875,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 479332984,
      "step": 3795
    },
    {
      "epoch": 0.973770281536587,
      "grad_norm": 41.4870719909668,
      "learning_rate": 5e-06,
      "loss": 0.8905,
      "num_input_tokens_seen": 479458000,
      "step": 3796
    },
    {
      "epoch": 0.973770281536587,
      "loss": 0.7291303277015686,
      "loss_ce": 0.00037055107532069087,
      "loss_iou": 0.34765625,
      "loss_num": 0.007049560546875,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 479458000,
      "step": 3796
    },
    {
      "epoch": 0.9740268069005323,
      "grad_norm": 40.937034606933594,
      "learning_rate": 5e-06,
      "loss": 0.8884,
      "num_input_tokens_seen": 479585104,
      "step": 3797
    },
    {
      "epoch": 0.9740268069005323,
      "loss": 0.9156482815742493,
      "loss_ce": 0.0010975201148539782,
      "loss_iou": 0.427734375,
      "loss_num": 0.01165771484375,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 479585104,
      "step": 3797
    },
    {
      "epoch": 0.9742833322644776,
      "grad_norm": 49.57102966308594,
      "learning_rate": 5e-06,
      "loss": 0.9635,
      "num_input_tokens_seen": 479709600,
      "step": 3798
    },
    {
      "epoch": 0.9742833322644776,
      "loss": 0.8308295607566833,
      "loss_ce": 0.0017279739258810878,
      "loss_iou": 0.384765625,
      "loss_num": 0.01202392578125,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 479709600,
      "step": 3798
    },
    {
      "epoch": 0.974539857628423,
      "grad_norm": 35.48270797729492,
      "learning_rate": 5e-06,
      "loss": 0.8044,
      "num_input_tokens_seen": 479834844,
      "step": 3799
    },
    {
      "epoch": 0.974539857628423,
      "loss": 0.7902050614356995,
      "loss_ce": 0.0001660330599406734,
      "loss_iou": 0.37890625,
      "loss_num": 0.006439208984375,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 479834844,
      "step": 3799
    },
    {
      "epoch": 0.9747963829923684,
      "grad_norm": 51.63544464111328,
      "learning_rate": 5e-06,
      "loss": 0.8865,
      "num_input_tokens_seen": 479960344,
      "step": 3800
    },
    {
      "epoch": 0.9747963829923684,
      "loss": 0.9673585891723633,
      "loss_ce": 0.0005617217975668609,
      "loss_iou": 0.42578125,
      "loss_num": 0.0225830078125,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 479960344,
      "step": 3800
    },
    {
      "epoch": 0.9750529083563138,
      "grad_norm": 33.3945198059082,
      "learning_rate": 5e-06,
      "loss": 0.8115,
      "num_input_tokens_seen": 480086600,
      "step": 3801
    },
    {
      "epoch": 0.9750529083563138,
      "loss": 0.8440885543823242,
      "loss_ce": 0.0018033909145742655,
      "loss_iou": 0.38671875,
      "loss_num": 0.0135498046875,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 480086600,
      "step": 3801
    },
    {
      "epoch": 0.9753094337202591,
      "grad_norm": 26.238550186157227,
      "learning_rate": 5e-06,
      "loss": 0.8784,
      "num_input_tokens_seen": 480212440,
      "step": 3802
    },
    {
      "epoch": 0.9753094337202591,
      "loss": 0.920222282409668,
      "loss_ce": 0.00323007651604712,
      "loss_iou": 0.42578125,
      "loss_num": 0.013671875,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 480212440,
      "step": 3802
    },
    {
      "epoch": 0.9755659590842044,
      "grad_norm": 33.98586654663086,
      "learning_rate": 5e-06,
      "loss": 0.8902,
      "num_input_tokens_seen": 480338776,
      "step": 3803
    },
    {
      "epoch": 0.9755659590842044,
      "loss": 0.8389899730682373,
      "loss_ce": 0.00036700593773275614,
      "loss_iou": 0.392578125,
      "loss_num": 0.01116943359375,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 480338776,
      "step": 3803
    },
    {
      "epoch": 0.9758224844481498,
      "grad_norm": 37.99490737915039,
      "learning_rate": 5e-06,
      "loss": 0.961,
      "num_input_tokens_seen": 480464764,
      "step": 3804
    },
    {
      "epoch": 0.9758224844481498,
      "loss": 0.8786604404449463,
      "loss_ce": 0.0007307725609280169,
      "loss_iou": 0.416015625,
      "loss_num": 0.00909423828125,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 480464764,
      "step": 3804
    },
    {
      "epoch": 0.9760790098120952,
      "grad_norm": 36.646942138671875,
      "learning_rate": 5e-06,
      "loss": 0.8755,
      "num_input_tokens_seen": 480591928,
      "step": 3805
    },
    {
      "epoch": 0.9760790098120952,
      "loss": 0.9064186215400696,
      "loss_ce": 0.0016334872925654054,
      "loss_iou": 0.40625,
      "loss_num": 0.0184326171875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 480591928,
      "step": 3805
    },
    {
      "epoch": 0.9763355351760405,
      "grad_norm": 45.871238708496094,
      "learning_rate": 5e-06,
      "loss": 0.9306,
      "num_input_tokens_seen": 480719264,
      "step": 3806
    },
    {
      "epoch": 0.9763355351760405,
      "loss": 0.9059736728668213,
      "loss_ce": 0.0007002401980571449,
      "loss_iou": 0.419921875,
      "loss_num": 0.01287841796875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 480719264,
      "step": 3806
    },
    {
      "epoch": 0.9765920605399859,
      "grad_norm": 34.62343215942383,
      "learning_rate": 5e-06,
      "loss": 0.9901,
      "num_input_tokens_seen": 480845744,
      "step": 3807
    },
    {
      "epoch": 0.9765920605399859,
      "loss": 0.8348743915557861,
      "loss_ce": 0.0013782616006210446,
      "loss_iou": 0.38671875,
      "loss_num": 0.01220703125,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 480845744,
      "step": 3807
    },
    {
      "epoch": 0.9768485859039312,
      "grad_norm": 22.532493591308594,
      "learning_rate": 5e-06,
      "loss": 0.8511,
      "num_input_tokens_seen": 480973392,
      "step": 3808
    },
    {
      "epoch": 0.9768485859039312,
      "loss": 0.8953410387039185,
      "loss_ce": 0.0003215124597772956,
      "loss_iou": 0.408203125,
      "loss_num": 0.015869140625,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 480973392,
      "step": 3808
    },
    {
      "epoch": 0.9771051112678766,
      "grad_norm": 31.452713012695312,
      "learning_rate": 5e-06,
      "loss": 0.8775,
      "num_input_tokens_seen": 481099708,
      "step": 3809
    },
    {
      "epoch": 0.9771051112678766,
      "loss": 0.7500057816505432,
      "loss_ce": 0.0002499092370271683,
      "loss_iou": 0.357421875,
      "loss_num": 0.0072021484375,
      "loss_xval": 0.75,
      "num_input_tokens_seen": 481099708,
      "step": 3809
    },
    {
      "epoch": 0.977361636631822,
      "grad_norm": 34.24294662475586,
      "learning_rate": 5e-06,
      "loss": 0.8045,
      "num_input_tokens_seen": 481225944,
      "step": 3810
    },
    {
      "epoch": 0.977361636631822,
      "loss": 0.9247161149978638,
      "loss_ce": 0.0003997244348283857,
      "loss_iou": 0.419921875,
      "loss_num": 0.016845703125,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 481225944,
      "step": 3810
    },
    {
      "epoch": 0.9776181619957673,
      "grad_norm": 60.927921295166016,
      "learning_rate": 5e-06,
      "loss": 0.9146,
      "num_input_tokens_seen": 481351928,
      "step": 3811
    },
    {
      "epoch": 0.9776181619957673,
      "loss": 1.0008454322814941,
      "loss_ce": 0.0013337605632841587,
      "loss_iou": 0.458984375,
      "loss_num": 0.016357421875,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 481351928,
      "step": 3811
    },
    {
      "epoch": 0.9778746873597127,
      "grad_norm": 38.550018310546875,
      "learning_rate": 5e-06,
      "loss": 1.0196,
      "num_input_tokens_seen": 481478664,
      "step": 3812
    },
    {
      "epoch": 0.9778746873597127,
      "loss": 1.272307276725769,
      "loss_ce": 0.0027760120574384928,
      "loss_iou": 0.55078125,
      "loss_num": 0.033447265625,
      "loss_xval": 1.265625,
      "num_input_tokens_seen": 481478664,
      "step": 3812
    },
    {
      "epoch": 0.9781312127236581,
      "grad_norm": 58.268218994140625,
      "learning_rate": 5e-06,
      "loss": 0.8302,
      "num_input_tokens_seen": 481606304,
      "step": 3813
    },
    {
      "epoch": 0.9781312127236581,
      "loss": 0.6138761639595032,
      "loss_ce": 0.002059745602309704,
      "loss_iou": 0.294921875,
      "loss_num": 0.00457763671875,
      "loss_xval": 0.61328125,
      "num_input_tokens_seen": 481606304,
      "step": 3813
    },
    {
      "epoch": 0.9783877380876034,
      "grad_norm": 45.937530517578125,
      "learning_rate": 5e-06,
      "loss": 0.9694,
      "num_input_tokens_seen": 481732396,
      "step": 3814
    },
    {
      "epoch": 0.9783877380876034,
      "loss": 0.8867267370223999,
      "loss_ce": 0.000496279972139746,
      "loss_iou": 0.41015625,
      "loss_num": 0.012939453125,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 481732396,
      "step": 3814
    },
    {
      "epoch": 0.9786442634515488,
      "grad_norm": 24.20002555847168,
      "learning_rate": 5e-06,
      "loss": 0.8443,
      "num_input_tokens_seen": 481859316,
      "step": 3815
    },
    {
      "epoch": 0.9786442634515488,
      "loss": 0.6843119859695435,
      "loss_ce": 0.0016948458505794406,
      "loss_iou": 0.322265625,
      "loss_num": 0.0076904296875,
      "loss_xval": 0.68359375,
      "num_input_tokens_seen": 481859316,
      "step": 3815
    },
    {
      "epoch": 0.9789007888154941,
      "grad_norm": 38.585540771484375,
      "learning_rate": 5e-06,
      "loss": 0.8715,
      "num_input_tokens_seen": 481986556,
      "step": 3816
    },
    {
      "epoch": 0.9789007888154941,
      "loss": 0.7374401092529297,
      "loss_ce": 0.0008678692393004894,
      "loss_iou": 0.34765625,
      "loss_num": 0.00836181640625,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 481986556,
      "step": 3816
    },
    {
      "epoch": 0.9791573141794395,
      "grad_norm": 76.50428771972656,
      "learning_rate": 5e-06,
      "loss": 0.9653,
      "num_input_tokens_seen": 482114576,
      "step": 3817
    },
    {
      "epoch": 0.9791573141794395,
      "loss": 1.13668954372406,
      "loss_ce": 0.001435635145753622,
      "loss_iou": 0.5078125,
      "loss_num": 0.0234375,
      "loss_xval": 1.1328125,
      "num_input_tokens_seen": 482114576,
      "step": 3817
    },
    {
      "epoch": 0.9794138395433849,
      "grad_norm": 53.28171157836914,
      "learning_rate": 5e-06,
      "loss": 1.0295,
      "num_input_tokens_seen": 482239756,
      "step": 3818
    },
    {
      "epoch": 0.9794138395433849,
      "loss": 1.114926815032959,
      "loss_ce": 0.00018064792675431818,
      "loss_iou": 0.515625,
      "loss_num": 0.015869140625,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 482239756,
      "step": 3818
    },
    {
      "epoch": 0.9796703649073302,
      "grad_norm": 33.97561264038086,
      "learning_rate": 5e-06,
      "loss": 0.8223,
      "num_input_tokens_seen": 482367492,
      "step": 3819
    },
    {
      "epoch": 0.9796703649073302,
      "loss": 0.7915701866149902,
      "loss_ce": 0.0005545966560021043,
      "loss_iou": 0.37109375,
      "loss_num": 0.01025390625,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 482367492,
      "step": 3819
    },
    {
      "epoch": 0.9799268902712756,
      "grad_norm": 25.779245376586914,
      "learning_rate": 5e-06,
      "loss": 0.8625,
      "num_input_tokens_seen": 482494444,
      "step": 3820
    },
    {
      "epoch": 0.9799268902712756,
      "loss": 0.7230817675590515,
      "loss_ce": 0.0006696414202451706,
      "loss_iou": 0.341796875,
      "loss_num": 0.00787353515625,
      "loss_xval": 0.72265625,
      "num_input_tokens_seen": 482494444,
      "step": 3820
    },
    {
      "epoch": 0.9801834156352209,
      "grad_norm": 33.87136459350586,
      "learning_rate": 5e-06,
      "loss": 0.9434,
      "num_input_tokens_seen": 482620392,
      "step": 3821
    },
    {
      "epoch": 0.9801834156352209,
      "loss": 0.710566520690918,
      "loss_ce": 0.0008497126400470734,
      "loss_iou": 0.3359375,
      "loss_num": 0.0072021484375,
      "loss_xval": 0.7109375,
      "num_input_tokens_seen": 482620392,
      "step": 3821
    },
    {
      "epoch": 0.9804399409991663,
      "grad_norm": 45.86960220336914,
      "learning_rate": 5e-06,
      "loss": 0.8085,
      "num_input_tokens_seen": 482746868,
      "step": 3822
    },
    {
      "epoch": 0.9804399409991663,
      "loss": 0.9133434295654297,
      "loss_ce": 0.003675471991300583,
      "loss_iou": 0.421875,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 482746868,
      "step": 3822
    },
    {
      "epoch": 0.9806964663631117,
      "grad_norm": 52.059181213378906,
      "learning_rate": 5e-06,
      "loss": 0.8824,
      "num_input_tokens_seen": 482873396,
      "step": 3823
    },
    {
      "epoch": 0.9806964663631117,
      "loss": 0.67775559425354,
      "loss_ce": 0.001974322134628892,
      "loss_iou": 0.326171875,
      "loss_num": 0.004425048828125,
      "loss_xval": 0.67578125,
      "num_input_tokens_seen": 482873396,
      "step": 3823
    },
    {
      "epoch": 0.980952991727057,
      "grad_norm": 55.782676696777344,
      "learning_rate": 5e-06,
      "loss": 0.8906,
      "num_input_tokens_seen": 482998752,
      "step": 3824
    },
    {
      "epoch": 0.980952991727057,
      "loss": 0.9578033685684204,
      "loss_ce": 0.0002837996289599687,
      "loss_iou": 0.443359375,
      "loss_num": 0.01385498046875,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 482998752,
      "step": 3824
    },
    {
      "epoch": 0.9812095170910023,
      "grad_norm": 58.48487091064453,
      "learning_rate": 5e-06,
      "loss": 0.9513,
      "num_input_tokens_seen": 483124796,
      "step": 3825
    },
    {
      "epoch": 0.9812095170910023,
      "loss": 0.8835445046424866,
      "loss_ce": 0.0004879114276263863,
      "loss_iou": 0.412109375,
      "loss_num": 0.011962890625,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 483124796,
      "step": 3825
    },
    {
      "epoch": 0.9814660424549477,
      "grad_norm": 38.821388244628906,
      "learning_rate": 5e-06,
      "loss": 0.929,
      "num_input_tokens_seen": 483250352,
      "step": 3826
    },
    {
      "epoch": 0.9814660424549477,
      "loss": 0.9396919012069702,
      "loss_ce": 0.0026802178472280502,
      "loss_iou": 0.41796875,
      "loss_num": 0.0206298828125,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 483250352,
      "step": 3826
    },
    {
      "epoch": 0.9817225678188931,
      "grad_norm": 40.44762420654297,
      "learning_rate": 5e-06,
      "loss": 0.9569,
      "num_input_tokens_seen": 483376500,
      "step": 3827
    },
    {
      "epoch": 0.9817225678188931,
      "loss": 0.8776958584785461,
      "loss_ce": 0.00025444256607443094,
      "loss_iou": 0.4140625,
      "loss_num": 0.00970458984375,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 483376500,
      "step": 3827
    },
    {
      "epoch": 0.9819790931828385,
      "grad_norm": 44.034725189208984,
      "learning_rate": 5e-06,
      "loss": 0.8453,
      "num_input_tokens_seen": 483502240,
      "step": 3828
    },
    {
      "epoch": 0.9819790931828385,
      "loss": 0.9015566110610962,
      "loss_ce": 0.0014101271517574787,
      "loss_iou": 0.404296875,
      "loss_num": 0.0185546875,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 483502240,
      "step": 3828
    },
    {
      "epoch": 0.9822356185467838,
      "grad_norm": 43.429622650146484,
      "learning_rate": 5e-06,
      "loss": 0.9798,
      "num_input_tokens_seen": 483628696,
      "step": 3829
    },
    {
      "epoch": 0.9822356185467838,
      "loss": 1.0202128887176514,
      "loss_ce": 0.001169844064861536,
      "loss_iou": 0.4609375,
      "loss_num": 0.019287109375,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 483628696,
      "step": 3829
    },
    {
      "epoch": 0.9824921439107291,
      "grad_norm": 58.97622299194336,
      "learning_rate": 5e-06,
      "loss": 0.8466,
      "num_input_tokens_seen": 483755516,
      "step": 3830
    },
    {
      "epoch": 0.9824921439107291,
      "loss": 0.7860400676727295,
      "loss_ce": 0.0013721315190196037,
      "loss_iou": 0.37109375,
      "loss_num": 0.00885009765625,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 483755516,
      "step": 3830
    },
    {
      "epoch": 0.9827486692746745,
      "grad_norm": 47.82119369506836,
      "learning_rate": 5e-06,
      "loss": 1.0832,
      "num_input_tokens_seen": 483881776,
      "step": 3831
    },
    {
      "epoch": 0.9827486692746745,
      "loss": 0.8283027410507202,
      "loss_ce": 0.0001777127181412652,
      "loss_iou": 0.388671875,
      "loss_num": 0.00982666015625,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 483881776,
      "step": 3831
    },
    {
      "epoch": 0.9830051946386199,
      "grad_norm": 56.91780090332031,
      "learning_rate": 5e-06,
      "loss": 1.028,
      "num_input_tokens_seen": 484007524,
      "step": 3832
    },
    {
      "epoch": 0.9830051946386199,
      "loss": 1.019424557685852,
      "loss_ce": 0.0003816070966422558,
      "loss_iou": 0.470703125,
      "loss_num": 0.01513671875,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 484007524,
      "step": 3832
    },
    {
      "epoch": 0.9832617200025653,
      "grad_norm": 42.00761032104492,
      "learning_rate": 5e-06,
      "loss": 0.9839,
      "num_input_tokens_seen": 484133284,
      "step": 3833
    },
    {
      "epoch": 0.9832617200025653,
      "loss": 1.0506396293640137,
      "loss_ce": 0.0008349920390173793,
      "loss_iou": 0.462890625,
      "loss_num": 0.0245361328125,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 484133284,
      "step": 3833
    },
    {
      "epoch": 0.9835182453665107,
      "grad_norm": 47.29082489013672,
      "learning_rate": 5e-06,
      "loss": 0.9595,
      "num_input_tokens_seen": 484258884,
      "step": 3834
    },
    {
      "epoch": 0.9835182453665107,
      "loss": 1.064565658569336,
      "loss_ce": 0.00035663513699546456,
      "loss_iou": 0.484375,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 484258884,
      "step": 3834
    },
    {
      "epoch": 0.9837747707304559,
      "grad_norm": 51.915714263916016,
      "learning_rate": 5e-06,
      "loss": 1.0339,
      "num_input_tokens_seen": 484385300,
      "step": 3835
    },
    {
      "epoch": 0.9837747707304559,
      "loss": 1.1462863683700562,
      "loss_ce": 0.001266773440875113,
      "loss_iou": 0.51953125,
      "loss_num": 0.0203857421875,
      "loss_xval": 1.1484375,
      "num_input_tokens_seen": 484385300,
      "step": 3835
    },
    {
      "epoch": 0.9840312960944013,
      "grad_norm": 57.738651275634766,
      "learning_rate": 5e-06,
      "loss": 1.0651,
      "num_input_tokens_seen": 484511956,
      "step": 3836
    },
    {
      "epoch": 0.9840312960944013,
      "loss": 1.238745093345642,
      "loss_ce": 0.000463884964119643,
      "loss_iou": 0.5234375,
      "loss_num": 0.0380859375,
      "loss_xval": 1.234375,
      "num_input_tokens_seen": 484511956,
      "step": 3836
    },
    {
      "epoch": 0.9842878214583467,
      "grad_norm": 52.526912689208984,
      "learning_rate": 5e-06,
      "loss": 0.8613,
      "num_input_tokens_seen": 484638672,
      "step": 3837
    },
    {
      "epoch": 0.9842878214583467,
      "loss": 0.7705883979797363,
      "loss_ce": 0.0020336683373898268,
      "loss_iou": 0.361328125,
      "loss_num": 0.0091552734375,
      "loss_xval": 0.76953125,
      "num_input_tokens_seen": 484638672,
      "step": 3837
    },
    {
      "epoch": 0.9845443468222921,
      "grad_norm": 41.436824798583984,
      "learning_rate": 5e-06,
      "loss": 0.8485,
      "num_input_tokens_seen": 484764452,
      "step": 3838
    },
    {
      "epoch": 0.9845443468222921,
      "loss": 0.7732859253883362,
      "loss_ce": 0.0008250030805356801,
      "loss_iou": 0.3671875,
      "loss_num": 0.0076904296875,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 484764452,
      "step": 3838
    },
    {
      "epoch": 0.9848008721862375,
      "grad_norm": 46.6375846862793,
      "learning_rate": 5e-06,
      "loss": 0.8306,
      "num_input_tokens_seen": 484890668,
      "step": 3839
    },
    {
      "epoch": 0.9848008721862375,
      "loss": 0.7089645862579346,
      "loss_ce": 0.0007126600830815732,
      "loss_iou": 0.33203125,
      "loss_num": 0.0086669921875,
      "loss_xval": 0.70703125,
      "num_input_tokens_seen": 484890668,
      "step": 3839
    },
    {
      "epoch": 0.9850573975501827,
      "grad_norm": 65.32672882080078,
      "learning_rate": 5e-06,
      "loss": 0.9597,
      "num_input_tokens_seen": 485017544,
      "step": 3840
    },
    {
      "epoch": 0.9850573975501827,
      "loss": 0.8571253418922424,
      "loss_ce": 0.001656589680351317,
      "loss_iou": 0.40625,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 485017544,
      "step": 3840
    },
    {
      "epoch": 0.9853139229141281,
      "grad_norm": 49.08979797363281,
      "learning_rate": 5e-06,
      "loss": 0.9914,
      "num_input_tokens_seen": 485143292,
      "step": 3841
    },
    {
      "epoch": 0.9853139229141281,
      "loss": 1.0471961498260498,
      "loss_ce": 0.0003211740404367447,
      "loss_iou": 0.47265625,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 485143292,
      "step": 3841
    },
    {
      "epoch": 0.9855704482780735,
      "grad_norm": 42.99983596801758,
      "learning_rate": 5e-06,
      "loss": 0.8349,
      "num_input_tokens_seen": 485268908,
      "step": 3842
    },
    {
      "epoch": 0.9855704482780735,
      "loss": 0.8543634414672852,
      "loss_ce": 0.0023126155138015747,
      "loss_iou": 0.390625,
      "loss_num": 0.0142822265625,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 485268908,
      "step": 3842
    },
    {
      "epoch": 0.9858269736420189,
      "grad_norm": 39.54624557495117,
      "learning_rate": 5e-06,
      "loss": 0.8593,
      "num_input_tokens_seen": 485396664,
      "step": 3843
    },
    {
      "epoch": 0.9858269736420189,
      "loss": 0.709017276763916,
      "loss_ce": 0.0002770793507806957,
      "loss_iou": 0.328125,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.70703125,
      "num_input_tokens_seen": 485396664,
      "step": 3843
    },
    {
      "epoch": 0.9860834990059643,
      "grad_norm": 45.982295989990234,
      "learning_rate": 5e-06,
      "loss": 0.8227,
      "num_input_tokens_seen": 485522904,
      "step": 3844
    },
    {
      "epoch": 0.9860834990059643,
      "loss": 0.7737441062927246,
      "loss_ce": 0.0007948796264827251,
      "loss_iou": 0.373046875,
      "loss_num": 0.005340576171875,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 485522904,
      "step": 3844
    },
    {
      "epoch": 0.9863400243699095,
      "grad_norm": 44.989044189453125,
      "learning_rate": 5e-06,
      "loss": 0.9239,
      "num_input_tokens_seen": 485649128,
      "step": 3845
    },
    {
      "epoch": 0.9863400243699095,
      "loss": 0.8725839257240295,
      "loss_ce": 0.0002694434951990843,
      "loss_iou": 0.39453125,
      "loss_num": 0.0166015625,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 485649128,
      "step": 3845
    },
    {
      "epoch": 0.9865965497338549,
      "grad_norm": 34.919471740722656,
      "learning_rate": 5e-06,
      "loss": 0.8379,
      "num_input_tokens_seen": 485774824,
      "step": 3846
    },
    {
      "epoch": 0.9865965497338549,
      "loss": 0.6525382995605469,
      "loss_ce": 0.0009269894217140973,
      "loss_iou": 0.30859375,
      "loss_num": 0.0067138671875,
      "loss_xval": 0.65234375,
      "num_input_tokens_seen": 485774824,
      "step": 3846
    },
    {
      "epoch": 0.9868530750978003,
      "grad_norm": 41.9149169921875,
      "learning_rate": 5e-06,
      "loss": 0.8633,
      "num_input_tokens_seen": 485901576,
      "step": 3847
    },
    {
      "epoch": 0.9868530750978003,
      "loss": 0.8874931335449219,
      "loss_ce": 0.004436480347067118,
      "loss_iou": 0.3984375,
      "loss_num": 0.0169677734375,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 485901576,
      "step": 3847
    },
    {
      "epoch": 0.9871096004617457,
      "grad_norm": 54.38967514038086,
      "learning_rate": 5e-06,
      "loss": 0.8901,
      "num_input_tokens_seen": 486028844,
      "step": 3848
    },
    {
      "epoch": 0.9871096004617457,
      "loss": 0.8593472242355347,
      "loss_ce": 0.0016811818350106478,
      "loss_iou": 0.390625,
      "loss_num": 0.015625,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 486028844,
      "step": 3848
    },
    {
      "epoch": 0.987366125825691,
      "grad_norm": 44.892845153808594,
      "learning_rate": 5e-06,
      "loss": 0.9428,
      "num_input_tokens_seen": 486154200,
      "step": 3849
    },
    {
      "epoch": 0.987366125825691,
      "loss": 1.0272352695465088,
      "loss_ce": 0.0008680171449668705,
      "loss_iou": 0.478515625,
      "loss_num": 0.01409912109375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 486154200,
      "step": 3849
    },
    {
      "epoch": 0.9876226511896363,
      "grad_norm": 110.74919128417969,
      "learning_rate": 5e-06,
      "loss": 0.8548,
      "num_input_tokens_seen": 486280412,
      "step": 3850
    },
    {
      "epoch": 0.9876226511896363,
      "loss": 0.6786231994628906,
      "loss_ce": 0.0006446837214753032,
      "loss_iou": 0.318359375,
      "loss_num": 0.008544921875,
      "loss_xval": 0.6796875,
      "num_input_tokens_seen": 486280412,
      "step": 3850
    },
    {
      "epoch": 0.9878791765535817,
      "grad_norm": 44.517276763916016,
      "learning_rate": 5e-06,
      "loss": 0.855,
      "num_input_tokens_seen": 486406940,
      "step": 3851
    },
    {
      "epoch": 0.9878791765535817,
      "loss": 0.716771125793457,
      "loss_ce": 0.0019273933721706271,
      "loss_iou": 0.34765625,
      "loss_num": 0.003814697265625,
      "loss_xval": 0.71484375,
      "num_input_tokens_seen": 486406940,
      "step": 3851
    },
    {
      "epoch": 0.9881357019175271,
      "grad_norm": 41.114166259765625,
      "learning_rate": 5e-06,
      "loss": 0.9305,
      "num_input_tokens_seen": 486532732,
      "step": 3852
    },
    {
      "epoch": 0.9881357019175271,
      "loss": 0.9515881538391113,
      "loss_ce": 0.0013928130501881242,
      "loss_iou": 0.4296875,
      "loss_num": 0.0186767578125,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 486532732,
      "step": 3852
    },
    {
      "epoch": 0.9883922272814725,
      "grad_norm": 69.42011260986328,
      "learning_rate": 5e-06,
      "loss": 0.9071,
      "num_input_tokens_seen": 486658708,
      "step": 3853
    },
    {
      "epoch": 0.9883922272814725,
      "loss": 0.8449473977088928,
      "loss_ce": 0.003150523640215397,
      "loss_iou": 0.37890625,
      "loss_num": 0.01708984375,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 486658708,
      "step": 3853
    },
    {
      "epoch": 0.9886487526454178,
      "grad_norm": 33.0396842956543,
      "learning_rate": 5e-06,
      "loss": 0.8771,
      "num_input_tokens_seen": 486785888,
      "step": 3854
    },
    {
      "epoch": 0.9886487526454178,
      "loss": 1.144322395324707,
      "loss_ce": 0.005162164103239775,
      "loss_iou": 0.5078125,
      "loss_num": 0.025390625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 486785888,
      "step": 3854
    },
    {
      "epoch": 0.9889052780093632,
      "grad_norm": 44.102783203125,
      "learning_rate": 5e-06,
      "loss": 0.9777,
      "num_input_tokens_seen": 486911924,
      "step": 3855
    },
    {
      "epoch": 0.9889052780093632,
      "loss": 1.0512350797653198,
      "loss_ce": 0.00020970971672795713,
      "loss_iou": 0.490234375,
      "loss_num": 0.01373291015625,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 486911924,
      "step": 3855
    },
    {
      "epoch": 0.9891618033733085,
      "grad_norm": 45.1164665222168,
      "learning_rate": 5e-06,
      "loss": 0.8995,
      "num_input_tokens_seen": 487039800,
      "step": 3856
    },
    {
      "epoch": 0.9891618033733085,
      "loss": 0.8230364322662354,
      "loss_ce": 0.0017473774496465921,
      "loss_iou": 0.376953125,
      "loss_num": 0.013427734375,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 487039800,
      "step": 3856
    },
    {
      "epoch": 0.9894183287372539,
      "grad_norm": 30.186452865600586,
      "learning_rate": 5e-06,
      "loss": 0.9116,
      "num_input_tokens_seen": 487164904,
      "step": 3857
    },
    {
      "epoch": 0.9894183287372539,
      "loss": 0.9186214804649353,
      "loss_ce": 0.0011410375591367483,
      "loss_iou": 0.419921875,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 487164904,
      "step": 3857
    },
    {
      "epoch": 0.9896748541011993,
      "grad_norm": 43.00091552734375,
      "learning_rate": 5e-06,
      "loss": 0.8135,
      "num_input_tokens_seen": 487291552,
      "step": 3858
    },
    {
      "epoch": 0.9896748541011993,
      "loss": 0.942298412322998,
      "loss_ce": 0.0033335976768285036,
      "loss_iou": 0.43359375,
      "loss_num": 0.0146484375,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 487291552,
      "step": 3858
    },
    {
      "epoch": 0.9899313794651446,
      "grad_norm": 42.9818229675293,
      "learning_rate": 5e-06,
      "loss": 0.8503,
      "num_input_tokens_seen": 487418004,
      "step": 3859
    },
    {
      "epoch": 0.9899313794651446,
      "loss": 0.8520383238792419,
      "loss_ce": 0.0029172429349273443,
      "loss_iou": 0.390625,
      "loss_num": 0.01300048828125,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 487418004,
      "step": 3859
    },
    {
      "epoch": 0.99018790482909,
      "grad_norm": 47.033870697021484,
      "learning_rate": 5e-06,
      "loss": 0.7566,
      "num_input_tokens_seen": 487544640,
      "step": 3860
    },
    {
      "epoch": 0.99018790482909,
      "loss": 0.7272671461105347,
      "loss_ce": 0.0011929069878533483,
      "loss_iou": 0.345703125,
      "loss_num": 0.007110595703125,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 487544640,
      "step": 3860
    },
    {
      "epoch": 0.9904444301930353,
      "grad_norm": 46.99728775024414,
      "learning_rate": 5e-06,
      "loss": 0.8838,
      "num_input_tokens_seen": 487670560,
      "step": 3861
    },
    {
      "epoch": 0.9904444301930353,
      "loss": 0.8590025901794434,
      "loss_ce": 0.0015807045856490731,
      "loss_iou": 0.392578125,
      "loss_num": 0.01422119140625,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 487670560,
      "step": 3861
    },
    {
      "epoch": 0.9907009555569807,
      "grad_norm": 37.164066314697266,
      "learning_rate": 5e-06,
      "loss": 0.9017,
      "num_input_tokens_seen": 487796568,
      "step": 3862
    },
    {
      "epoch": 0.9907009555569807,
      "loss": 0.9254218339920044,
      "loss_ce": 0.0011054262286052108,
      "loss_iou": 0.4375,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 487796568,
      "step": 3862
    },
    {
      "epoch": 0.9909574809209261,
      "grad_norm": 41.15232849121094,
      "learning_rate": 5e-06,
      "loss": 0.8265,
      "num_input_tokens_seen": 487921516,
      "step": 3863
    },
    {
      "epoch": 0.9909574809209261,
      "loss": 0.8543081283569336,
      "loss_ce": 0.00030424704891629517,
      "loss_iou": 0.3984375,
      "loss_num": 0.01153564453125,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 487921516,
      "step": 3863
    },
    {
      "epoch": 0.9912140062848714,
      "grad_norm": 41.36125564575195,
      "learning_rate": 5e-06,
      "loss": 0.8359,
      "num_input_tokens_seen": 488047772,
      "step": 3864
    },
    {
      "epoch": 0.9912140062848714,
      "loss": 0.7927870750427246,
      "loss_ce": 0.0034804188180714846,
      "loss_iou": 0.37109375,
      "loss_num": 0.009521484375,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 488047772,
      "step": 3864
    },
    {
      "epoch": 0.9914705316488168,
      "grad_norm": 47.32115936279297,
      "learning_rate": 5e-06,
      "loss": 0.8506,
      "num_input_tokens_seen": 488174352,
      "step": 3865
    },
    {
      "epoch": 0.9914705316488168,
      "loss": 0.7862775921821594,
      "loss_ce": 0.00014478995581157506,
      "loss_iou": 0.3671875,
      "loss_num": 0.0101318359375,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 488174352,
      "step": 3865
    },
    {
      "epoch": 0.9917270570127621,
      "grad_norm": 68.58698272705078,
      "learning_rate": 5e-06,
      "loss": 0.9685,
      "num_input_tokens_seen": 488301608,
      "step": 3866
    },
    {
      "epoch": 0.9917270570127621,
      "loss": 0.8053591251373291,
      "loss_ce": 0.0016482011415064335,
      "loss_iou": 0.37109375,
      "loss_num": 0.0123291015625,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 488301608,
      "step": 3866
    },
    {
      "epoch": 0.9919835823767075,
      "grad_norm": 58.97636795043945,
      "learning_rate": 5e-06,
      "loss": 1.0394,
      "num_input_tokens_seen": 488428752,
      "step": 3867
    },
    {
      "epoch": 0.9919835823767075,
      "loss": 1.04227614402771,
      "loss_ce": 0.004190301522612572,
      "loss_iou": 0.46875,
      "loss_num": 0.02001953125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 488428752,
      "step": 3867
    },
    {
      "epoch": 0.9922401077406529,
      "grad_norm": 23.901742935180664,
      "learning_rate": 5e-06,
      "loss": 0.996,
      "num_input_tokens_seen": 488554324,
      "step": 3868
    },
    {
      "epoch": 0.9922401077406529,
      "loss": 0.9241127967834473,
      "loss_ce": 0.0005288515239953995,
      "loss_iou": 0.431640625,
      "loss_num": 0.01171875,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 488554324,
      "step": 3868
    },
    {
      "epoch": 0.9924966331045982,
      "grad_norm": 28.20534324645996,
      "learning_rate": 5e-06,
      "loss": 0.9904,
      "num_input_tokens_seen": 488680132,
      "step": 3869
    },
    {
      "epoch": 0.9924966331045982,
      "loss": 0.8508338928222656,
      "loss_ce": 0.0017128018662333488,
      "loss_iou": 0.3828125,
      "loss_num": 0.0166015625,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 488680132,
      "step": 3869
    },
    {
      "epoch": 0.9927531584685436,
      "grad_norm": 45.32927703857422,
      "learning_rate": 5e-06,
      "loss": 0.829,
      "num_input_tokens_seen": 488805764,
      "step": 3870
    },
    {
      "epoch": 0.9927531584685436,
      "loss": 0.83472740650177,
      "loss_ce": 0.0002547111944295466,
      "loss_iou": 0.392578125,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 488805764,
      "step": 3870
    },
    {
      "epoch": 0.9930096838324889,
      "grad_norm": 52.35927200317383,
      "learning_rate": 5e-06,
      "loss": 0.8366,
      "num_input_tokens_seen": 488932204,
      "step": 3871
    },
    {
      "epoch": 0.9930096838324889,
      "loss": 0.7943147420883179,
      "loss_ce": 0.0018342548282817006,
      "loss_iou": 0.373046875,
      "loss_num": 0.009033203125,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 488932204,
      "step": 3871
    },
    {
      "epoch": 0.9932662091964343,
      "grad_norm": 53.98024368286133,
      "learning_rate": 5e-06,
      "loss": 0.866,
      "num_input_tokens_seen": 489059024,
      "step": 3872
    },
    {
      "epoch": 0.9932662091964343,
      "loss": 1.0288567543029785,
      "loss_ce": 0.0005363976815715432,
      "loss_iou": 0.466796875,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 489059024,
      "step": 3872
    },
    {
      "epoch": 0.9935227345603797,
      "grad_norm": 40.535011291503906,
      "learning_rate": 5e-06,
      "loss": 0.9398,
      "num_input_tokens_seen": 489184604,
      "step": 3873
    },
    {
      "epoch": 0.9935227345603797,
      "loss": 0.9352429509162903,
      "loss_ce": 0.0016492563299834728,
      "loss_iou": 0.423828125,
      "loss_num": 0.0169677734375,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 489184604,
      "step": 3873
    },
    {
      "epoch": 0.993779259924325,
      "grad_norm": 32.17060470581055,
      "learning_rate": 5e-06,
      "loss": 0.9241,
      "num_input_tokens_seen": 489311748,
      "step": 3874
    },
    {
      "epoch": 0.993779259924325,
      "loss": 0.7515289783477783,
      "loss_ce": 0.0003082709154114127,
      "loss_iou": 0.357421875,
      "loss_num": 0.007293701171875,
      "loss_xval": 0.75,
      "num_input_tokens_seen": 489311748,
      "step": 3874
    },
    {
      "epoch": 0.9940357852882704,
      "grad_norm": 62.315616607666016,
      "learning_rate": 5e-06,
      "loss": 0.8974,
      "num_input_tokens_seen": 489438196,
      "step": 3875
    },
    {
      "epoch": 0.9940357852882704,
      "loss": 0.764228880405426,
      "loss_ce": 0.0027542519383132458,
      "loss_iou": 0.35546875,
      "loss_num": 0.010498046875,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 489438196,
      "step": 3875
    },
    {
      "epoch": 0.9942923106522157,
      "grad_norm": 60.7896728515625,
      "learning_rate": 5e-06,
      "loss": 0.8173,
      "num_input_tokens_seen": 489565564,
      "step": 3876
    },
    {
      "epoch": 0.9942923106522157,
      "loss": 0.7176902890205383,
      "loss_ce": 0.00040516071021556854,
      "loss_iou": 0.33984375,
      "loss_num": 0.007415771484375,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 489565564,
      "step": 3876
    },
    {
      "epoch": 0.9945488360161611,
      "grad_norm": 43.65571975708008,
      "learning_rate": 5e-06,
      "loss": 0.8637,
      "num_input_tokens_seen": 489691324,
      "step": 3877
    },
    {
      "epoch": 0.9945488360161611,
      "loss": 0.8290260434150696,
      "loss_ce": 0.003586562117561698,
      "loss_iou": 0.390625,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 489691324,
      "step": 3877
    },
    {
      "epoch": 0.9948053613801064,
      "grad_norm": 41.68125534057617,
      "learning_rate": 5e-06,
      "loss": 0.8428,
      "num_input_tokens_seen": 489817916,
      "step": 3878
    },
    {
      "epoch": 0.9948053613801064,
      "loss": 0.913058340549469,
      "loss_ce": 0.0004606684669852257,
      "loss_iou": 0.421875,
      "loss_num": 0.01416015625,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 489817916,
      "step": 3878
    },
    {
      "epoch": 0.9950618867440518,
      "grad_norm": 44.369529724121094,
      "learning_rate": 5e-06,
      "loss": 0.8854,
      "num_input_tokens_seen": 489943964,
      "step": 3879
    },
    {
      "epoch": 0.9950618867440518,
      "loss": 0.8251513242721558,
      "loss_ce": 0.00044425539090298116,
      "loss_iou": 0.392578125,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 489943964,
      "step": 3879
    },
    {
      "epoch": 0.9953184121079972,
      "grad_norm": 29.838436126708984,
      "learning_rate": 5e-06,
      "loss": 0.8636,
      "num_input_tokens_seen": 490071032,
      "step": 3880
    },
    {
      "epoch": 0.9953184121079972,
      "loss": 0.787615180015564,
      "loss_ce": 0.0012381981359794736,
      "loss_iou": 0.37890625,
      "loss_num": 0.00592041015625,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 490071032,
      "step": 3880
    },
    {
      "epoch": 0.9955749374719426,
      "grad_norm": 37.56049346923828,
      "learning_rate": 5e-06,
      "loss": 0.8708,
      "num_input_tokens_seen": 490196236,
      "step": 3881
    },
    {
      "epoch": 0.9955749374719426,
      "loss": 0.8166136741638184,
      "loss_ce": 0.0006956889992579818,
      "loss_iou": 0.3828125,
      "loss_num": 0.0101318359375,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 490196236,
      "step": 3881
    },
    {
      "epoch": 0.9958314628358879,
      "grad_norm": 55.184505462646484,
      "learning_rate": 5e-06,
      "loss": 0.9222,
      "num_input_tokens_seen": 490323220,
      "step": 3882
    },
    {
      "epoch": 0.9958314628358879,
      "loss": 0.8866286873817444,
      "loss_ce": 0.0003982450580224395,
      "loss_iou": 0.396484375,
      "loss_num": 0.0184326171875,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 490323220,
      "step": 3882
    },
    {
      "epoch": 0.9960879881998332,
      "grad_norm": 58.26996612548828,
      "learning_rate": 5e-06,
      "loss": 0.9311,
      "num_input_tokens_seen": 490449524,
      "step": 3883
    },
    {
      "epoch": 0.9960879881998332,
      "loss": 0.9798160791397095,
      "loss_ce": 0.0013004731154069304,
      "loss_iou": 0.4609375,
      "loss_num": 0.01123046875,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 490449524,
      "step": 3883
    },
    {
      "epoch": 0.9963445135637786,
      "grad_norm": 32.543800354003906,
      "learning_rate": 5e-06,
      "loss": 0.8101,
      "num_input_tokens_seen": 490576952,
      "step": 3884
    },
    {
      "epoch": 0.9963445135637786,
      "loss": 0.9826844930648804,
      "loss_ce": 0.0002625897468533367,
      "loss_iou": 0.470703125,
      "loss_num": 0.008544921875,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 490576952,
      "step": 3884
    },
    {
      "epoch": 0.996601038927724,
      "grad_norm": 107.5548324584961,
      "learning_rate": 5e-06,
      "loss": 0.8959,
      "num_input_tokens_seen": 490702824,
      "step": 3885
    },
    {
      "epoch": 0.996601038927724,
      "loss": 1.0382554531097412,
      "loss_ce": 0.001146082067862153,
      "loss_iou": 0.47265625,
      "loss_num": 0.01806640625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 490702824,
      "step": 3885
    },
    {
      "epoch": 0.9968575642916694,
      "grad_norm": 46.31318664550781,
      "learning_rate": 5e-06,
      "loss": 0.9558,
      "num_input_tokens_seen": 490828512,
      "step": 3886
    },
    {
      "epoch": 0.9968575642916694,
      "loss": 0.9666476249694824,
      "loss_ce": 0.0005831157905049622,
      "loss_iou": 0.44140625,
      "loss_num": 0.0166015625,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 490828512,
      "step": 3886
    },
    {
      "epoch": 0.9971140896556147,
      "grad_norm": 32.84713363647461,
      "learning_rate": 5e-06,
      "loss": 0.9419,
      "num_input_tokens_seen": 490954252,
      "step": 3887
    },
    {
      "epoch": 0.9971140896556147,
      "loss": 0.7826848030090332,
      "loss_ce": 0.0009465296170674264,
      "loss_iou": 0.369140625,
      "loss_num": 0.0087890625,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 490954252,
      "step": 3887
    },
    {
      "epoch": 0.99737061501956,
      "grad_norm": 45.72207260131836,
      "learning_rate": 5e-06,
      "loss": 0.7937,
      "num_input_tokens_seen": 491080412,
      "step": 3888
    },
    {
      "epoch": 0.99737061501956,
      "loss": 0.8723834753036499,
      "loss_ce": 0.0008014659397304058,
      "loss_iou": 0.390625,
      "loss_num": 0.018310546875,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 491080412,
      "step": 3888
    },
    {
      "epoch": 0.9976271403835054,
      "grad_norm": 44.55059051513672,
      "learning_rate": 5e-06,
      "loss": 0.9252,
      "num_input_tokens_seen": 491206072,
      "step": 3889
    },
    {
      "epoch": 0.9976271403835054,
      "loss": 0.9309748411178589,
      "loss_ce": 0.0027522428426891565,
      "loss_iou": 0.421875,
      "loss_num": 0.016845703125,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 491206072,
      "step": 3889
    },
    {
      "epoch": 0.9978836657474508,
      "grad_norm": 42.68889617919922,
      "learning_rate": 5e-06,
      "loss": 1.0642,
      "num_input_tokens_seen": 491332132,
      "step": 3890
    },
    {
      "epoch": 0.9978836657474508,
      "loss": 0.9763637781143188,
      "loss_ce": 0.0017544415313750505,
      "loss_iou": 0.427734375,
      "loss_num": 0.023681640625,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 491332132,
      "step": 3890
    },
    {
      "epoch": 0.9981401911113962,
      "grad_norm": 38.299068450927734,
      "learning_rate": 5e-06,
      "loss": 0.9518,
      "num_input_tokens_seen": 491459088,
      "step": 3891
    },
    {
      "epoch": 0.9981401911113962,
      "loss": 0.8780500292778015,
      "loss_ce": 0.0008527666795998812,
      "loss_iou": 0.416015625,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 491459088,
      "step": 3891
    },
    {
      "epoch": 0.9983967164753415,
      "grad_norm": 208.49398803710938,
      "learning_rate": 5e-06,
      "loss": 0.8149,
      "num_input_tokens_seen": 491585608,
      "step": 3892
    },
    {
      "epoch": 0.9983967164753415,
      "loss": 0.8733581304550171,
      "loss_ce": 0.000555394624825567,
      "loss_iou": 0.40234375,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 491585608,
      "step": 3892
    },
    {
      "epoch": 0.9986532418392868,
      "grad_norm": 39.03553009033203,
      "learning_rate": 5e-06,
      "loss": 0.9255,
      "num_input_tokens_seen": 491712236,
      "step": 3893
    },
    {
      "epoch": 0.9986532418392868,
      "loss": 0.9320447444915771,
      "loss_ce": 0.00040410031215287745,
      "loss_iou": 0.443359375,
      "loss_num": 0.0087890625,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 491712236,
      "step": 3893
    },
    {
      "epoch": 0.9989097672032322,
      "grad_norm": 76.69193267822266,
      "learning_rate": 5e-06,
      "loss": 0.9782,
      "num_input_tokens_seen": 491838776,
      "step": 3894
    },
    {
      "epoch": 0.9989097672032322,
      "loss": 1.1748669147491455,
      "loss_ce": 0.0029917897190898657,
      "loss_iou": 0.53515625,
      "loss_num": 0.021240234375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 491838776,
      "step": 3894
    },
    {
      "epoch": 0.9991662925671776,
      "grad_norm": 39.76282501220703,
      "learning_rate": 5e-06,
      "loss": 0.9103,
      "num_input_tokens_seen": 491964592,
      "step": 3895
    },
    {
      "epoch": 0.9991662925671776,
      "loss": 0.8319258093833923,
      "loss_ce": 0.0003828371118288487,
      "loss_iou": 0.37109375,
      "loss_num": 0.018310546875,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 491964592,
      "step": 3895
    },
    {
      "epoch": 0.999422817931123,
      "grad_norm": 36.749244689941406,
      "learning_rate": 5e-06,
      "loss": 0.8567,
      "num_input_tokens_seen": 492092648,
      "step": 3896
    },
    {
      "epoch": 0.999422817931123,
      "loss": 0.7760977745056152,
      "loss_ce": 0.00046306155854836106,
      "loss_iou": 0.37109375,
      "loss_num": 0.006561279296875,
      "loss_xval": 0.77734375,
      "num_input_tokens_seen": 492092648,
      "step": 3896
    },
    {
      "epoch": 0.9996793432950682,
      "grad_norm": 50.07822036743164,
      "learning_rate": 5e-06,
      "loss": 0.8941,
      "num_input_tokens_seen": 492219588,
      "step": 3897
    },
    {
      "epoch": 0.9996793432950682,
      "loss": 0.9176594018936157,
      "loss_ce": 0.00359692657366395,
      "loss_iou": 0.423828125,
      "loss_num": 0.01348876953125,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 492219588,
      "step": 3897
    },
    {
      "epoch": 0.9999358686590136,
      "grad_norm": 49.3172607421875,
      "learning_rate": 5e-06,
      "loss": 0.9149,
      "num_input_tokens_seen": 492346184,
      "step": 3898
    },
    {
      "epoch": 0.9999358686590136,
      "loss": 0.9387490749359131,
      "loss_ce": 0.00027248638798482716,
      "loss_iou": 0.435546875,
      "loss_num": 0.0135498046875,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 492346184,
      "step": 3898
    },
    {
      "epoch": 0.9999358686590136,
      "loss": 0.8766347765922546,
      "loss_ce": 0.0030996587593108416,
      "loss_iou": 0.4140625,
      "loss_num": 0.00933837890625,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 492378900,
      "step": 3898
    },
    {
      "epoch": 1.0001923940229591,
      "grad_norm": 52.1972770690918,
      "learning_rate": 5e-06,
      "loss": 0.8409,
      "num_input_tokens_seen": 492473476,
      "step": 3899
    },
    {
      "epoch": 1.0001923940229591,
      "loss": 0.7951098680496216,
      "loss_ce": 0.004094292409718037,
      "loss_iou": 0.36328125,
      "loss_num": 0.01300048828125,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 492473476,
      "step": 3899
    },
    {
      "epoch": 1.0004489193869044,
      "grad_norm": 50.52654266357422,
      "learning_rate": 5e-06,
      "loss": 0.8705,
      "num_input_tokens_seen": 492599744,
      "step": 3900
    },
    {
      "epoch": 1.0004489193869044,
      "loss": 0.7347558736801147,
      "loss_ce": 0.00013673826470039785,
      "loss_iou": 0.353515625,
      "loss_num": 0.00531005859375,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 492599744,
      "step": 3900
    },
    {
      "epoch": 1.0007054447508497,
      "grad_norm": 48.16531753540039,
      "learning_rate": 5e-06,
      "loss": 0.8985,
      "num_input_tokens_seen": 492725856,
      "step": 3901
    },
    {
      "epoch": 1.0007054447508497,
      "loss": 0.8072628378868103,
      "loss_ce": 0.00037806006730534136,
      "loss_iou": 0.37890625,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 492725856,
      "step": 3901
    },
    {
      "epoch": 1.0009619701147952,
      "grad_norm": 40.16544723510742,
      "learning_rate": 5e-06,
      "loss": 0.9302,
      "num_input_tokens_seen": 492853028,
      "step": 3902
    },
    {
      "epoch": 1.0009619701147952,
      "loss": 0.8528118133544922,
      "loss_ce": 0.0022258800454437733,
      "loss_iou": 0.396484375,
      "loss_num": 0.0113525390625,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 492853028,
      "step": 3902
    },
    {
      "epoch": 1.0012184954787404,
      "grad_norm": 35.07966232299805,
      "learning_rate": 5e-06,
      "loss": 0.7991,
      "num_input_tokens_seen": 492979456,
      "step": 3903
    },
    {
      "epoch": 1.0012184954787404,
      "loss": 0.7557319402694702,
      "loss_ce": 0.0003608195693232119,
      "loss_iou": 0.34765625,
      "loss_num": 0.01171875,
      "loss_xval": 0.75390625,
      "num_input_tokens_seen": 492979456,
      "step": 3903
    },
    {
      "epoch": 1.001475020842686,
      "grad_norm": 36.282470703125,
      "learning_rate": 5e-06,
      "loss": 0.8603,
      "num_input_tokens_seen": 493105808,
      "step": 3904
    },
    {
      "epoch": 1.001475020842686,
      "loss": 0.8001112341880798,
      "loss_ce": 0.00030654820147901773,
      "loss_iou": 0.384765625,
      "loss_num": 0.0059814453125,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 493105808,
      "step": 3904
    },
    {
      "epoch": 1.0017315462066312,
      "grad_norm": 39.7251091003418,
      "learning_rate": 5e-06,
      "loss": 0.9141,
      "num_input_tokens_seen": 493231852,
      "step": 3905
    },
    {
      "epoch": 1.0017315462066312,
      "loss": 0.9437161684036255,
      "loss_ce": 0.0003567825770005584,
      "loss_iou": 0.421875,
      "loss_num": 0.0201416015625,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 493231852,
      "step": 3905
    },
    {
      "epoch": 1.0019880715705765,
      "grad_norm": 32.84325408935547,
      "learning_rate": 5e-06,
      "loss": 0.8097,
      "num_input_tokens_seen": 493357980,
      "step": 3906
    },
    {
      "epoch": 1.0019880715705765,
      "loss": 0.8153329491615295,
      "loss_ce": 0.00014742722851224244,
      "loss_iou": 0.375,
      "loss_num": 0.012939453125,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 493357980,
      "step": 3906
    },
    {
      "epoch": 1.002244596934522,
      "grad_norm": 90.8695297241211,
      "learning_rate": 5e-06,
      "loss": 0.9538,
      "num_input_tokens_seen": 493484500,
      "step": 3907
    },
    {
      "epoch": 1.002244596934522,
      "loss": 0.9550089836120605,
      "loss_ce": 0.0009074235567823052,
      "loss_iou": 0.4296875,
      "loss_num": 0.01904296875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 493484500,
      "step": 3907
    },
    {
      "epoch": 1.0025011222984672,
      "grad_norm": 45.713768005371094,
      "learning_rate": 5e-06,
      "loss": 0.8525,
      "num_input_tokens_seen": 493610888,
      "step": 3908
    },
    {
      "epoch": 1.0025011222984672,
      "loss": 0.9276581406593323,
      "loss_ce": 0.0009003114537335932,
      "loss_iou": 0.43359375,
      "loss_num": 0.0118408203125,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 493610888,
      "step": 3908
    },
    {
      "epoch": 1.0027576476624127,
      "grad_norm": 47.5828971862793,
      "learning_rate": 5e-06,
      "loss": 0.9352,
      "num_input_tokens_seen": 493736884,
      "step": 3909
    },
    {
      "epoch": 1.0027576476624127,
      "loss": 0.8822228908538818,
      "loss_ce": 0.0018518210854381323,
      "loss_iou": 0.412109375,
      "loss_num": 0.01141357421875,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 493736884,
      "step": 3909
    },
    {
      "epoch": 1.003014173026358,
      "grad_norm": 47.254783630371094,
      "learning_rate": 5e-06,
      "loss": 0.9239,
      "num_input_tokens_seen": 493864328,
      "step": 3910
    },
    {
      "epoch": 1.003014173026358,
      "loss": 0.9041429758071899,
      "loss_ce": 0.00033433677162975073,
      "loss_iou": 0.42578125,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 493864328,
      "step": 3910
    },
    {
      "epoch": 1.0032706983903033,
      "grad_norm": 47.286190032958984,
      "learning_rate": 5e-06,
      "loss": 0.871,
      "num_input_tokens_seen": 493988448,
      "step": 3911
    },
    {
      "epoch": 1.0032706983903033,
      "loss": 0.978190004825592,
      "loss_ce": 0.00016268975741695613,
      "loss_iou": 0.451171875,
      "loss_num": 0.0150146484375,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 493988448,
      "step": 3911
    },
    {
      "epoch": 1.0035272237542487,
      "grad_norm": 51.643131256103516,
      "learning_rate": 5e-06,
      "loss": 0.8899,
      "num_input_tokens_seen": 494113828,
      "step": 3912
    },
    {
      "epoch": 1.0035272237542487,
      "loss": 0.9787276387214661,
      "loss_ce": 0.001676888670772314,
      "loss_iou": 0.453125,
      "loss_num": 0.0137939453125,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 494113828,
      "step": 3912
    },
    {
      "epoch": 1.003783749118194,
      "grad_norm": 29.802900314331055,
      "learning_rate": 5e-06,
      "loss": 0.9291,
      "num_input_tokens_seen": 494239028,
      "step": 3913
    },
    {
      "epoch": 1.003783749118194,
      "loss": 0.9184927940368652,
      "loss_ce": 0.005895160138607025,
      "loss_iou": 0.41015625,
      "loss_num": 0.01806640625,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 494239028,
      "step": 3913
    },
    {
      "epoch": 1.0040402744821395,
      "grad_norm": 30.81559181213379,
      "learning_rate": 5e-06,
      "loss": 0.7138,
      "num_input_tokens_seen": 494365252,
      "step": 3914
    },
    {
      "epoch": 1.0040402744821395,
      "loss": 0.8059249520301819,
      "loss_ce": 0.0002608997456263751,
      "loss_iou": 0.390625,
      "loss_num": 0.00518798828125,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 494365252,
      "step": 3914
    },
    {
      "epoch": 1.0042967998460848,
      "grad_norm": 18.271799087524414,
      "learning_rate": 5e-06,
      "loss": 0.8452,
      "num_input_tokens_seen": 494490672,
      "step": 3915
    },
    {
      "epoch": 1.0042967998460848,
      "loss": 0.7617598176002502,
      "loss_ce": 0.002116272458806634,
      "loss_iou": 0.35546875,
      "loss_num": 0.00958251953125,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 494490672,
      "step": 3915
    },
    {
      "epoch": 1.00455332521003,
      "grad_norm": 25.7414493560791,
      "learning_rate": 5e-06,
      "loss": 0.8823,
      "num_input_tokens_seen": 494616836,
      "step": 3916
    },
    {
      "epoch": 1.00455332521003,
      "loss": 0.8948987722396851,
      "loss_ce": 0.0001234516385011375,
      "loss_iou": 0.4140625,
      "loss_num": 0.01348876953125,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 494616836,
      "step": 3916
    },
    {
      "epoch": 1.0048098505739755,
      "grad_norm": 42.370235443115234,
      "learning_rate": 5e-06,
      "loss": 0.8076,
      "num_input_tokens_seen": 494743760,
      "step": 3917
    },
    {
      "epoch": 1.0048098505739755,
      "loss": 0.7927297353744507,
      "loss_ce": 0.000249220960540697,
      "loss_iou": 0.375,
      "loss_num": 0.00885009765625,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 494743760,
      "step": 3917
    },
    {
      "epoch": 1.0050663759379208,
      "grad_norm": 46.720481872558594,
      "learning_rate": 5e-06,
      "loss": 0.9328,
      "num_input_tokens_seen": 494870696,
      "step": 3918
    },
    {
      "epoch": 1.0050663759379208,
      "loss": 0.8038618564605713,
      "loss_ce": 0.00039507405017502606,
      "loss_iou": 0.380859375,
      "loss_num": 0.0086669921875,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 494870696,
      "step": 3918
    },
    {
      "epoch": 1.0053229013018663,
      "grad_norm": 43.13616943359375,
      "learning_rate": 5e-06,
      "loss": 1.1243,
      "num_input_tokens_seen": 494995560,
      "step": 3919
    },
    {
      "epoch": 1.0053229013018663,
      "loss": 1.311650276184082,
      "loss_ce": 0.00207989732734859,
      "loss_iou": 0.546875,
      "loss_num": 0.043212890625,
      "loss_xval": 1.3125,
      "num_input_tokens_seen": 494995560,
      "step": 3919
    },
    {
      "epoch": 1.0055794266658116,
      "grad_norm": 36.680213928222656,
      "learning_rate": 5e-06,
      "loss": 0.8465,
      "num_input_tokens_seen": 495121292,
      "step": 3920
    },
    {
      "epoch": 1.0055794266658116,
      "loss": 0.8631412982940674,
      "loss_ce": 0.0003483020991552621,
      "loss_iou": 0.404296875,
      "loss_num": 0.0107421875,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 495121292,
      "step": 3920
    },
    {
      "epoch": 1.0058359520297568,
      "grad_norm": 35.73379898071289,
      "learning_rate": 5e-06,
      "loss": 0.8473,
      "num_input_tokens_seen": 495247500,
      "step": 3921
    },
    {
      "epoch": 1.0058359520297568,
      "loss": 0.8202420473098755,
      "loss_ce": 0.0013943969970569015,
      "loss_iou": 0.384765625,
      "loss_num": 0.00958251953125,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 495247500,
      "step": 3921
    },
    {
      "epoch": 1.0060924773937023,
      "grad_norm": 29.253055572509766,
      "learning_rate": 5e-06,
      "loss": 1.0722,
      "num_input_tokens_seen": 495374156,
      "step": 3922
    },
    {
      "epoch": 1.0060924773937023,
      "loss": 1.1550666093826294,
      "loss_ce": 0.0017462980467826128,
      "loss_iou": 0.51171875,
      "loss_num": 0.0252685546875,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 495374156,
      "step": 3922
    },
    {
      "epoch": 1.0063490027576476,
      "grad_norm": 24.371746063232422,
      "learning_rate": 5e-06,
      "loss": 0.8495,
      "num_input_tokens_seen": 495499156,
      "step": 3923
    },
    {
      "epoch": 1.0063490027576476,
      "loss": 0.9380936622619629,
      "loss_ce": 0.0013260412961244583,
      "loss_iou": 0.421875,
      "loss_num": 0.0189208984375,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 495499156,
      "step": 3923
    },
    {
      "epoch": 1.006605528121593,
      "grad_norm": 31.46317481994629,
      "learning_rate": 5e-06,
      "loss": 0.85,
      "num_input_tokens_seen": 495624448,
      "step": 3924
    },
    {
      "epoch": 1.006605528121593,
      "loss": 0.9315320253372192,
      "loss_ce": 0.002332765841856599,
      "loss_iou": 0.431640625,
      "loss_num": 0.0130615234375,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 495624448,
      "step": 3924
    },
    {
      "epoch": 1.0068620534855384,
      "grad_norm": 26.452194213867188,
      "learning_rate": 5e-06,
      "loss": 0.8722,
      "num_input_tokens_seen": 495750724,
      "step": 3925
    },
    {
      "epoch": 1.0068620534855384,
      "loss": 0.6987533569335938,
      "loss_ce": 0.0002670356188900769,
      "loss_iou": 0.333984375,
      "loss_num": 0.006195068359375,
      "loss_xval": 0.69921875,
      "num_input_tokens_seen": 495750724,
      "step": 3925
    },
    {
      "epoch": 1.0071185788494836,
      "grad_norm": 42.56757736206055,
      "learning_rate": 5e-06,
      "loss": 0.8457,
      "num_input_tokens_seen": 495876576,
      "step": 3926
    },
    {
      "epoch": 1.0071185788494836,
      "loss": 0.76036536693573,
      "loss_ce": 0.0005997934495098889,
      "loss_iou": 0.357421875,
      "loss_num": 0.00885009765625,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 495876576,
      "step": 3926
    },
    {
      "epoch": 1.0073751042134291,
      "grad_norm": 48.13119125366211,
      "learning_rate": 5e-06,
      "loss": 0.8241,
      "num_input_tokens_seen": 496002468,
      "step": 3927
    },
    {
      "epoch": 1.0073751042134291,
      "loss": 0.9118061065673828,
      "loss_ce": 0.00018498365534469485,
      "loss_iou": 0.42578125,
      "loss_num": 0.0120849609375,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 496002468,
      "step": 3927
    },
    {
      "epoch": 1.0076316295773744,
      "grad_norm": 49.43670654296875,
      "learning_rate": 5e-06,
      "loss": 0.8234,
      "num_input_tokens_seen": 496129340,
      "step": 3928
    },
    {
      "epoch": 1.0076316295773744,
      "loss": 0.6923571228981018,
      "loss_ce": 0.0004625777364708483,
      "loss_iou": 0.322265625,
      "loss_num": 0.009765625,
      "loss_xval": 0.69140625,
      "num_input_tokens_seen": 496129340,
      "step": 3928
    },
    {
      "epoch": 1.00788815494132,
      "grad_norm": 57.90275573730469,
      "learning_rate": 5e-06,
      "loss": 0.8065,
      "num_input_tokens_seen": 496255892,
      "step": 3929
    },
    {
      "epoch": 1.00788815494132,
      "loss": 0.9412513971328735,
      "loss_ce": 0.0032630842179059982,
      "loss_iou": 0.427734375,
      "loss_num": 0.0167236328125,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 496255892,
      "step": 3929
    },
    {
      "epoch": 1.0081446803052652,
      "grad_norm": 50.52181625366211,
      "learning_rate": 5e-06,
      "loss": 0.9305,
      "num_input_tokens_seen": 496382920,
      "step": 3930
    },
    {
      "epoch": 1.0081446803052652,
      "loss": 1.0320907831192017,
      "loss_ce": 0.00035254110116511583,
      "loss_iou": 0.474609375,
      "loss_num": 0.0166015625,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 496382920,
      "step": 3930
    },
    {
      "epoch": 1.0084012056692107,
      "grad_norm": 40.95301055908203,
      "learning_rate": 5e-06,
      "loss": 0.9189,
      "num_input_tokens_seen": 496510480,
      "step": 3931
    },
    {
      "epoch": 1.0084012056692107,
      "loss": 1.1019829511642456,
      "loss_ce": 0.003350107464939356,
      "loss_iou": 0.494140625,
      "loss_num": 0.021728515625,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 496510480,
      "step": 3931
    },
    {
      "epoch": 1.008657731033156,
      "grad_norm": 37.564937591552734,
      "learning_rate": 5e-06,
      "loss": 0.8916,
      "num_input_tokens_seen": 496636320,
      "step": 3932
    },
    {
      "epoch": 1.008657731033156,
      "loss": 0.9465269446372986,
      "loss_ce": 0.0007261448190547526,
      "loss_iou": 0.42578125,
      "loss_num": 0.0185546875,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 496636320,
      "step": 3932
    },
    {
      "epoch": 1.0089142563971012,
      "grad_norm": 36.3419303894043,
      "learning_rate": 5e-06,
      "loss": 0.923,
      "num_input_tokens_seen": 496762904,
      "step": 3933
    },
    {
      "epoch": 1.0089142563971012,
      "loss": 1.074247121810913,
      "loss_ce": 0.001981595065444708,
      "loss_iou": 0.482421875,
      "loss_num": 0.021240234375,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 496762904,
      "step": 3933
    },
    {
      "epoch": 1.0091707817610467,
      "grad_norm": 30.732385635375977,
      "learning_rate": 5e-06,
      "loss": 0.8116,
      "num_input_tokens_seen": 496889944,
      "step": 3934
    },
    {
      "epoch": 1.0091707817610467,
      "loss": 0.7070404887199402,
      "loss_ce": 0.0007416388834826648,
      "loss_iou": 0.33203125,
      "loss_num": 0.00811767578125,
      "loss_xval": 0.70703125,
      "num_input_tokens_seen": 496889944,
      "step": 3934
    },
    {
      "epoch": 1.009427307124992,
      "grad_norm": 31.32607078552246,
      "learning_rate": 5e-06,
      "loss": 0.8471,
      "num_input_tokens_seen": 497017580,
      "step": 3935
    },
    {
      "epoch": 1.009427307124992,
      "loss": 0.8910384178161621,
      "loss_ce": 0.0009017073316499591,
      "loss_iou": 0.41796875,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 497017580,
      "step": 3935
    },
    {
      "epoch": 1.0096838324889374,
      "grad_norm": 39.129268646240234,
      "learning_rate": 5e-06,
      "loss": 0.8609,
      "num_input_tokens_seen": 497142380,
      "step": 3936
    },
    {
      "epoch": 1.0096838324889374,
      "loss": 0.7458942532539368,
      "loss_ce": 0.00028878121520392597,
      "loss_iou": 0.341796875,
      "loss_num": 0.0126953125,
      "loss_xval": 0.74609375,
      "num_input_tokens_seen": 497142380,
      "step": 3936
    },
    {
      "epoch": 1.0099403578528827,
      "grad_norm": 39.07707595825195,
      "learning_rate": 5e-06,
      "loss": 0.8597,
      "num_input_tokens_seen": 497268244,
      "step": 3937
    },
    {
      "epoch": 1.0099403578528827,
      "loss": 1.001796007156372,
      "loss_ce": 0.0032607996836304665,
      "loss_iou": 0.4609375,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 497268244,
      "step": 3937
    },
    {
      "epoch": 1.010196883216828,
      "grad_norm": 44.83042907714844,
      "learning_rate": 5e-06,
      "loss": 0.8781,
      "num_input_tokens_seen": 497394788,
      "step": 3938
    },
    {
      "epoch": 1.010196883216828,
      "loss": 0.8726329803466797,
      "loss_ce": 0.000562642642762512,
      "loss_iou": 0.404296875,
      "loss_num": 0.0125732421875,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 497394788,
      "step": 3938
    },
    {
      "epoch": 1.0104534085807735,
      "grad_norm": 53.024410247802734,
      "learning_rate": 5e-06,
      "loss": 0.8369,
      "num_input_tokens_seen": 497521328,
      "step": 3939
    },
    {
      "epoch": 1.0104534085807735,
      "loss": 0.7666683197021484,
      "loss_ce": 0.0012874531093984842,
      "loss_iou": 0.3515625,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 497521328,
      "step": 3939
    },
    {
      "epoch": 1.0107099339447188,
      "grad_norm": 41.30411148071289,
      "learning_rate": 5e-06,
      "loss": 1.0136,
      "num_input_tokens_seen": 497647480,
      "step": 3940
    },
    {
      "epoch": 1.0107099339447188,
      "loss": 0.9739000201225281,
      "loss_ce": 0.00026720319874584675,
      "loss_iou": 0.44921875,
      "loss_num": 0.01507568359375,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 497647480,
      "step": 3940
    },
    {
      "epoch": 1.0109664593086642,
      "grad_norm": 32.45027160644531,
      "learning_rate": 5e-06,
      "loss": 0.8706,
      "num_input_tokens_seen": 497774592,
      "step": 3941
    },
    {
      "epoch": 1.0109664593086642,
      "loss": 0.7725317478179932,
      "loss_ce": 0.0005590869695879519,
      "loss_iou": 0.361328125,
      "loss_num": 0.0101318359375,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 497774592,
      "step": 3941
    },
    {
      "epoch": 1.0112229846726095,
      "grad_norm": 26.58704376220703,
      "learning_rate": 5e-06,
      "loss": 0.8708,
      "num_input_tokens_seen": 497900848,
      "step": 3942
    },
    {
      "epoch": 1.0112229846726095,
      "loss": 1.003952980041504,
      "loss_ce": 0.001511571230366826,
      "loss_iou": 0.470703125,
      "loss_num": 0.0118408203125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 497900848,
      "step": 3942
    },
    {
      "epoch": 1.0114795100365548,
      "grad_norm": 13.316507339477539,
      "learning_rate": 5e-06,
      "loss": 0.9349,
      "num_input_tokens_seen": 498025704,
      "step": 3943
    },
    {
      "epoch": 1.0114795100365548,
      "loss": 0.8489960432052612,
      "loss_ce": 0.0003632181033026427,
      "loss_iou": 0.396484375,
      "loss_num": 0.010986328125,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 498025704,
      "step": 3943
    },
    {
      "epoch": 1.0117360354005003,
      "grad_norm": 20.75684928894043,
      "learning_rate": 5e-06,
      "loss": 0.8132,
      "num_input_tokens_seen": 498152604,
      "step": 3944
    },
    {
      "epoch": 1.0117360354005003,
      "loss": 0.8162523508071899,
      "loss_ce": 0.00033437402453273535,
      "loss_iou": 0.3828125,
      "loss_num": 0.0101318359375,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 498152604,
      "step": 3944
    },
    {
      "epoch": 1.0119925607644455,
      "grad_norm": 26.90835189819336,
      "learning_rate": 5e-06,
      "loss": 0.9493,
      "num_input_tokens_seen": 498278296,
      "step": 3945
    },
    {
      "epoch": 1.0119925607644455,
      "loss": 0.8673291802406311,
      "loss_ce": 0.0006300057866610587,
      "loss_iou": 0.3984375,
      "loss_num": 0.0135498046875,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 498278296,
      "step": 3945
    },
    {
      "epoch": 1.012249086128391,
      "grad_norm": 44.762996673583984,
      "learning_rate": 5e-06,
      "loss": 0.9027,
      "num_input_tokens_seen": 498403232,
      "step": 3946
    },
    {
      "epoch": 1.012249086128391,
      "loss": 0.7795457243919373,
      "loss_ce": 0.0031785385217517614,
      "loss_iou": 0.361328125,
      "loss_num": 0.0107421875,
      "loss_xval": 0.77734375,
      "num_input_tokens_seen": 498403232,
      "step": 3946
    },
    {
      "epoch": 1.0125056114923363,
      "grad_norm": 44.58448028564453,
      "learning_rate": 5e-06,
      "loss": 1.0598,
      "num_input_tokens_seen": 498529604,
      "step": 3947
    },
    {
      "epoch": 1.0125056114923363,
      "loss": 1.047034502029419,
      "loss_ce": 0.002112600952386856,
      "loss_iou": 0.482421875,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 498529604,
      "step": 3947
    },
    {
      "epoch": 1.0127621368562816,
      "grad_norm": 26.825424194335938,
      "learning_rate": 5e-06,
      "loss": 0.9707,
      "num_input_tokens_seen": 498656352,
      "step": 3948
    },
    {
      "epoch": 1.0127621368562816,
      "loss": 0.8654496073722839,
      "loss_ce": 0.0007035282324068248,
      "loss_iou": 0.3984375,
      "loss_num": 0.01348876953125,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 498656352,
      "step": 3948
    },
    {
      "epoch": 1.013018662220227,
      "grad_norm": 35.59690856933594,
      "learning_rate": 5e-06,
      "loss": 0.9415,
      "num_input_tokens_seen": 498783376,
      "step": 3949
    },
    {
      "epoch": 1.013018662220227,
      "loss": 0.7971255779266357,
      "loss_ce": 0.002203668002039194,
      "loss_iou": 0.36328125,
      "loss_num": 0.01318359375,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 498783376,
      "step": 3949
    },
    {
      "epoch": 1.0132751875841723,
      "grad_norm": 50.45384216308594,
      "learning_rate": 5e-06,
      "loss": 0.8701,
      "num_input_tokens_seen": 498909356,
      "step": 3950
    },
    {
      "epoch": 1.0132751875841723,
      "loss": 0.8379033803939819,
      "loss_ce": 0.003430750919505954,
      "loss_iou": 0.390625,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 498909356,
      "step": 3950
    },
    {
      "epoch": 1.0135317129481178,
      "grad_norm": 46.73894500732422,
      "learning_rate": 5e-06,
      "loss": 0.8818,
      "num_input_tokens_seen": 499035956,
      "step": 3951
    },
    {
      "epoch": 1.0135317129481178,
      "loss": 0.9373998641967773,
      "loss_ce": 0.003562025958672166,
      "loss_iou": 0.4375,
      "loss_num": 0.01165771484375,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 499035956,
      "step": 3951
    },
    {
      "epoch": 1.013788238312063,
      "grad_norm": 59.11717224121094,
      "learning_rate": 5e-06,
      "loss": 0.9643,
      "num_input_tokens_seen": 499162044,
      "step": 3952
    },
    {
      "epoch": 1.013788238312063,
      "loss": 1.129201889038086,
      "loss_ce": 0.00029557652305811644,
      "loss_iou": 0.50390625,
      "loss_num": 0.02490234375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 499162044,
      "step": 3952
    },
    {
      "epoch": 1.0140447636760084,
      "grad_norm": 53.595821380615234,
      "learning_rate": 5e-06,
      "loss": 1.0545,
      "num_input_tokens_seen": 499289192,
      "step": 3953
    },
    {
      "epoch": 1.0140447636760084,
      "loss": 1.0467408895492554,
      "loss_ce": 0.0008424907573498785,
      "loss_iou": 0.48046875,
      "loss_num": 0.01708984375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 499289192,
      "step": 3953
    },
    {
      "epoch": 1.0143012890399539,
      "grad_norm": 28.779396057128906,
      "learning_rate": 5e-06,
      "loss": 1.0036,
      "num_input_tokens_seen": 499414972,
      "step": 3954
    },
    {
      "epoch": 1.0143012890399539,
      "loss": 0.9531633853912354,
      "loss_ce": 0.002968083368614316,
      "loss_iou": 0.4296875,
      "loss_num": 0.0186767578125,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 499414972,
      "step": 3954
    },
    {
      "epoch": 1.0145578144038991,
      "grad_norm": 28.72728729248047,
      "learning_rate": 5e-06,
      "loss": 0.8755,
      "num_input_tokens_seen": 499541784,
      "step": 3955
    },
    {
      "epoch": 1.0145578144038991,
      "loss": 0.7312982082366943,
      "loss_ce": 0.0013177114306017756,
      "loss_iou": 0.337890625,
      "loss_num": 0.01104736328125,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 499541784,
      "step": 3955
    },
    {
      "epoch": 1.0148143397678446,
      "grad_norm": 44.01615905761719,
      "learning_rate": 5e-06,
      "loss": 0.8875,
      "num_input_tokens_seen": 499668716,
      "step": 3956
    },
    {
      "epoch": 1.0148143397678446,
      "loss": 0.8213711977005005,
      "loss_ce": 0.002035248326137662,
      "loss_iou": 0.3828125,
      "loss_num": 0.0107421875,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 499668716,
      "step": 3956
    },
    {
      "epoch": 1.01507086513179,
      "grad_norm": 64.2318344116211,
      "learning_rate": 5e-06,
      "loss": 0.9606,
      "num_input_tokens_seen": 499795352,
      "step": 3957
    },
    {
      "epoch": 1.01507086513179,
      "loss": 0.9073905944824219,
      "loss_ce": 0.00040818777051754296,
      "loss_iou": 0.41015625,
      "loss_num": 0.0169677734375,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 499795352,
      "step": 3957
    },
    {
      "epoch": 1.0153273904957352,
      "grad_norm": 48.10387420654297,
      "learning_rate": 5e-06,
      "loss": 0.8471,
      "num_input_tokens_seen": 499921192,
      "step": 3958
    },
    {
      "epoch": 1.0153273904957352,
      "loss": 0.849977970123291,
      "loss_ce": 0.00012447647168301046,
      "loss_iou": 0.41015625,
      "loss_num": 0.0057373046875,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 499921192,
      "step": 3958
    },
    {
      "epoch": 1.0155839158596807,
      "grad_norm": 30.44474220275879,
      "learning_rate": 5e-06,
      "loss": 0.9518,
      "num_input_tokens_seen": 500047748,
      "step": 3959
    },
    {
      "epoch": 1.0155839158596807,
      "loss": 0.7763447165489197,
      "loss_ce": 0.002174774883314967,
      "loss_iou": 0.357421875,
      "loss_num": 0.0120849609375,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 500047748,
      "step": 3959
    },
    {
      "epoch": 1.015840441223626,
      "grad_norm": 33.560089111328125,
      "learning_rate": 5e-06,
      "loss": 0.7711,
      "num_input_tokens_seen": 500174052,
      "step": 3960
    },
    {
      "epoch": 1.015840441223626,
      "loss": 0.8162609934806824,
      "loss_ce": 0.001319607370533049,
      "loss_iou": 0.388671875,
      "loss_num": 0.00750732421875,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 500174052,
      "step": 3960
    },
    {
      "epoch": 1.0160969665875714,
      "grad_norm": 34.52674102783203,
      "learning_rate": 5e-06,
      "loss": 0.8428,
      "num_input_tokens_seen": 500301188,
      "step": 3961
    },
    {
      "epoch": 1.0160969665875714,
      "loss": 0.7004778385162354,
      "loss_ce": 0.000526661635376513,
      "loss_iou": 0.3359375,
      "loss_num": 0.005615234375,
      "loss_xval": 0.69921875,
      "num_input_tokens_seen": 500301188,
      "step": 3961
    },
    {
      "epoch": 1.0163534919515167,
      "grad_norm": 49.233726501464844,
      "learning_rate": 5e-06,
      "loss": 0.8819,
      "num_input_tokens_seen": 500427748,
      "step": 3962
    },
    {
      "epoch": 1.0163534919515167,
      "loss": 0.7876882553100586,
      "loss_ce": 0.0010671776253730059,
      "loss_iou": 0.3671875,
      "loss_num": 0.0107421875,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 500427748,
      "step": 3962
    },
    {
      "epoch": 1.016610017315462,
      "grad_norm": 59.38427734375,
      "learning_rate": 5e-06,
      "loss": 0.9217,
      "num_input_tokens_seen": 500553264,
      "step": 3963
    },
    {
      "epoch": 1.016610017315462,
      "loss": 0.80934739112854,
      "loss_ce": 0.0002653077244758606,
      "loss_iou": 0.38671875,
      "loss_num": 0.007110595703125,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 500553264,
      "step": 3963
    },
    {
      "epoch": 1.0168665426794075,
      "grad_norm": 85.82457733154297,
      "learning_rate": 5e-06,
      "loss": 0.9401,
      "num_input_tokens_seen": 500679300,
      "step": 3964
    },
    {
      "epoch": 1.0168665426794075,
      "loss": 0.7470293045043945,
      "loss_ce": 0.0014238629955798388,
      "loss_iou": 0.345703125,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.74609375,
      "num_input_tokens_seen": 500679300,
      "step": 3964
    },
    {
      "epoch": 1.0171230680433527,
      "grad_norm": 36.33940124511719,
      "learning_rate": 5e-06,
      "loss": 0.8153,
      "num_input_tokens_seen": 500806164,
      "step": 3965
    },
    {
      "epoch": 1.0171230680433527,
      "loss": 0.9504098892211914,
      "loss_ce": 0.00021460256539285183,
      "loss_iou": 0.44921875,
      "loss_num": 0.0107421875,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 500806164,
      "step": 3965
    },
    {
      "epoch": 1.0173795934072982,
      "grad_norm": 50.12022018432617,
      "learning_rate": 5e-06,
      "loss": 0.8028,
      "num_input_tokens_seen": 500934344,
      "step": 3966
    },
    {
      "epoch": 1.0173795934072982,
      "loss": 0.8113610148429871,
      "loss_ce": 8.17443142295815e-05,
      "loss_iou": 0.384765625,
      "loss_num": 0.00872802734375,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 500934344,
      "step": 3966
    },
    {
      "epoch": 1.0176361187712435,
      "grad_norm": 69.47972106933594,
      "learning_rate": 5e-06,
      "loss": 0.865,
      "num_input_tokens_seen": 501062100,
      "step": 3967
    },
    {
      "epoch": 1.0176361187712435,
      "loss": 0.7863461971282959,
      "loss_ce": 0.00021332697360776365,
      "loss_iou": 0.37109375,
      "loss_num": 0.0084228515625,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 501062100,
      "step": 3967
    },
    {
      "epoch": 1.0178926441351888,
      "grad_norm": 48.74889373779297,
      "learning_rate": 5e-06,
      "loss": 0.9913,
      "num_input_tokens_seen": 501189164,
      "step": 3968
    },
    {
      "epoch": 1.0178926441351888,
      "loss": 0.8979724645614624,
      "loss_ce": 0.0019764485768973827,
      "loss_iou": 0.421875,
      "loss_num": 0.0101318359375,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 501189164,
      "step": 3968
    },
    {
      "epoch": 1.0181491694991343,
      "grad_norm": 28.98969268798828,
      "learning_rate": 5e-06,
      "loss": 0.8207,
      "num_input_tokens_seen": 501315256,
      "step": 3969
    },
    {
      "epoch": 1.0181491694991343,
      "loss": 0.9210138916969299,
      "loss_ce": 0.0025568734854459763,
      "loss_iou": 0.416015625,
      "loss_num": 0.0172119140625,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 501315256,
      "step": 3969
    },
    {
      "epoch": 1.0184056948630795,
      "grad_norm": 39.483909606933594,
      "learning_rate": 5e-06,
      "loss": 0.8868,
      "num_input_tokens_seen": 501441856,
      "step": 3970
    },
    {
      "epoch": 1.0184056948630795,
      "loss": 0.7234241962432861,
      "loss_ce": 0.0007679525879211724,
      "loss_iou": 0.34375,
      "loss_num": 0.0072021484375,
      "loss_xval": 0.72265625,
      "num_input_tokens_seen": 501441856,
      "step": 3970
    },
    {
      "epoch": 1.018662220227025,
      "grad_norm": 59.87135696411133,
      "learning_rate": 5e-06,
      "loss": 0.8441,
      "num_input_tokens_seen": 501569224,
      "step": 3971
    },
    {
      "epoch": 1.018662220227025,
      "loss": 0.9232269525527954,
      "loss_ce": 0.00037537614116445184,
      "loss_iou": 0.42578125,
      "loss_num": 0.01470947265625,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 501569224,
      "step": 3971
    },
    {
      "epoch": 1.0189187455909703,
      "grad_norm": 47.71225357055664,
      "learning_rate": 5e-06,
      "loss": 0.8857,
      "num_input_tokens_seen": 501696224,
      "step": 3972
    },
    {
      "epoch": 1.0189187455909703,
      "loss": 0.813605546951294,
      "loss_ce": 0.0011055127251893282,
      "loss_iou": 0.37109375,
      "loss_num": 0.01385498046875,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 501696224,
      "step": 3972
    },
    {
      "epoch": 1.0191752709549156,
      "grad_norm": 43.74977111816406,
      "learning_rate": 5e-06,
      "loss": 0.8344,
      "num_input_tokens_seen": 501823212,
      "step": 3973
    },
    {
      "epoch": 1.0191752709549156,
      "loss": 0.9106391072273254,
      "loss_ce": 0.0007269838824868202,
      "loss_iou": 0.41796875,
      "loss_num": 0.01507568359375,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 501823212,
      "step": 3973
    },
    {
      "epoch": 1.019431796318861,
      "grad_norm": 37.20829391479492,
      "learning_rate": 5e-06,
      "loss": 0.9255,
      "num_input_tokens_seen": 501949376,
      "step": 3974
    },
    {
      "epoch": 1.019431796318861,
      "loss": 1.1467788219451904,
      "loss_ce": 0.003712439676746726,
      "loss_iou": 0.51171875,
      "loss_num": 0.0244140625,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 501949376,
      "step": 3974
    },
    {
      "epoch": 1.0196883216828063,
      "grad_norm": 29.063762664794922,
      "learning_rate": 5e-06,
      "loss": 0.8083,
      "num_input_tokens_seen": 502075488,
      "step": 3975
    },
    {
      "epoch": 1.0196883216828063,
      "loss": 0.8571223020553589,
      "loss_ce": 0.0006769968895241618,
      "loss_iou": 0.388671875,
      "loss_num": 0.01611328125,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 502075488,
      "step": 3975
    },
    {
      "epoch": 1.0199448470467518,
      "grad_norm": 33.12002944946289,
      "learning_rate": 5e-06,
      "loss": 0.8345,
      "num_input_tokens_seen": 502201912,
      "step": 3976
    },
    {
      "epoch": 1.0199448470467518,
      "loss": 0.8574131727218628,
      "loss_ce": 0.0036533833481371403,
      "loss_iou": 0.388671875,
      "loss_num": 0.01544189453125,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 502201912,
      "step": 3976
    },
    {
      "epoch": 1.020201372410697,
      "grad_norm": 26.13715171813965,
      "learning_rate": 5e-06,
      "loss": 0.8785,
      "num_input_tokens_seen": 502328340,
      "step": 3977
    },
    {
      "epoch": 1.020201372410697,
      "loss": 0.9527499675750732,
      "loss_ce": 0.0015781213296577334,
      "loss_iou": 0.4375,
      "loss_num": 0.01483154296875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 502328340,
      "step": 3977
    },
    {
      "epoch": 1.0204578977746426,
      "grad_norm": 42.302223205566406,
      "learning_rate": 5e-06,
      "loss": 0.8736,
      "num_input_tokens_seen": 502455052,
      "step": 3978
    },
    {
      "epoch": 1.0204578977746426,
      "loss": 0.7269701957702637,
      "loss_ce": 0.00040766061283648014,
      "loss_iou": 0.33984375,
      "loss_num": 0.00946044921875,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 502455052,
      "step": 3978
    },
    {
      "epoch": 1.0207144231385878,
      "grad_norm": 38.20693588256836,
      "learning_rate": 5e-06,
      "loss": 0.8772,
      "num_input_tokens_seen": 502582048,
      "step": 3979
    },
    {
      "epoch": 1.0207144231385878,
      "loss": 0.8737525939941406,
      "loss_ce": 0.0024147070944309235,
      "loss_iou": 0.396484375,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 502582048,
      "step": 3979
    },
    {
      "epoch": 1.0209709485025331,
      "grad_norm": 38.8513069152832,
      "learning_rate": 5e-06,
      "loss": 0.809,
      "num_input_tokens_seen": 502707676,
      "step": 3980
    },
    {
      "epoch": 1.0209709485025331,
      "loss": 0.7334942817687988,
      "loss_ce": 0.00033998285653069615,
      "loss_iou": 0.349609375,
      "loss_num": 0.006927490234375,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 502707676,
      "step": 3980
    },
    {
      "epoch": 1.0212274738664786,
      "grad_norm": 47.11493682861328,
      "learning_rate": 5e-06,
      "loss": 0.8135,
      "num_input_tokens_seen": 502834064,
      "step": 3981
    },
    {
      "epoch": 1.0212274738664786,
      "loss": 0.8948256373405457,
      "loss_ce": 0.00029437366174533963,
      "loss_iou": 0.4140625,
      "loss_num": 0.01361083984375,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 502834064,
      "step": 3981
    },
    {
      "epoch": 1.0214839992304239,
      "grad_norm": 37.914485931396484,
      "learning_rate": 5e-06,
      "loss": 1.0054,
      "num_input_tokens_seen": 502959544,
      "step": 3982
    },
    {
      "epoch": 1.0214839992304239,
      "loss": 0.9962164163589478,
      "loss_ce": 0.0010992008028551936,
      "loss_iou": 0.4609375,
      "loss_num": 0.01483154296875,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 502959544,
      "step": 3982
    },
    {
      "epoch": 1.0217405245943694,
      "grad_norm": 29.836000442504883,
      "learning_rate": 5e-06,
      "loss": 0.7611,
      "num_input_tokens_seen": 503084628,
      "step": 3983
    },
    {
      "epoch": 1.0217405245943694,
      "loss": 0.812404453754425,
      "loss_ce": 0.0001485995016992092,
      "loss_iou": 0.38671875,
      "loss_num": 0.007232666015625,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 503084628,
      "step": 3983
    },
    {
      "epoch": 1.0219970499583146,
      "grad_norm": 31.154399871826172,
      "learning_rate": 5e-06,
      "loss": 0.8518,
      "num_input_tokens_seen": 503209476,
      "step": 3984
    },
    {
      "epoch": 1.0219970499583146,
      "loss": 1.035015344619751,
      "loss_ce": 0.0018122168257832527,
      "loss_iou": 0.46875,
      "loss_num": 0.01904296875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 503209476,
      "step": 3984
    },
    {
      "epoch": 1.02225357532226,
      "grad_norm": 24.668697357177734,
      "learning_rate": 5e-06,
      "loss": 0.9179,
      "num_input_tokens_seen": 503336860,
      "step": 3985
    },
    {
      "epoch": 1.02225357532226,
      "loss": 0.9954509735107422,
      "loss_ce": 0.00033376453211531043,
      "loss_iou": 0.46484375,
      "loss_num": 0.01300048828125,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 503336860,
      "step": 3985
    },
    {
      "epoch": 1.0225101006862054,
      "grad_norm": 19.751623153686523,
      "learning_rate": 5e-06,
      "loss": 1.0243,
      "num_input_tokens_seen": 503462660,
      "step": 3986
    },
    {
      "epoch": 1.0225101006862054,
      "loss": 1.1702947616577148,
      "loss_ce": 0.0013495611492544413,
      "loss_iou": 0.5234375,
      "loss_num": 0.02392578125,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 503462660,
      "step": 3986
    },
    {
      "epoch": 1.0227666260501507,
      "grad_norm": 25.5441837310791,
      "learning_rate": 5e-06,
      "loss": 0.8762,
      "num_input_tokens_seen": 503587816,
      "step": 3987
    },
    {
      "epoch": 1.0227666260501507,
      "loss": 0.7900753021240234,
      "loss_ce": 0.0007686770986765623,
      "loss_iou": 0.369140625,
      "loss_num": 0.010009765625,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 503587816,
      "step": 3987
    },
    {
      "epoch": 1.0230231514140962,
      "grad_norm": 33.589996337890625,
      "learning_rate": 5e-06,
      "loss": 0.8415,
      "num_input_tokens_seen": 503714992,
      "step": 3988
    },
    {
      "epoch": 1.0230231514140962,
      "loss": 0.7839004993438721,
      "loss_ce": 0.0006973581039346755,
      "loss_iou": 0.361328125,
      "loss_num": 0.012451171875,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 503714992,
      "step": 3988
    },
    {
      "epoch": 1.0232796767780414,
      "grad_norm": 47.386512756347656,
      "learning_rate": 5e-06,
      "loss": 0.8944,
      "num_input_tokens_seen": 503840908,
      "step": 3989
    },
    {
      "epoch": 1.0232796767780414,
      "loss": 0.9626175165176392,
      "loss_ce": 0.00021520820155274123,
      "loss_iou": 0.44140625,
      "loss_num": 0.015380859375,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 503840908,
      "step": 3989
    },
    {
      "epoch": 1.0235362021419867,
      "grad_norm": 39.97118377685547,
      "learning_rate": 5e-06,
      "loss": 0.8851,
      "num_input_tokens_seen": 503966920,
      "step": 3990
    },
    {
      "epoch": 1.0235362021419867,
      "loss": 0.9736287593841553,
      "loss_ce": 0.0019490504637360573,
      "loss_iou": 0.4609375,
      "loss_num": 0.0096435546875,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 503966920,
      "step": 3990
    },
    {
      "epoch": 1.0237927275059322,
      "grad_norm": 29.255727767944336,
      "learning_rate": 5e-06,
      "loss": 0.8736,
      "num_input_tokens_seen": 504093116,
      "step": 3991
    },
    {
      "epoch": 1.0237927275059322,
      "loss": 0.7151129245758057,
      "loss_ce": 0.0010016151936724782,
      "loss_iou": 0.34375,
      "loss_num": 0.005279541015625,
      "loss_xval": 0.71484375,
      "num_input_tokens_seen": 504093116,
      "step": 3991
    },
    {
      "epoch": 1.0240492528698775,
      "grad_norm": 36.89223861694336,
      "learning_rate": 5e-06,
      "loss": 0.8599,
      "num_input_tokens_seen": 504219052,
      "step": 3992
    },
    {
      "epoch": 1.0240492528698775,
      "loss": 0.842548668384552,
      "loss_ce": 0.0007517996127717197,
      "loss_iou": 0.3984375,
      "loss_num": 0.00909423828125,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 504219052,
      "step": 3992
    },
    {
      "epoch": 1.024305778233823,
      "grad_norm": 41.68785095214844,
      "learning_rate": 5e-06,
      "loss": 0.8191,
      "num_input_tokens_seen": 504344092,
      "step": 3993
    },
    {
      "epoch": 1.024305778233823,
      "loss": 0.7479589581489563,
      "loss_ce": 0.0008886796422302723,
      "loss_iou": 0.357421875,
      "loss_num": 0.00677490234375,
      "loss_xval": 0.74609375,
      "num_input_tokens_seen": 504344092,
      "step": 3993
    },
    {
      "epoch": 1.0245623035977682,
      "grad_norm": 52.6393928527832,
      "learning_rate": 5e-06,
      "loss": 0.9053,
      "num_input_tokens_seen": 504469652,
      "step": 3994
    },
    {
      "epoch": 1.0245623035977682,
      "loss": 0.8952017426490784,
      "loss_ce": 0.0040884558111429214,
      "loss_iou": 0.4140625,
      "loss_num": 0.012451171875,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 504469652,
      "step": 3994
    },
    {
      "epoch": 1.0248188289617135,
      "grad_norm": 53.295955657958984,
      "learning_rate": 5e-06,
      "loss": 0.9033,
      "num_input_tokens_seen": 504595736,
      "step": 3995
    },
    {
      "epoch": 1.0248188289617135,
      "loss": 0.8795344829559326,
      "loss_ce": 0.00013994230539537966,
      "loss_iou": 0.41796875,
      "loss_num": 0.00927734375,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 504595736,
      "step": 3995
    },
    {
      "epoch": 1.025075354325659,
      "grad_norm": 51.17523193359375,
      "learning_rate": 5e-06,
      "loss": 0.8232,
      "num_input_tokens_seen": 504721076,
      "step": 3996
    },
    {
      "epoch": 1.025075354325659,
      "loss": 0.6793662309646606,
      "loss_ce": 0.00041117900400422513,
      "loss_iou": 0.326171875,
      "loss_num": 0.005706787109375,
      "loss_xval": 0.6796875,
      "num_input_tokens_seen": 504721076,
      "step": 3996
    },
    {
      "epoch": 1.0253318796896043,
      "grad_norm": 44.53055953979492,
      "learning_rate": 5e-06,
      "loss": 0.7955,
      "num_input_tokens_seen": 504847168,
      "step": 3997
    },
    {
      "epoch": 1.0253318796896043,
      "loss": 0.8204234838485718,
      "loss_ce": 0.00011101095878984779,
      "loss_iou": 0.39453125,
      "loss_num": 0.006591796875,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 504847168,
      "step": 3997
    },
    {
      "epoch": 1.0255884050535498,
      "grad_norm": 55.485469818115234,
      "learning_rate": 5e-06,
      "loss": 0.9825,
      "num_input_tokens_seen": 504974064,
      "step": 3998
    },
    {
      "epoch": 1.0255884050535498,
      "loss": 1.02176833152771,
      "loss_ce": 0.0022370684891939163,
      "loss_iou": 0.482421875,
      "loss_num": 0.010986328125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 504974064,
      "step": 3998
    },
    {
      "epoch": 1.025844930417495,
      "grad_norm": 49.297359466552734,
      "learning_rate": 5e-06,
      "loss": 0.843,
      "num_input_tokens_seen": 505100968,
      "step": 3999
    },
    {
      "epoch": 1.025844930417495,
      "loss": 0.9438464641571045,
      "loss_ce": 0.00585815217345953,
      "loss_iou": 0.421875,
      "loss_num": 0.0186767578125,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 505100968,
      "step": 3999
    },
    {
      "epoch": 1.0261014557814403,
      "grad_norm": 51.123443603515625,
      "learning_rate": 5e-06,
      "loss": 0.8516,
      "num_input_tokens_seen": 505227696,
      "step": 4000
    },
    {
      "epoch": 1.0261014557814403,
      "eval_icons_CIoU": 0.2629767432808876,
      "eval_icons_GIoU": 0.2294548898935318,
      "eval_icons_IoU": 0.4418274313211441,
      "eval_icons_MAE_all": 0.02577248029410839,
      "eval_icons_MAE_h": 0.03044621180742979,
      "eval_icons_MAE_w": 0.05449048802256584,
      "eval_icons_MAE_x_boxes": 0.05605706572532654,
      "eval_icons_MAE_y_boxes": 0.031257313676178455,
      "eval_icons_NUM_probability": 0.9997778534889221,
      "eval_icons_inside_bbox": 0.6684027910232544,
      "eval_icons_loss": 1.6291700601577759,
      "eval_icons_loss_ce": 8.988614899863023e-05,
      "eval_icons_loss_iou": 0.7574462890625,
      "eval_icons_loss_num": 0.02904510498046875,
      "eval_icons_loss_xval": 1.658935546875,
      "eval_icons_runtime": 56.9556,
      "eval_icons_samples_per_second": 0.878,
      "eval_icons_steps_per_second": 0.035,
      "num_input_tokens_seen": 505227696,
      "step": 4000
    },
    {
      "epoch": 1.0261014557814403,
      "eval_screenspot_CIoU": 0.1299015680948893,
      "eval_screenspot_GIoU": 0.1171463131904602,
      "eval_screenspot_IoU": 0.2965235710144043,
      "eval_screenspot_MAE_all": 0.07560681675871213,
      "eval_screenspot_MAE_h": 0.0648095856110255,
      "eval_screenspot_MAE_w": 0.1222541332244873,
      "eval_screenspot_MAE_x_boxes": 0.1042500560482343,
      "eval_screenspot_MAE_y_boxes": 0.05802440643310547,
      "eval_screenspot_NUM_probability": 0.9999476273854574,
      "eval_screenspot_inside_bbox": 0.5808333357175192,
      "eval_screenspot_loss": 2.1835989952087402,
      "eval_screenspot_loss_ce": 0.002204801654443145,
      "eval_screenspot_loss_iou": 0.90771484375,
      "eval_screenspot_loss_num": 0.07987721761067708,
      "eval_screenspot_loss_xval": 2.2151692708333335,
      "eval_screenspot_runtime": 94.4057,
      "eval_screenspot_samples_per_second": 0.943,
      "eval_screenspot_steps_per_second": 0.032,
      "num_input_tokens_seen": 505227696,
      "step": 4000
    },
    {
      "epoch": 1.0261014557814403,
      "loss": 2.1956138610839844,
      "loss_ce": 0.0012780085671693087,
      "loss_iou": 0.9140625,
      "loss_num": 0.0732421875,
      "loss_xval": 2.1875,
      "num_input_tokens_seen": 505227696,
      "step": 4000
    },
    {
      "epoch": 1.0263579811453858,
      "grad_norm": 47.42884826660156,
      "learning_rate": 5e-06,
      "loss": 0.8716,
      "num_input_tokens_seen": 505353260,
      "step": 4001
    },
    {
      "epoch": 1.0263579811453858,
      "loss": 0.8671429753303528,
      "loss_ce": 0.003373438026756048,
      "loss_iou": 0.396484375,
      "loss_num": 0.0142822265625,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 505353260,
      "step": 4001
    },
    {
      "epoch": 1.026614506509331,
      "grad_norm": 59.812591552734375,
      "learning_rate": 5e-06,
      "loss": 0.9393,
      "num_input_tokens_seen": 505479816,
      "step": 4002
    },
    {
      "epoch": 1.026614506509331,
      "loss": 0.8337695598602295,
      "loss_ce": 0.00027350563323125243,
      "loss_iou": 0.3984375,
      "loss_num": 0.0074462890625,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 505479816,
      "step": 4002
    },
    {
      "epoch": 1.0268710318732766,
      "grad_norm": 59.36829376220703,
      "learning_rate": 5e-06,
      "loss": 0.9306,
      "num_input_tokens_seen": 505606572,
      "step": 4003
    },
    {
      "epoch": 1.0268710318732766,
      "loss": 0.854920506477356,
      "loss_ce": 0.0014048840384930372,
      "loss_iou": 0.408203125,
      "loss_num": 0.00762939453125,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 505606572,
      "step": 4003
    },
    {
      "epoch": 1.0271275572372218,
      "grad_norm": 46.584815979003906,
      "learning_rate": 5e-06,
      "loss": 0.9396,
      "num_input_tokens_seen": 505733128,
      "step": 4004
    },
    {
      "epoch": 1.0271275572372218,
      "loss": 0.8529113531112671,
      "loss_ce": 0.0006164070800878108,
      "loss_iou": 0.38671875,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 505733128,
      "step": 4004
    },
    {
      "epoch": 1.027384082601167,
      "grad_norm": 45.365318298339844,
      "learning_rate": 5e-06,
      "loss": 0.9811,
      "num_input_tokens_seen": 505859824,
      "step": 4005
    },
    {
      "epoch": 1.027384082601167,
      "loss": 1.001922845840454,
      "loss_ce": 0.0014346300158649683,
      "loss_iou": 0.478515625,
      "loss_num": 0.00860595703125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 505859824,
      "step": 4005
    },
    {
      "epoch": 1.0276406079651126,
      "grad_norm": 60.09733581542969,
      "learning_rate": 5e-06,
      "loss": 0.9692,
      "num_input_tokens_seen": 505987332,
      "step": 4006
    },
    {
      "epoch": 1.0276406079651126,
      "loss": 1.1657438278198242,
      "loss_ce": 0.0011930913897231221,
      "loss_iou": 0.54296875,
      "loss_num": 0.0162353515625,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 505987332,
      "step": 4006
    },
    {
      "epoch": 1.0278971333290579,
      "grad_norm": 45.711727142333984,
      "learning_rate": 5e-06,
      "loss": 0.9187,
      "num_input_tokens_seen": 506112948,
      "step": 4007
    },
    {
      "epoch": 1.0278971333290579,
      "loss": 0.918578028678894,
      "loss_ce": 0.00012098745355615392,
      "loss_iou": 0.419921875,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 506112948,
      "step": 4007
    },
    {
      "epoch": 1.0281536586930033,
      "grad_norm": 27.9440975189209,
      "learning_rate": 5e-06,
      "loss": 0.8746,
      "num_input_tokens_seen": 506238744,
      "step": 4008
    },
    {
      "epoch": 1.0281536586930033,
      "loss": 0.7322365641593933,
      "loss_ce": 0.0007912334986031055,
      "loss_iou": 0.34765625,
      "loss_num": 0.00750732421875,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 506238744,
      "step": 4008
    },
    {
      "epoch": 1.0284101840569486,
      "grad_norm": 20.25840950012207,
      "learning_rate": 5e-06,
      "loss": 0.8519,
      "num_input_tokens_seen": 506364736,
      "step": 4009
    },
    {
      "epoch": 1.0284101840569486,
      "loss": 0.6571990847587585,
      "loss_ce": 0.00021670080604963005,
      "loss_iou": 0.30859375,
      "loss_num": 0.00811767578125,
      "loss_xval": 0.65625,
      "num_input_tokens_seen": 506364736,
      "step": 4009
    },
    {
      "epoch": 1.0286667094208939,
      "grad_norm": 23.128658294677734,
      "learning_rate": 5e-06,
      "loss": 0.9018,
      "num_input_tokens_seen": 506491016,
      "step": 4010
    },
    {
      "epoch": 1.0286667094208939,
      "loss": 1.0391865968704224,
      "loss_ce": 0.0025654607452452183,
      "loss_iou": 0.45703125,
      "loss_num": 0.024169921875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 506491016,
      "step": 4010
    },
    {
      "epoch": 1.0289232347848394,
      "grad_norm": 27.171491622924805,
      "learning_rate": 5e-06,
      "loss": 0.8615,
      "num_input_tokens_seen": 506618236,
      "step": 4011
    },
    {
      "epoch": 1.0289232347848394,
      "loss": 0.9537492990493774,
      "loss_ce": 0.0035539937671273947,
      "loss_iou": 0.42578125,
      "loss_num": 0.019775390625,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 506618236,
      "step": 4011
    },
    {
      "epoch": 1.0291797601487847,
      "grad_norm": 20.324810028076172,
      "learning_rate": 5e-06,
      "loss": 0.9514,
      "num_input_tokens_seen": 506744016,
      "step": 4012
    },
    {
      "epoch": 1.0291797601487847,
      "loss": 0.8650120496749878,
      "loss_ce": 0.00026595970848575234,
      "loss_iou": 0.396484375,
      "loss_num": 0.01409912109375,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 506744016,
      "step": 4012
    },
    {
      "epoch": 1.0294362855127301,
      "grad_norm": 16.68267822265625,
      "learning_rate": 5e-06,
      "loss": 0.8792,
      "num_input_tokens_seen": 506870552,
      "step": 4013
    },
    {
      "epoch": 1.0294362855127301,
      "loss": 1.138114094734192,
      "loss_ce": 0.0004187042941339314,
      "loss_iou": 0.51171875,
      "loss_num": 0.0225830078125,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 506870552,
      "step": 4013
    },
    {
      "epoch": 1.0296928108766754,
      "grad_norm": 13.695229530334473,
      "learning_rate": 5e-06,
      "loss": 0.846,
      "num_input_tokens_seen": 506996548,
      "step": 4014
    },
    {
      "epoch": 1.0296928108766754,
      "loss": 0.8118672370910645,
      "loss_ce": 9.967176447389647e-05,
      "loss_iou": 0.38671875,
      "loss_num": 0.00799560546875,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 506996548,
      "step": 4014
    },
    {
      "epoch": 1.0299493362406207,
      "grad_norm": 797.0865478515625,
      "learning_rate": 5e-06,
      "loss": 0.8367,
      "num_input_tokens_seen": 507123064,
      "step": 4015
    },
    {
      "epoch": 1.0299493362406207,
      "loss": 0.9423940181732178,
      "loss_ce": 0.002452583983540535,
      "loss_iou": 0.43359375,
      "loss_num": 0.0146484375,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 507123064,
      "step": 4015
    },
    {
      "epoch": 1.0302058616045662,
      "grad_norm": 161.01829528808594,
      "learning_rate": 5e-06,
      "loss": 0.8494,
      "num_input_tokens_seen": 507248972,
      "step": 4016
    },
    {
      "epoch": 1.0302058616045662,
      "loss": 0.8710408210754395,
      "loss_ce": 0.00019126357801724225,
      "loss_iou": 0.4140625,
      "loss_num": 0.00830078125,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 507248972,
      "step": 4016
    },
    {
      "epoch": 1.0304623869685114,
      "grad_norm": 33.35986328125,
      "learning_rate": 5e-06,
      "loss": 0.7036,
      "num_input_tokens_seen": 507375344,
      "step": 4017
    },
    {
      "epoch": 1.0304623869685114,
      "loss": 0.7417660355567932,
      "loss_ce": 0.002019948326051235,
      "loss_iou": 0.341796875,
      "loss_num": 0.0113525390625,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 507375344,
      "step": 4017
    },
    {
      "epoch": 1.030718912332457,
      "grad_norm": 36.47433090209961,
      "learning_rate": 5e-06,
      "loss": 0.9544,
      "num_input_tokens_seen": 507501808,
      "step": 4018
    },
    {
      "epoch": 1.030718912332457,
      "loss": 0.8726283311843872,
      "loss_ce": 0.004464235622435808,
      "loss_iou": 0.396484375,
      "loss_num": 0.0146484375,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 507501808,
      "step": 4018
    },
    {
      "epoch": 1.0309754376964022,
      "grad_norm": 53.0880126953125,
      "learning_rate": 5e-06,
      "loss": 0.8246,
      "num_input_tokens_seen": 507627512,
      "step": 4019
    },
    {
      "epoch": 1.0309754376964022,
      "loss": 0.8161571025848389,
      "loss_ce": 0.00023915445490274578,
      "loss_iou": 0.3828125,
      "loss_num": 0.0103759765625,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 507627512,
      "step": 4019
    },
    {
      "epoch": 1.0312319630603477,
      "grad_norm": 46.42916488647461,
      "learning_rate": 5e-06,
      "loss": 0.7719,
      "num_input_tokens_seen": 507753540,
      "step": 4020
    },
    {
      "epoch": 1.0312319630603477,
      "loss": 0.8266443014144897,
      "loss_ce": 0.000472433865070343,
      "loss_iou": 0.38671875,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 507753540,
      "step": 4020
    },
    {
      "epoch": 1.031488488424293,
      "grad_norm": 28.865375518798828,
      "learning_rate": 5e-06,
      "loss": 0.9821,
      "num_input_tokens_seen": 507880728,
      "step": 4021
    },
    {
      "epoch": 1.031488488424293,
      "loss": 1.1604408025741577,
      "loss_ce": 0.002237738808616996,
      "loss_iou": 0.52734375,
      "loss_num": 0.021484375,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 507880728,
      "step": 4021
    },
    {
      "epoch": 1.0317450137882382,
      "grad_norm": 98.63385772705078,
      "learning_rate": 5e-06,
      "loss": 0.8294,
      "num_input_tokens_seen": 508006272,
      "step": 4022
    },
    {
      "epoch": 1.0317450137882382,
      "loss": 0.7089860439300537,
      "loss_ce": 0.0004899362102150917,
      "loss_iou": 0.341796875,
      "loss_num": 0.00506591796875,
      "loss_xval": 0.70703125,
      "num_input_tokens_seen": 508006272,
      "step": 4022
    },
    {
      "epoch": 1.0320015391521837,
      "grad_norm": 39.560123443603516,
      "learning_rate": 5e-06,
      "loss": 0.8525,
      "num_input_tokens_seen": 508132048,
      "step": 4023
    },
    {
      "epoch": 1.0320015391521837,
      "loss": 0.8363714814186096,
      "loss_ce": 0.0016546788392588496,
      "loss_iou": 0.388671875,
      "loss_num": 0.011474609375,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 508132048,
      "step": 4023
    },
    {
      "epoch": 1.032258064516129,
      "grad_norm": 48.35432052612305,
      "learning_rate": 5e-06,
      "loss": 0.8298,
      "num_input_tokens_seen": 508259392,
      "step": 4024
    },
    {
      "epoch": 1.032258064516129,
      "loss": 0.8597798347473145,
      "loss_ce": 0.001869632862508297,
      "loss_iou": 0.40234375,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 508259392,
      "step": 4024
    },
    {
      "epoch": 1.0325145898800745,
      "grad_norm": 63.1019401550293,
      "learning_rate": 5e-06,
      "loss": 0.8458,
      "num_input_tokens_seen": 508385524,
      "step": 4025
    },
    {
      "epoch": 1.0325145898800745,
      "loss": 0.8330774903297424,
      "loss_ce": 0.0003138239844702184,
      "loss_iou": 0.384765625,
      "loss_num": 0.0125732421875,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 508385524,
      "step": 4025
    },
    {
      "epoch": 1.0327711152440198,
      "grad_norm": 47.8669548034668,
      "learning_rate": 5e-06,
      "loss": 0.9118,
      "num_input_tokens_seen": 508510628,
      "step": 4026
    },
    {
      "epoch": 1.0327711152440198,
      "loss": 0.8845911622047424,
      "loss_ce": 0.0027552014216780663,
      "loss_iou": 0.408203125,
      "loss_num": 0.0128173828125,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 508510628,
      "step": 4026
    },
    {
      "epoch": 1.033027640607965,
      "grad_norm": 35.50339889526367,
      "learning_rate": 5e-06,
      "loss": 0.8826,
      "num_input_tokens_seen": 508636596,
      "step": 4027
    },
    {
      "epoch": 1.033027640607965,
      "loss": 1.0330781936645508,
      "loss_ce": 0.00036323454696685076,
      "loss_iou": 0.462890625,
      "loss_num": 0.021484375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 508636596,
      "step": 4027
    },
    {
      "epoch": 1.0332841659719105,
      "grad_norm": 37.343360900878906,
      "learning_rate": 5e-06,
      "loss": 0.7692,
      "num_input_tokens_seen": 508762688,
      "step": 4028
    },
    {
      "epoch": 1.0332841659719105,
      "loss": 0.7749756574630737,
      "loss_ce": 0.0010499266209080815,
      "loss_iou": 0.359375,
      "loss_num": 0.01068115234375,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 508762688,
      "step": 4028
    },
    {
      "epoch": 1.0335406913358558,
      "grad_norm": 56.10839080810547,
      "learning_rate": 5e-06,
      "loss": 0.8001,
      "num_input_tokens_seen": 508889560,
      "step": 4029
    },
    {
      "epoch": 1.0335406913358558,
      "loss": 0.7847346067428589,
      "loss_ce": 0.0003107609518337995,
      "loss_iou": 0.365234375,
      "loss_num": 0.01092529296875,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 508889560,
      "step": 4029
    },
    {
      "epoch": 1.0337972166998013,
      "grad_norm": 43.472537994384766,
      "learning_rate": 5e-06,
      "loss": 0.8393,
      "num_input_tokens_seen": 509014880,
      "step": 4030
    },
    {
      "epoch": 1.0337972166998013,
      "loss": 0.805358350276947,
      "loss_ce": 0.0006708444561809301,
      "loss_iou": 0.37109375,
      "loss_num": 0.0123291015625,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 509014880,
      "step": 4030
    },
    {
      "epoch": 1.0340537420637466,
      "grad_norm": 42.960784912109375,
      "learning_rate": 5e-06,
      "loss": 0.7782,
      "num_input_tokens_seen": 509141444,
      "step": 4031
    },
    {
      "epoch": 1.0340537420637466,
      "loss": 0.6642683744430542,
      "loss_ce": 0.0002058270911220461,
      "loss_iou": 0.318359375,
      "loss_num": 0.005279541015625,
      "loss_xval": 0.6640625,
      "num_input_tokens_seen": 509141444,
      "step": 4031
    },
    {
      "epoch": 1.0343102674276918,
      "grad_norm": 43.12409591674805,
      "learning_rate": 5e-06,
      "loss": 0.9014,
      "num_input_tokens_seen": 509267308,
      "step": 4032
    },
    {
      "epoch": 1.0343102674276918,
      "loss": 0.8103522658348083,
      "loss_ce": 0.00029364589136093855,
      "loss_iou": 0.384765625,
      "loss_num": 0.0079345703125,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 509267308,
      "step": 4032
    },
    {
      "epoch": 1.0345667927916373,
      "grad_norm": 42.7735481262207,
      "learning_rate": 5e-06,
      "loss": 0.876,
      "num_input_tokens_seen": 509393368,
      "step": 4033
    },
    {
      "epoch": 1.0345667927916373,
      "loss": 0.882784366607666,
      "loss_ce": 0.0033897929824888706,
      "loss_iou": 0.408203125,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 509393368,
      "step": 4033
    },
    {
      "epoch": 1.0348233181555826,
      "grad_norm": 29.572301864624023,
      "learning_rate": 5e-06,
      "loss": 1.0637,
      "num_input_tokens_seen": 509518320,
      "step": 4034
    },
    {
      "epoch": 1.0348233181555826,
      "loss": 0.8878448605537415,
      "loss_ce": 0.00014956855739001185,
      "loss_iou": 0.412109375,
      "loss_num": 0.01220703125,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 509518320,
      "step": 4034
    },
    {
      "epoch": 1.035079843519528,
      "grad_norm": 36.41844940185547,
      "learning_rate": 5e-06,
      "loss": 0.7466,
      "num_input_tokens_seen": 509644528,
      "step": 4035
    },
    {
      "epoch": 1.035079843519528,
      "loss": 0.7647613883018494,
      "loss_ce": 0.0032867693807929754,
      "loss_iou": 0.359375,
      "loss_num": 0.00830078125,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 509644528,
      "step": 4035
    },
    {
      "epoch": 1.0353363688834734,
      "grad_norm": 43.95167541503906,
      "learning_rate": 5e-06,
      "loss": 0.9582,
      "num_input_tokens_seen": 509769956,
      "step": 4036
    },
    {
      "epoch": 1.0353363688834734,
      "loss": 0.8984459042549133,
      "loss_ce": 0.0002524935989640653,
      "loss_iou": 0.416015625,
      "loss_num": 0.0128173828125,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 509769956,
      "step": 4036
    },
    {
      "epoch": 1.0355928942474186,
      "grad_norm": 23.650976181030273,
      "learning_rate": 5e-06,
      "loss": 0.8792,
      "num_input_tokens_seen": 509896356,
      "step": 4037
    },
    {
      "epoch": 1.0355928942474186,
      "loss": 0.874738335609436,
      "loss_ce": 0.000714890833478421,
      "loss_iou": 0.412109375,
      "loss_num": 0.01031494140625,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 509896356,
      "step": 4037
    },
    {
      "epoch": 1.0358494196113641,
      "grad_norm": 24.00243377685547,
      "learning_rate": 5e-06,
      "loss": 0.8238,
      "num_input_tokens_seen": 510022620,
      "step": 4038
    },
    {
      "epoch": 1.0358494196113641,
      "loss": 0.8856875896453857,
      "loss_ce": 0.0006777917733415961,
      "loss_iou": 0.400390625,
      "loss_num": 0.016357421875,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 510022620,
      "step": 4038
    },
    {
      "epoch": 1.0361059449753094,
      "grad_norm": 42.28544235229492,
      "learning_rate": 5e-06,
      "loss": 0.8302,
      "num_input_tokens_seen": 510150220,
      "step": 4039
    },
    {
      "epoch": 1.0361059449753094,
      "loss": 0.7426685094833374,
      "loss_ce": 0.00023685320047661662,
      "loss_iou": 0.349609375,
      "loss_num": 0.00897216796875,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 510150220,
      "step": 4039
    },
    {
      "epoch": 1.0363624703392549,
      "grad_norm": 56.32689666748047,
      "learning_rate": 5e-06,
      "loss": 0.8899,
      "num_input_tokens_seen": 510276700,
      "step": 4040
    },
    {
      "epoch": 1.0363624703392549,
      "loss": 0.7801055908203125,
      "loss_ce": 0.0027617907617241144,
      "loss_iou": 0.3671875,
      "loss_num": 0.00897216796875,
      "loss_xval": 0.77734375,
      "num_input_tokens_seen": 510276700,
      "step": 4040
    },
    {
      "epoch": 1.0366189957032002,
      "grad_norm": 41.187015533447266,
      "learning_rate": 5e-06,
      "loss": 1.0213,
      "num_input_tokens_seen": 510402816,
      "step": 4041
    },
    {
      "epoch": 1.0366189957032002,
      "loss": 1.0540460348129272,
      "loss_ce": 0.0008234119741246104,
      "loss_iou": 0.47265625,
      "loss_num": 0.021484375,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 510402816,
      "step": 4041
    },
    {
      "epoch": 1.0368755210671454,
      "grad_norm": 35.79241180419922,
      "learning_rate": 5e-06,
      "loss": 0.9331,
      "num_input_tokens_seen": 510529388,
      "step": 4042
    },
    {
      "epoch": 1.0368755210671454,
      "loss": 0.7981353402137756,
      "loss_ce": 0.0017486142460256815,
      "loss_iou": 0.375,
      "loss_num": 0.0087890625,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 510529388,
      "step": 4042
    },
    {
      "epoch": 1.037132046431091,
      "grad_norm": 43.548126220703125,
      "learning_rate": 5e-06,
      "loss": 0.8686,
      "num_input_tokens_seen": 510656188,
      "step": 4043
    },
    {
      "epoch": 1.037132046431091,
      "loss": 0.8347257971763611,
      "loss_ce": 0.00220626313239336,
      "loss_iou": 0.376953125,
      "loss_num": 0.01611328125,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 510656188,
      "step": 4043
    },
    {
      "epoch": 1.0373885717950362,
      "grad_norm": 44.28942108154297,
      "learning_rate": 5e-06,
      "loss": 0.8296,
      "num_input_tokens_seen": 510782796,
      "step": 4044
    },
    {
      "epoch": 1.0373885717950362,
      "loss": 0.8449469208717346,
      "loss_ce": 0.000708654522895813,
      "loss_iou": 0.380859375,
      "loss_num": 0.0167236328125,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 510782796,
      "step": 4044
    },
    {
      "epoch": 1.0376450971589817,
      "grad_norm": 31.26905632019043,
      "learning_rate": 5e-06,
      "loss": 0.8213,
      "num_input_tokens_seen": 510909384,
      "step": 4045
    },
    {
      "epoch": 1.0376450971589817,
      "loss": 0.7793227434158325,
      "loss_ce": 0.0010024096118286252,
      "loss_iou": 0.373046875,
      "loss_num": 0.0062255859375,
      "loss_xval": 0.77734375,
      "num_input_tokens_seen": 510909384,
      "step": 4045
    },
    {
      "epoch": 1.037901622522927,
      "grad_norm": 34.49673080444336,
      "learning_rate": 5e-06,
      "loss": 0.7927,
      "num_input_tokens_seen": 511034312,
      "step": 4046
    },
    {
      "epoch": 1.037901622522927,
      "loss": 0.7747915983200073,
      "loss_ce": 0.003063072683289647,
      "loss_iou": 0.36328125,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 511034312,
      "step": 4046
    },
    {
      "epoch": 1.0381581478868722,
      "grad_norm": 67.95018005371094,
      "learning_rate": 5e-06,
      "loss": 0.8477,
      "num_input_tokens_seen": 511160560,
      "step": 4047
    },
    {
      "epoch": 1.0381581478868722,
      "loss": 0.7233680486679077,
      "loss_ce": 0.0002235166321042925,
      "loss_iou": 0.34765625,
      "loss_num": 0.0054931640625,
      "loss_xval": 0.72265625,
      "num_input_tokens_seen": 511160560,
      "step": 4047
    },
    {
      "epoch": 1.0384146732508177,
      "grad_norm": 29.56394386291504,
      "learning_rate": 5e-06,
      "loss": 0.8915,
      "num_input_tokens_seen": 511285548,
      "step": 4048
    },
    {
      "epoch": 1.0384146732508177,
      "loss": 0.8260068893432617,
      "loss_ce": 0.0010557555360719562,
      "loss_iou": 0.37890625,
      "loss_num": 0.01336669921875,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 511285548,
      "step": 4048
    },
    {
      "epoch": 1.038671198614763,
      "grad_norm": 31.000885009765625,
      "learning_rate": 5e-06,
      "loss": 0.9211,
      "num_input_tokens_seen": 511411948,
      "step": 4049
    },
    {
      "epoch": 1.038671198614763,
      "loss": 0.9050424098968506,
      "loss_ce": 0.0022103150840848684,
      "loss_iou": 0.40234375,
      "loss_num": 0.0201416015625,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 511411948,
      "step": 4049
    },
    {
      "epoch": 1.0389277239787085,
      "grad_norm": 43.051029205322266,
      "learning_rate": 5e-06,
      "loss": 0.8572,
      "num_input_tokens_seen": 511538172,
      "step": 4050
    },
    {
      "epoch": 1.0389277239787085,
      "loss": 0.8784751892089844,
      "loss_ce": 0.0020103405695408583,
      "loss_iou": 0.41015625,
      "loss_num": 0.011474609375,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 511538172,
      "step": 4050
    },
    {
      "epoch": 1.0391842493426537,
      "grad_norm": 46.405296325683594,
      "learning_rate": 5e-06,
      "loss": 0.8733,
      "num_input_tokens_seen": 511664760,
      "step": 4051
    },
    {
      "epoch": 1.0391842493426537,
      "loss": 1.006199598312378,
      "loss_ce": 0.0018050993094220757,
      "loss_iou": 0.470703125,
      "loss_num": 0.0128173828125,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 511664760,
      "step": 4051
    },
    {
      "epoch": 1.039440774706599,
      "grad_norm": 43.630126953125,
      "learning_rate": 5e-06,
      "loss": 0.8991,
      "num_input_tokens_seen": 511789604,
      "step": 4052
    },
    {
      "epoch": 1.039440774706599,
      "loss": 1.1900179386138916,
      "loss_ce": 0.002029655035585165,
      "loss_iou": 0.546875,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 511789604,
      "step": 4052
    },
    {
      "epoch": 1.0396973000705445,
      "grad_norm": 36.97641372680664,
      "learning_rate": 5e-06,
      "loss": 0.8273,
      "num_input_tokens_seen": 511915748,
      "step": 4053
    },
    {
      "epoch": 1.0396973000705445,
      "loss": 0.8166852593421936,
      "loss_ce": 0.001743852742947638,
      "loss_iou": 0.37890625,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 511915748,
      "step": 4053
    },
    {
      "epoch": 1.0399538254344898,
      "grad_norm": 60.402339935302734,
      "learning_rate": 5e-06,
      "loss": 1.0311,
      "num_input_tokens_seen": 512041004,
      "step": 4054
    },
    {
      "epoch": 1.0399538254344898,
      "loss": 0.689223051071167,
      "loss_ce": 0.0002582204469945282,
      "loss_iou": 0.33203125,
      "loss_num": 0.004730224609375,
      "loss_xval": 0.6875,
      "num_input_tokens_seen": 512041004,
      "step": 4054
    },
    {
      "epoch": 1.0402103507984353,
      "grad_norm": 52.778472900390625,
      "learning_rate": 5e-06,
      "loss": 0.8645,
      "num_input_tokens_seen": 512167072,
      "step": 4055
    },
    {
      "epoch": 1.0402103507984353,
      "loss": 0.9841662645339966,
      "loss_ce": 0.00027950218645855784,
      "loss_iou": 0.46484375,
      "loss_num": 0.01104736328125,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 512167072,
      "step": 4055
    },
    {
      "epoch": 1.0404668761623805,
      "grad_norm": 52.40740203857422,
      "learning_rate": 5e-06,
      "loss": 0.9026,
      "num_input_tokens_seen": 512293648,
      "step": 4056
    },
    {
      "epoch": 1.0404668761623805,
      "loss": 0.8972729444503784,
      "loss_ce": 0.00030035615782253444,
      "loss_iou": 0.42578125,
      "loss_num": 0.00927734375,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 512293648,
      "step": 4056
    },
    {
      "epoch": 1.0407234015263258,
      "grad_norm": 57.483436584472656,
      "learning_rate": 5e-06,
      "loss": 0.8888,
      "num_input_tokens_seen": 512419600,
      "step": 4057
    },
    {
      "epoch": 1.0407234015263258,
      "loss": 0.8787315487861633,
      "loss_ce": 0.005440541543066502,
      "loss_iou": 0.400390625,
      "loss_num": 0.0146484375,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 512419600,
      "step": 4057
    },
    {
      "epoch": 1.0409799268902713,
      "grad_norm": 52.76645278930664,
      "learning_rate": 5e-06,
      "loss": 0.8664,
      "num_input_tokens_seen": 512544288,
      "step": 4058
    },
    {
      "epoch": 1.0409799268902713,
      "loss": 0.9172601699829102,
      "loss_ce": 0.0007562080281786621,
      "loss_iou": 0.435546875,
      "loss_num": 0.00946044921875,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 512544288,
      "step": 4058
    },
    {
      "epoch": 1.0412364522542166,
      "grad_norm": 49.799190521240234,
      "learning_rate": 5e-06,
      "loss": 0.7592,
      "num_input_tokens_seen": 512669632,
      "step": 4059
    },
    {
      "epoch": 1.0412364522542166,
      "loss": 0.7349209189414978,
      "loss_ce": 0.002987339859828353,
      "loss_iou": 0.34375,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 512669632,
      "step": 4059
    },
    {
      "epoch": 1.041492977618162,
      "grad_norm": 45.17097473144531,
      "learning_rate": 5e-06,
      "loss": 0.8719,
      "num_input_tokens_seen": 512796204,
      "step": 4060
    },
    {
      "epoch": 1.041492977618162,
      "loss": 0.9596514701843262,
      "loss_ce": 0.0011553840013220906,
      "loss_iou": 0.43359375,
      "loss_num": 0.01806640625,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 512796204,
      "step": 4060
    },
    {
      "epoch": 1.0417495029821073,
      "grad_norm": 42.879302978515625,
      "learning_rate": 5e-06,
      "loss": 0.9296,
      "num_input_tokens_seen": 512922436,
      "step": 4061
    },
    {
      "epoch": 1.0417495029821073,
      "loss": 1.046180248260498,
      "loss_ce": 0.0012584143551066518,
      "loss_iou": 0.4765625,
      "loss_num": 0.0184326171875,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 512922436,
      "step": 4061
    },
    {
      "epoch": 1.0420060283460528,
      "grad_norm": 43.15908432006836,
      "learning_rate": 5e-06,
      "loss": 0.8661,
      "num_input_tokens_seen": 513049600,
      "step": 4062
    },
    {
      "epoch": 1.0420060283460528,
      "loss": 0.8183607459068298,
      "loss_ce": 0.0004896618775092065,
      "loss_iou": 0.38671875,
      "loss_num": 0.0091552734375,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 513049600,
      "step": 4062
    },
    {
      "epoch": 1.042262553709998,
      "grad_norm": 48.283973693847656,
      "learning_rate": 5e-06,
      "loss": 0.9297,
      "num_input_tokens_seen": 513176004,
      "step": 4063
    },
    {
      "epoch": 1.042262553709998,
      "loss": 0.9644708037376404,
      "loss_ce": 0.0010918928310275078,
      "loss_iou": 0.439453125,
      "loss_num": 0.0172119140625,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 513176004,
      "step": 4063
    },
    {
      "epoch": 1.0425190790739434,
      "grad_norm": 55.71781539916992,
      "learning_rate": 5e-06,
      "loss": 0.9902,
      "num_input_tokens_seen": 513303180,
      "step": 4064
    },
    {
      "epoch": 1.0425190790739434,
      "loss": 0.9372072815895081,
      "loss_ce": 0.004590179305523634,
      "loss_iou": 0.431640625,
      "loss_num": 0.01422119140625,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 513303180,
      "step": 4064
    },
    {
      "epoch": 1.0427756044378889,
      "grad_norm": 42.641536712646484,
      "learning_rate": 5e-06,
      "loss": 0.89,
      "num_input_tokens_seen": 513428720,
      "step": 4065
    },
    {
      "epoch": 1.0427756044378889,
      "loss": 0.8219008445739746,
      "loss_ce": 0.0008558672852814198,
      "loss_iou": 0.37109375,
      "loss_num": 0.01519775390625,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 513428720,
      "step": 4065
    },
    {
      "epoch": 1.0430321298018341,
      "grad_norm": 41.095375061035156,
      "learning_rate": 5e-06,
      "loss": 0.9483,
      "num_input_tokens_seen": 513554316,
      "step": 4066
    },
    {
      "epoch": 1.0430321298018341,
      "loss": 1.179195761680603,
      "loss_ce": 0.0009730730671435595,
      "loss_iou": 0.515625,
      "loss_num": 0.029296875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 513554316,
      "step": 4066
    },
    {
      "epoch": 1.0432886551657796,
      "grad_norm": 53.62884521484375,
      "learning_rate": 5e-06,
      "loss": 0.8748,
      "num_input_tokens_seen": 513680212,
      "step": 4067
    },
    {
      "epoch": 1.0432886551657796,
      "loss": 0.7174863219261169,
      "loss_ce": 0.0002011688193306327,
      "loss_iou": 0.341796875,
      "loss_num": 0.006744384765625,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 513680212,
      "step": 4067
    },
    {
      "epoch": 1.043545180529725,
      "grad_norm": 55.788612365722656,
      "learning_rate": 5e-06,
      "loss": 0.8366,
      "num_input_tokens_seen": 513808160,
      "step": 4068
    },
    {
      "epoch": 1.043545180529725,
      "loss": 0.8604631423950195,
      "loss_ce": 0.00011156160326208919,
      "loss_iou": 0.408203125,
      "loss_num": 0.0087890625,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 513808160,
      "step": 4068
    },
    {
      "epoch": 1.0438017058936702,
      "grad_norm": 47.28523635864258,
      "learning_rate": 5e-06,
      "loss": 0.9566,
      "num_input_tokens_seen": 513934116,
      "step": 4069
    },
    {
      "epoch": 1.0438017058936702,
      "loss": 0.9616454839706421,
      "loss_ce": 0.0009521078900434077,
      "loss_iou": 0.435546875,
      "loss_num": 0.01806640625,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 513934116,
      "step": 4069
    },
    {
      "epoch": 1.0440582312576157,
      "grad_norm": 39.817325592041016,
      "learning_rate": 5e-06,
      "loss": 0.8756,
      "num_input_tokens_seen": 514060464,
      "step": 4070
    },
    {
      "epoch": 1.0440582312576157,
      "loss": 0.9921343922615051,
      "loss_ce": 0.000923456100281328,
      "loss_iou": 0.455078125,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 514060464,
      "step": 4070
    },
    {
      "epoch": 1.044314756621561,
      "grad_norm": 31.744911193847656,
      "learning_rate": 5e-06,
      "loss": 0.8211,
      "num_input_tokens_seen": 514185668,
      "step": 4071
    },
    {
      "epoch": 1.044314756621561,
      "loss": 0.7388823628425598,
      "loss_ce": 0.0006011135410517454,
      "loss_iou": 0.353515625,
      "loss_num": 0.006500244140625,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 514185668,
      "step": 4071
    },
    {
      "epoch": 1.0445712819855064,
      "grad_norm": 39.68789291381836,
      "learning_rate": 5e-06,
      "loss": 0.9328,
      "num_input_tokens_seen": 514312756,
      "step": 4072
    },
    {
      "epoch": 1.0445712819855064,
      "loss": 0.8843892216682434,
      "loss_ce": 0.00011186256597284228,
      "loss_iou": 0.3984375,
      "loss_num": 0.01708984375,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 514312756,
      "step": 4072
    },
    {
      "epoch": 1.0448278073494517,
      "grad_norm": 64.71673583984375,
      "learning_rate": 5e-06,
      "loss": 0.834,
      "num_input_tokens_seen": 514439504,
      "step": 4073
    },
    {
      "epoch": 1.0448278073494517,
      "loss": 0.8184006214141846,
      "loss_ce": 0.001506112632341683,
      "loss_iou": 0.3828125,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 514439504,
      "step": 4073
    },
    {
      "epoch": 1.045084332713397,
      "grad_norm": 51.55939483642578,
      "learning_rate": 5e-06,
      "loss": 0.995,
      "num_input_tokens_seen": 514566124,
      "step": 4074
    },
    {
      "epoch": 1.045084332713397,
      "loss": 0.9192376136779785,
      "loss_ce": 0.0002923352876678109,
      "loss_iou": 0.4375,
      "loss_num": 0.008544921875,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 514566124,
      "step": 4074
    },
    {
      "epoch": 1.0453408580773424,
      "grad_norm": 35.02167892456055,
      "learning_rate": 5e-06,
      "loss": 0.8458,
      "num_input_tokens_seen": 514690796,
      "step": 4075
    },
    {
      "epoch": 1.0453408580773424,
      "loss": 0.865117073059082,
      "loss_ce": 0.0013475829036906362,
      "loss_iou": 0.404296875,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 514690796,
      "step": 4075
    },
    {
      "epoch": 1.0455973834412877,
      "grad_norm": 43.27149963378906,
      "learning_rate": 5e-06,
      "loss": 0.8822,
      "num_input_tokens_seen": 514817884,
      "step": 4076
    },
    {
      "epoch": 1.0455973834412877,
      "loss": 1.042595624923706,
      "loss_ce": 0.0015798765234649181,
      "loss_iou": 0.484375,
      "loss_num": 0.0140380859375,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 514817884,
      "step": 4076
    },
    {
      "epoch": 1.0458539088052332,
      "grad_norm": 42.53464889526367,
      "learning_rate": 5e-06,
      "loss": 0.9119,
      "num_input_tokens_seen": 514943032,
      "step": 4077
    },
    {
      "epoch": 1.0458539088052332,
      "loss": 0.8637349009513855,
      "loss_ce": 0.00045366413542069495,
      "loss_iou": 0.416015625,
      "loss_num": 0.006622314453125,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 514943032,
      "step": 4077
    },
    {
      "epoch": 1.0461104341691785,
      "grad_norm": 40.46619415283203,
      "learning_rate": 5e-06,
      "loss": 0.758,
      "num_input_tokens_seen": 515069060,
      "step": 4078
    },
    {
      "epoch": 1.0461104341691785,
      "loss": 0.6984306573867798,
      "loss_ce": 0.0053154779598116875,
      "loss_iou": 0.32421875,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.69140625,
      "num_input_tokens_seen": 515069060,
      "step": 4078
    },
    {
      "epoch": 1.0463669595331238,
      "grad_norm": 55.581077575683594,
      "learning_rate": 5e-06,
      "loss": 1.039,
      "num_input_tokens_seen": 515194120,
      "step": 4079
    },
    {
      "epoch": 1.0463669595331238,
      "loss": 1.116402506828308,
      "loss_ce": 0.002144690603017807,
      "loss_iou": 0.49609375,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 515194120,
      "step": 4079
    },
    {
      "epoch": 1.0466234848970692,
      "grad_norm": 42.603397369384766,
      "learning_rate": 5e-06,
      "loss": 0.9301,
      "num_input_tokens_seen": 515320492,
      "step": 4080
    },
    {
      "epoch": 1.0466234848970692,
      "loss": 1.075883150100708,
      "loss_ce": 0.0023968503810465336,
      "loss_iou": 0.478515625,
      "loss_num": 0.023193359375,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 515320492,
      "step": 4080
    },
    {
      "epoch": 1.0468800102610145,
      "grad_norm": 45.47235107421875,
      "learning_rate": 5e-06,
      "loss": 0.9048,
      "num_input_tokens_seen": 515445424,
      "step": 4081
    },
    {
      "epoch": 1.0468800102610145,
      "loss": 0.9404513835906982,
      "loss_ce": 0.00026581919519230723,
      "loss_iou": 0.421875,
      "loss_num": 0.0191650390625,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 515445424,
      "step": 4081
    },
    {
      "epoch": 1.04713653562496,
      "grad_norm": 57.9911994934082,
      "learning_rate": 5e-06,
      "loss": 0.9449,
      "num_input_tokens_seen": 515572452,
      "step": 4082
    },
    {
      "epoch": 1.04713653562496,
      "loss": 0.9812464714050293,
      "loss_ce": 0.002730884589254856,
      "loss_iou": 0.458984375,
      "loss_num": 0.0118408203125,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 515572452,
      "step": 4082
    },
    {
      "epoch": 1.0473930609889053,
      "grad_norm": 39.17112350463867,
      "learning_rate": 5e-06,
      "loss": 0.8402,
      "num_input_tokens_seen": 515698208,
      "step": 4083
    },
    {
      "epoch": 1.0473930609889053,
      "loss": 0.753851056098938,
      "loss_ce": 0.0011655071284621954,
      "loss_iou": 0.357421875,
      "loss_num": 0.0079345703125,
      "loss_xval": 0.75390625,
      "num_input_tokens_seen": 515698208,
      "step": 4083
    },
    {
      "epoch": 1.0476495863528505,
      "grad_norm": 33.82990264892578,
      "learning_rate": 5e-06,
      "loss": 0.8794,
      "num_input_tokens_seen": 515824536,
      "step": 4084
    },
    {
      "epoch": 1.0476495863528505,
      "loss": 0.7446677684783936,
      "loss_ce": 0.0005271095433272421,
      "loss_iou": 0.357421875,
      "loss_num": 0.00616455078125,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 515824536,
      "step": 4084
    },
    {
      "epoch": 1.047906111716796,
      "grad_norm": 43.84975051879883,
      "learning_rate": 5e-06,
      "loss": 0.865,
      "num_input_tokens_seen": 515951480,
      "step": 4085
    },
    {
      "epoch": 1.047906111716796,
      "loss": 0.7855434417724609,
      "loss_ce": 0.00014305440708994865,
      "loss_iou": 0.373046875,
      "loss_num": 0.007720947265625,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 515951480,
      "step": 4085
    },
    {
      "epoch": 1.0481626370807413,
      "grad_norm": 47.768028259277344,
      "learning_rate": 5e-06,
      "loss": 0.8695,
      "num_input_tokens_seen": 516077944,
      "step": 4086
    },
    {
      "epoch": 1.0481626370807413,
      "loss": 0.8065837621688843,
      "loss_ce": 0.00043139158515259624,
      "loss_iou": 0.384765625,
      "loss_num": 0.007293701171875,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 516077944,
      "step": 4086
    },
    {
      "epoch": 1.0484191624446868,
      "grad_norm": 49.027626037597656,
      "learning_rate": 5e-06,
      "loss": 0.8166,
      "num_input_tokens_seen": 516204644,
      "step": 4087
    },
    {
      "epoch": 1.0484191624446868,
      "loss": 0.7573102712631226,
      "loss_ce": 0.0009626103565096855,
      "loss_iou": 0.359375,
      "loss_num": 0.007415771484375,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 516204644,
      "step": 4087
    },
    {
      "epoch": 1.048675687808632,
      "grad_norm": 47.059906005859375,
      "learning_rate": 5e-06,
      "loss": 0.8327,
      "num_input_tokens_seen": 516330372,
      "step": 4088
    },
    {
      "epoch": 1.048675687808632,
      "loss": 0.7656165361404419,
      "loss_ce": 0.00047976424684748054,
      "loss_iou": 0.3671875,
      "loss_num": 0.006378173828125,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 516330372,
      "step": 4088
    },
    {
      "epoch": 1.0489322131725773,
      "grad_norm": 53.77711486816406,
      "learning_rate": 5e-06,
      "loss": 0.879,
      "num_input_tokens_seen": 516456360,
      "step": 4089
    },
    {
      "epoch": 1.0489322131725773,
      "loss": 1.0247306823730469,
      "loss_ce": 0.0012932176468893886,
      "loss_iou": 0.486328125,
      "loss_num": 0.0101318359375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 516456360,
      "step": 4089
    },
    {
      "epoch": 1.0491887385365228,
      "grad_norm": 57.244937896728516,
      "learning_rate": 5e-06,
      "loss": 0.9813,
      "num_input_tokens_seen": 516583404,
      "step": 4090
    },
    {
      "epoch": 1.0491887385365228,
      "loss": 0.9540413618087769,
      "loss_ce": 0.00042805264820344746,
      "loss_iou": 0.435546875,
      "loss_num": 0.016357421875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 516583404,
      "step": 4090
    },
    {
      "epoch": 1.049445263900468,
      "grad_norm": 63.96878433227539,
      "learning_rate": 5e-06,
      "loss": 0.9631,
      "num_input_tokens_seen": 516710012,
      "step": 4091
    },
    {
      "epoch": 1.049445263900468,
      "loss": 0.9928058981895447,
      "loss_ce": 0.0011066882871091366,
      "loss_iou": 0.4609375,
      "loss_num": 0.0142822265625,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 516710012,
      "step": 4091
    },
    {
      "epoch": 1.0497017892644136,
      "grad_norm": 44.136260986328125,
      "learning_rate": 5e-06,
      "loss": 0.9907,
      "num_input_tokens_seen": 516835620,
      "step": 4092
    },
    {
      "epoch": 1.0497017892644136,
      "loss": 1.1798019409179688,
      "loss_ce": 0.001090968493372202,
      "loss_iou": 0.5234375,
      "loss_num": 0.0267333984375,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 516835620,
      "step": 4092
    },
    {
      "epoch": 1.0499583146283589,
      "grad_norm": 22.87763023376465,
      "learning_rate": 5e-06,
      "loss": 0.8687,
      "num_input_tokens_seen": 516963284,
      "step": 4093
    },
    {
      "epoch": 1.0499583146283589,
      "loss": 1.0090456008911133,
      "loss_ce": 0.0007448159158229828,
      "loss_iou": 0.453125,
      "loss_num": 0.0205078125,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 516963284,
      "step": 4093
    },
    {
      "epoch": 1.0502148399923041,
      "grad_norm": 25.832195281982422,
      "learning_rate": 5e-06,
      "loss": 0.9388,
      "num_input_tokens_seen": 517089464,
      "step": 4094
    },
    {
      "epoch": 1.0502148399923041,
      "loss": 1.091756820678711,
      "loss_ce": 0.0004482200602069497,
      "loss_iou": 0.5,
      "loss_num": 0.01806640625,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 517089464,
      "step": 4094
    },
    {
      "epoch": 1.0504713653562496,
      "grad_norm": 41.06627655029297,
      "learning_rate": 5e-06,
      "loss": 0.767,
      "num_input_tokens_seen": 517216616,
      "step": 4095
    },
    {
      "epoch": 1.0504713653562496,
      "loss": 0.7618753910064697,
      "loss_ce": 0.0001566667197039351,
      "loss_iou": 0.359375,
      "loss_num": 0.008544921875,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 517216616,
      "step": 4095
    },
    {
      "epoch": 1.050727890720195,
      "grad_norm": 48.485076904296875,
      "learning_rate": 5e-06,
      "loss": 0.7837,
      "num_input_tokens_seen": 517343096,
      "step": 4096
    },
    {
      "epoch": 1.050727890720195,
      "loss": 0.8505502939224243,
      "loss_ce": 0.003382347524166107,
      "loss_iou": 0.3984375,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 517343096,
      "step": 4096
    },
    {
      "epoch": 1.0509844160841404,
      "grad_norm": 48.37678909301758,
      "learning_rate": 5e-06,
      "loss": 0.8574,
      "num_input_tokens_seen": 517469076,
      "step": 4097
    },
    {
      "epoch": 1.0509844160841404,
      "loss": 0.9125613570213318,
      "loss_ce": 0.00045193993719294667,
      "loss_iou": 0.40234375,
      "loss_num": 0.02099609375,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 517469076,
      "step": 4097
    },
    {
      "epoch": 1.0512409414480857,
      "grad_norm": 49.536075592041016,
      "learning_rate": 5e-06,
      "loss": 0.9463,
      "num_input_tokens_seen": 517595808,
      "step": 4098
    },
    {
      "epoch": 1.0512409414480857,
      "loss": 1.0381102561950684,
      "loss_ce": 0.0010008021490648389,
      "loss_iou": 0.478515625,
      "loss_num": 0.0155029296875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 517595808,
      "step": 4098
    },
    {
      "epoch": 1.051497466812031,
      "grad_norm": 64.05028533935547,
      "learning_rate": 5e-06,
      "loss": 0.861,
      "num_input_tokens_seen": 517721500,
      "step": 4099
    },
    {
      "epoch": 1.051497466812031,
      "loss": 0.9883962273597717,
      "loss_ce": 0.001091520651243627,
      "loss_iou": 0.45703125,
      "loss_num": 0.01483154296875,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 517721500,
      "step": 4099
    },
    {
      "epoch": 1.0517539921759764,
      "grad_norm": 50.162174224853516,
      "learning_rate": 5e-06,
      "loss": 0.9402,
      "num_input_tokens_seen": 517847684,
      "step": 4100
    },
    {
      "epoch": 1.0517539921759764,
      "loss": 1.0948598384857178,
      "loss_ce": 0.0001332151296082884,
      "loss_iou": 0.498046875,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 517847684,
      "step": 4100
    },
    {
      "epoch": 1.0520105175399217,
      "grad_norm": 48.528682708740234,
      "learning_rate": 5e-06,
      "loss": 0.8605,
      "num_input_tokens_seen": 517974736,
      "step": 4101
    },
    {
      "epoch": 1.0520105175399217,
      "loss": 1.0525346994400024,
      "loss_ce": 0.0027300145011395216,
      "loss_iou": 0.4765625,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 517974736,
      "step": 4101
    },
    {
      "epoch": 1.0522670429038672,
      "grad_norm": 43.97685241699219,
      "learning_rate": 5e-06,
      "loss": 0.8982,
      "num_input_tokens_seen": 518100528,
      "step": 4102
    },
    {
      "epoch": 1.0522670429038672,
      "loss": 0.6896644830703735,
      "loss_ce": 0.0006996587035246193,
      "loss_iou": 0.333984375,
      "loss_num": 0.00433349609375,
      "loss_xval": 0.6875,
      "num_input_tokens_seen": 518100528,
      "step": 4102
    },
    {
      "epoch": 1.0525235682678125,
      "grad_norm": 21.584407806396484,
      "learning_rate": 5e-06,
      "loss": 0.8191,
      "num_input_tokens_seen": 518226576,
      "step": 4103
    },
    {
      "epoch": 1.0525235682678125,
      "loss": 0.8910377621650696,
      "loss_ce": 0.0004127742722630501,
      "loss_iou": 0.421875,
      "loss_num": 0.00946044921875,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 518226576,
      "step": 4103
    },
    {
      "epoch": 1.0527800936317577,
      "grad_norm": 16.553874969482422,
      "learning_rate": 5e-06,
      "loss": 0.8127,
      "num_input_tokens_seen": 518354356,
      "step": 4104
    },
    {
      "epoch": 1.0527800936317577,
      "loss": 0.6649641990661621,
      "loss_ce": 0.0006575700244866312,
      "loss_iou": 0.306640625,
      "loss_num": 0.0101318359375,
      "loss_xval": 0.6640625,
      "num_input_tokens_seen": 518354356,
      "step": 4104
    },
    {
      "epoch": 1.0530366189957032,
      "grad_norm": 22.362987518310547,
      "learning_rate": 5e-06,
      "loss": 0.8504,
      "num_input_tokens_seen": 518480516,
      "step": 4105
    },
    {
      "epoch": 1.0530366189957032,
      "loss": 0.722992479801178,
      "loss_ce": 0.0018010535277426243,
      "loss_iou": 0.337890625,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.72265625,
      "num_input_tokens_seen": 518480516,
      "step": 4105
    },
    {
      "epoch": 1.0532931443596485,
      "grad_norm": 19.146015167236328,
      "learning_rate": 5e-06,
      "loss": 0.6915,
      "num_input_tokens_seen": 518607312,
      "step": 4106
    },
    {
      "epoch": 1.0532931443596485,
      "loss": 0.6571321487426758,
      "loss_ce": 0.001126310438849032,
      "loss_iou": 0.314453125,
      "loss_num": 0.005401611328125,
      "loss_xval": 0.65625,
      "num_input_tokens_seen": 518607312,
      "step": 4106
    },
    {
      "epoch": 1.053549669723594,
      "grad_norm": 17.35715103149414,
      "learning_rate": 5e-06,
      "loss": 0.7744,
      "num_input_tokens_seen": 518732600,
      "step": 4107
    },
    {
      "epoch": 1.053549669723594,
      "loss": 0.8244946002960205,
      "loss_ce": 0.00027583169867284596,
      "loss_iou": 0.392578125,
      "loss_num": 0.007659912109375,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 518732600,
      "step": 4107
    },
    {
      "epoch": 1.0538061950875393,
      "grad_norm": 37.08160400390625,
      "learning_rate": 5e-06,
      "loss": 0.8548,
      "num_input_tokens_seen": 518859820,
      "step": 4108
    },
    {
      "epoch": 1.0538061950875393,
      "loss": 1.0898687839508057,
      "loss_ce": 0.001001559430733323,
      "loss_iou": 0.490234375,
      "loss_num": 0.021484375,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 518859820,
      "step": 4108
    },
    {
      "epoch": 1.0540627204514847,
      "grad_norm": 48.44367218017578,
      "learning_rate": 5e-06,
      "loss": 0.9801,
      "num_input_tokens_seen": 518986280,
      "step": 4109
    },
    {
      "epoch": 1.0540627204514847,
      "loss": 1.0455784797668457,
      "loss_ce": 0.005051194690167904,
      "loss_iou": 0.4765625,
      "loss_num": 0.017578125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 518986280,
      "step": 4109
    },
    {
      "epoch": 1.05431924581543,
      "grad_norm": 56.68216323852539,
      "learning_rate": 5e-06,
      "loss": 0.9053,
      "num_input_tokens_seen": 519114532,
      "step": 4110
    },
    {
      "epoch": 1.05431924581543,
      "loss": 1.0008835792541504,
      "loss_ce": 0.002836664905771613,
      "loss_iou": 0.4375,
      "loss_num": 0.0244140625,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 519114532,
      "step": 4110
    },
    {
      "epoch": 1.0545757711793753,
      "grad_norm": 48.99155044555664,
      "learning_rate": 5e-06,
      "loss": 0.9159,
      "num_input_tokens_seen": 519239600,
      "step": 4111
    },
    {
      "epoch": 1.0545757711793753,
      "loss": 0.9786664247512817,
      "loss_ce": 0.0011273554991930723,
      "loss_iou": 0.443359375,
      "loss_num": 0.0184326171875,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 519239600,
      "step": 4111
    },
    {
      "epoch": 1.0548322965433208,
      "grad_norm": 34.704498291015625,
      "learning_rate": 5e-06,
      "loss": 0.8309,
      "num_input_tokens_seen": 519366156,
      "step": 4112
    },
    {
      "epoch": 1.0548322965433208,
      "loss": 0.7479087710380554,
      "loss_ce": 0.0018150281393900514,
      "loss_iou": 0.35546875,
      "loss_num": 0.00689697265625,
      "loss_xval": 0.74609375,
      "num_input_tokens_seen": 519366156,
      "step": 4112
    },
    {
      "epoch": 1.055088821907266,
      "grad_norm": 57.867942810058594,
      "learning_rate": 5e-06,
      "loss": 0.9012,
      "num_input_tokens_seen": 519493528,
      "step": 4113
    },
    {
      "epoch": 1.055088821907266,
      "loss": 1.0700764656066895,
      "loss_ce": 0.0012288574362173676,
      "loss_iou": 0.498046875,
      "loss_num": 0.0146484375,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 519493528,
      "step": 4113
    },
    {
      "epoch": 1.0553453472712115,
      "grad_norm": 53.1524658203125,
      "learning_rate": 5e-06,
      "loss": 0.9169,
      "num_input_tokens_seen": 519619868,
      "step": 4114
    },
    {
      "epoch": 1.0553453472712115,
      "loss": 0.8547157049179077,
      "loss_ce": 0.0012000880669802427,
      "loss_iou": 0.40234375,
      "loss_num": 0.00958251953125,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 519619868,
      "step": 4114
    },
    {
      "epoch": 1.0556018726351568,
      "grad_norm": 38.37180709838867,
      "learning_rate": 5e-06,
      "loss": 0.9315,
      "num_input_tokens_seen": 519746000,
      "step": 4115
    },
    {
      "epoch": 1.0556018726351568,
      "loss": 0.9941310882568359,
      "loss_ce": 0.00023456773487851024,
      "loss_iou": 0.44921875,
      "loss_num": 0.0189208984375,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 519746000,
      "step": 4115
    },
    {
      "epoch": 1.055858397999102,
      "grad_norm": 45.686832427978516,
      "learning_rate": 5e-06,
      "loss": 0.9181,
      "num_input_tokens_seen": 519873328,
      "step": 4116
    },
    {
      "epoch": 1.055858397999102,
      "loss": 0.8802642822265625,
      "loss_ce": 0.0003814716765191406,
      "loss_iou": 0.4140625,
      "loss_num": 0.0106201171875,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 519873328,
      "step": 4116
    },
    {
      "epoch": 1.0561149233630476,
      "grad_norm": 54.3358039855957,
      "learning_rate": 5e-06,
      "loss": 0.9846,
      "num_input_tokens_seen": 520000200,
      "step": 4117
    },
    {
      "epoch": 1.0561149233630476,
      "loss": 0.9730417132377625,
      "loss_ce": 0.002338625956326723,
      "loss_iou": 0.451171875,
      "loss_num": 0.01361083984375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 520000200,
      "step": 4117
    },
    {
      "epoch": 1.0563714487269928,
      "grad_norm": 46.20098114013672,
      "learning_rate": 5e-06,
      "loss": 0.8744,
      "num_input_tokens_seen": 520126580,
      "step": 4118
    },
    {
      "epoch": 1.0563714487269928,
      "loss": 0.9601276516914368,
      "loss_ce": 0.00016670575132593513,
      "loss_iou": 0.451171875,
      "loss_num": 0.011474609375,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 520126580,
      "step": 4118
    },
    {
      "epoch": 1.0566279740909383,
      "grad_norm": 54.18983459472656,
      "learning_rate": 5e-06,
      "loss": 0.817,
      "num_input_tokens_seen": 520253928,
      "step": 4119
    },
    {
      "epoch": 1.0566279740909383,
      "loss": 0.6793273687362671,
      "loss_ce": 0.0001281839795410633,
      "loss_iou": 0.326171875,
      "loss_num": 0.00543212890625,
      "loss_xval": 0.6796875,
      "num_input_tokens_seen": 520253928,
      "step": 4119
    },
    {
      "epoch": 1.0568844994548836,
      "grad_norm": 52.147125244140625,
      "learning_rate": 5e-06,
      "loss": 0.8503,
      "num_input_tokens_seen": 520381184,
      "step": 4120
    },
    {
      "epoch": 1.0568844994548836,
      "loss": 0.9549261331558228,
      "loss_ce": 0.0013128952123224735,
      "loss_iou": 0.4375,
      "loss_num": 0.0155029296875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 520381184,
      "step": 4120
    },
    {
      "epoch": 1.0571410248188289,
      "grad_norm": 38.737613677978516,
      "learning_rate": 5e-06,
      "loss": 0.8591,
      "num_input_tokens_seen": 520507784,
      "step": 4121
    },
    {
      "epoch": 1.0571410248188289,
      "loss": 0.8146524429321289,
      "loss_ce": 0.0001993473997572437,
      "loss_iou": 0.388671875,
      "loss_num": 0.007598876953125,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 520507784,
      "step": 4121
    },
    {
      "epoch": 1.0573975501827744,
      "grad_norm": 39.63469696044922,
      "learning_rate": 5e-06,
      "loss": 0.9417,
      "num_input_tokens_seen": 520633556,
      "step": 4122
    },
    {
      "epoch": 1.0573975501827744,
      "loss": 1.0310333967208862,
      "loss_ce": 0.0002716941526159644,
      "loss_iou": 0.478515625,
      "loss_num": 0.01458740234375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 520633556,
      "step": 4122
    },
    {
      "epoch": 1.0576540755467196,
      "grad_norm": 49.17890167236328,
      "learning_rate": 5e-06,
      "loss": 0.9953,
      "num_input_tokens_seen": 520760448,
      "step": 4123
    },
    {
      "epoch": 1.0576540755467196,
      "loss": 0.9290846586227417,
      "loss_ce": 0.0018385492730885744,
      "loss_iou": 0.44140625,
      "loss_num": 0.00872802734375,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 520760448,
      "step": 4123
    },
    {
      "epoch": 1.0579106009106651,
      "grad_norm": 47.646339416503906,
      "learning_rate": 5e-06,
      "loss": 0.9867,
      "num_input_tokens_seen": 520887212,
      "step": 4124
    },
    {
      "epoch": 1.0579106009106651,
      "loss": 0.9489282369613647,
      "loss_ce": 0.00019774268730543554,
      "loss_iou": 0.4453125,
      "loss_num": 0.01141357421875,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 520887212,
      "step": 4124
    },
    {
      "epoch": 1.0581671262746104,
      "grad_norm": 53.44550704956055,
      "learning_rate": 5e-06,
      "loss": 0.9041,
      "num_input_tokens_seen": 521013336,
      "step": 4125
    },
    {
      "epoch": 1.0581671262746104,
      "loss": 0.9720391631126404,
      "loss_ce": 0.0018242656951770186,
      "loss_iou": 0.44140625,
      "loss_num": 0.01708984375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 521013336,
      "step": 4125
    },
    {
      "epoch": 1.0584236516385557,
      "grad_norm": 52.63658142089844,
      "learning_rate": 5e-06,
      "loss": 0.9311,
      "num_input_tokens_seen": 521140528,
      "step": 4126
    },
    {
      "epoch": 1.0584236516385557,
      "loss": 0.8970633745193481,
      "loss_ce": 0.00033487717155367136,
      "loss_iou": 0.419921875,
      "loss_num": 0.01116943359375,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 521140528,
      "step": 4126
    },
    {
      "epoch": 1.0586801770025012,
      "grad_norm": 47.721343994140625,
      "learning_rate": 5e-06,
      "loss": 0.8498,
      "num_input_tokens_seen": 521266924,
      "step": 4127
    },
    {
      "epoch": 1.0586801770025012,
      "loss": 0.7125214338302612,
      "loss_ce": 0.001095662941224873,
      "loss_iou": 0.33984375,
      "loss_num": 0.006439208984375,
      "loss_xval": 0.7109375,
      "num_input_tokens_seen": 521266924,
      "step": 4127
    },
    {
      "epoch": 1.0589367023664464,
      "grad_norm": 46.67226028442383,
      "learning_rate": 5e-06,
      "loss": 0.9359,
      "num_input_tokens_seen": 521393340,
      "step": 4128
    },
    {
      "epoch": 1.0589367023664464,
      "loss": 0.8005244731903076,
      "loss_ce": 0.0016963677480816841,
      "loss_iou": 0.373046875,
      "loss_num": 0.0103759765625,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 521393340,
      "step": 4128
    },
    {
      "epoch": 1.059193227730392,
      "grad_norm": 65.14278411865234,
      "learning_rate": 5e-06,
      "loss": 0.9435,
      "num_input_tokens_seen": 521520612,
      "step": 4129
    },
    {
      "epoch": 1.059193227730392,
      "loss": 0.8951630592346191,
      "loss_ce": 0.00014353141887113452,
      "loss_iou": 0.42578125,
      "loss_num": 0.00830078125,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 521520612,
      "step": 4129
    },
    {
      "epoch": 1.0594497530943372,
      "grad_norm": 49.00065612792969,
      "learning_rate": 5e-06,
      "loss": 0.9894,
      "num_input_tokens_seen": 521647156,
      "step": 4130
    },
    {
      "epoch": 1.0594497530943372,
      "loss": 0.7989012002944946,
      "loss_ce": 0.0015379282413050532,
      "loss_iou": 0.375,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 521647156,
      "step": 4130
    },
    {
      "epoch": 1.0597062784582825,
      "grad_norm": 20.526859283447266,
      "learning_rate": 5e-06,
      "loss": 0.7942,
      "num_input_tokens_seen": 521773436,
      "step": 4131
    },
    {
      "epoch": 1.0597062784582825,
      "loss": 0.7715187668800354,
      "loss_ce": 0.001010984880849719,
      "loss_iou": 0.36328125,
      "loss_num": 0.00860595703125,
      "loss_xval": 0.76953125,
      "num_input_tokens_seen": 521773436,
      "step": 4131
    },
    {
      "epoch": 1.059962803822228,
      "grad_norm": 24.29244041442871,
      "learning_rate": 5e-06,
      "loss": 0.8661,
      "num_input_tokens_seen": 521900468,
      "step": 4132
    },
    {
      "epoch": 1.059962803822228,
      "loss": 0.9118916988372803,
      "loss_ce": 0.0022237400989979506,
      "loss_iou": 0.421875,
      "loss_num": 0.012939453125,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 521900468,
      "step": 4132
    },
    {
      "epoch": 1.0602193291861732,
      "grad_norm": 32.80291748046875,
      "learning_rate": 5e-06,
      "loss": 0.8012,
      "num_input_tokens_seen": 522026304,
      "step": 4133
    },
    {
      "epoch": 1.0602193291861732,
      "loss": 0.9570202827453613,
      "loss_ce": 0.0016980397049337626,
      "loss_iou": 0.44140625,
      "loss_num": 0.014892578125,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 522026304,
      "step": 4133
    },
    {
      "epoch": 1.0604758545501187,
      "grad_norm": 36.19490051269531,
      "learning_rate": 5e-06,
      "loss": 0.9059,
      "num_input_tokens_seen": 522151672,
      "step": 4134
    },
    {
      "epoch": 1.0604758545501187,
      "loss": 0.8974913358688354,
      "loss_ce": 0.001007014885544777,
      "loss_iou": 0.41015625,
      "loss_num": 0.014892578125,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 522151672,
      "step": 4134
    },
    {
      "epoch": 1.060732379914064,
      "grad_norm": 50.156185150146484,
      "learning_rate": 5e-06,
      "loss": 0.8395,
      "num_input_tokens_seen": 522278172,
      "step": 4135
    },
    {
      "epoch": 1.060732379914064,
      "loss": 0.8507254719734192,
      "loss_ce": 0.0003836360410787165,
      "loss_iou": 0.392578125,
      "loss_num": 0.01324462890625,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 522278172,
      "step": 4135
    },
    {
      "epoch": 1.0609889052780093,
      "grad_norm": 33.53269577026367,
      "learning_rate": 5e-06,
      "loss": 0.8154,
      "num_input_tokens_seen": 522404528,
      "step": 4136
    },
    {
      "epoch": 1.0609889052780093,
      "loss": 0.9657394886016846,
      "loss_ce": 0.0016281688585877419,
      "loss_iou": 0.44140625,
      "loss_num": 0.0166015625,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 522404528,
      "step": 4136
    },
    {
      "epoch": 1.0612454306419548,
      "grad_norm": 26.572359085083008,
      "learning_rate": 5e-06,
      "loss": 0.8722,
      "num_input_tokens_seen": 522530228,
      "step": 4137
    },
    {
      "epoch": 1.0612454306419548,
      "loss": 0.9496035575866699,
      "loss_ce": 0.0011173111852258444,
      "loss_iou": 0.435546875,
      "loss_num": 0.015869140625,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 522530228,
      "step": 4137
    },
    {
      "epoch": 1.0615019560059,
      "grad_norm": 25.028228759765625,
      "learning_rate": 5e-06,
      "loss": 0.8578,
      "num_input_tokens_seen": 522655744,
      "step": 4138
    },
    {
      "epoch": 1.0615019560059,
      "loss": 0.8645809888839722,
      "loss_ce": 0.0003231688169762492,
      "loss_iou": 0.3984375,
      "loss_num": 0.01324462890625,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 522655744,
      "step": 4138
    },
    {
      "epoch": 1.0617584813698455,
      "grad_norm": 33.5679817199707,
      "learning_rate": 5e-06,
      "loss": 0.7693,
      "num_input_tokens_seen": 522782564,
      "step": 4139
    },
    {
      "epoch": 1.0617584813698455,
      "loss": 0.852433979511261,
      "loss_ce": 0.0008714952855370939,
      "loss_iou": 0.40625,
      "loss_num": 0.007568359375,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 522782564,
      "step": 4139
    },
    {
      "epoch": 1.0620150067337908,
      "grad_norm": 45.797183990478516,
      "learning_rate": 5e-06,
      "loss": 0.8403,
      "num_input_tokens_seen": 522909160,
      "step": 4140
    },
    {
      "epoch": 1.0620150067337908,
      "loss": 1.0257383584976196,
      "loss_ce": 0.0005919242394156754,
      "loss_iou": 0.4765625,
      "loss_num": 0.014404296875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 522909160,
      "step": 4140
    },
    {
      "epoch": 1.062271532097736,
      "grad_norm": 43.276268005371094,
      "learning_rate": 5e-06,
      "loss": 0.9036,
      "num_input_tokens_seen": 523035012,
      "step": 4141
    },
    {
      "epoch": 1.062271532097736,
      "loss": 1.0055038928985596,
      "loss_ce": 0.00013276573736220598,
      "loss_iou": 0.439453125,
      "loss_num": 0.0255126953125,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 523035012,
      "step": 4141
    },
    {
      "epoch": 1.0625280574616816,
      "grad_norm": 43.09363555908203,
      "learning_rate": 5e-06,
      "loss": 0.7699,
      "num_input_tokens_seen": 523161668,
      "step": 4142
    },
    {
      "epoch": 1.0625280574616816,
      "loss": 0.7050259113311768,
      "loss_ce": 0.00043611295404843986,
      "loss_iou": 0.3359375,
      "loss_num": 0.006195068359375,
      "loss_xval": 0.703125,
      "num_input_tokens_seen": 523161668,
      "step": 4142
    },
    {
      "epoch": 1.0627845828256268,
      "grad_norm": 45.93049240112305,
      "learning_rate": 5e-06,
      "loss": 0.8121,
      "num_input_tokens_seen": 523287976,
      "step": 4143
    },
    {
      "epoch": 1.0627845828256268,
      "loss": 1.0210237503051758,
      "loss_ce": 0.0007601582910865545,
      "loss_iou": 0.46875,
      "loss_num": 0.0166015625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 523287976,
      "step": 4143
    },
    {
      "epoch": 1.0630411081895723,
      "grad_norm": 47.930023193359375,
      "learning_rate": 5e-06,
      "loss": 0.8485,
      "num_input_tokens_seen": 523415484,
      "step": 4144
    },
    {
      "epoch": 1.0630411081895723,
      "loss": 1.0176032781600952,
      "loss_ce": 0.0012458007549867034,
      "loss_iou": 0.46875,
      "loss_num": 0.015625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 523415484,
      "step": 4144
    },
    {
      "epoch": 1.0632976335535176,
      "grad_norm": 45.140968322753906,
      "learning_rate": 5e-06,
      "loss": 0.8816,
      "num_input_tokens_seen": 523542004,
      "step": 4145
    },
    {
      "epoch": 1.0632976335535176,
      "loss": 0.8869500756263733,
      "loss_ce": 0.00023139460245147347,
      "loss_iou": 0.42578125,
      "loss_num": 0.007568359375,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 523542004,
      "step": 4145
    },
    {
      "epoch": 1.063554158917463,
      "grad_norm": 43.99235534667969,
      "learning_rate": 5e-06,
      "loss": 0.8253,
      "num_input_tokens_seen": 523668512,
      "step": 4146
    },
    {
      "epoch": 1.063554158917463,
      "loss": 0.8802431225776672,
      "loss_ce": 0.0003602889191824943,
      "loss_iou": 0.412109375,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 523668512,
      "step": 4146
    },
    {
      "epoch": 1.0638106842814083,
      "grad_norm": 47.92687225341797,
      "learning_rate": 5e-06,
      "loss": 1.0266,
      "num_input_tokens_seen": 523795536,
      "step": 4147
    },
    {
      "epoch": 1.0638106842814083,
      "loss": 0.929524302482605,
      "loss_ce": 0.0032547814771533012,
      "loss_iou": 0.41796875,
      "loss_num": 0.0179443359375,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 523795536,
      "step": 4147
    },
    {
      "epoch": 1.0640672096453536,
      "grad_norm": 48.38391876220703,
      "learning_rate": 5e-06,
      "loss": 0.9275,
      "num_input_tokens_seen": 523921512,
      "step": 4148
    },
    {
      "epoch": 1.0640672096453536,
      "loss": 0.9655384421348572,
      "loss_ce": 0.00045057240640744567,
      "loss_iou": 0.44140625,
      "loss_num": 0.0164794921875,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 523921512,
      "step": 4148
    },
    {
      "epoch": 1.064323735009299,
      "grad_norm": 72.95161437988281,
      "learning_rate": 5e-06,
      "loss": 0.9128,
      "num_input_tokens_seen": 524047488,
      "step": 4149
    },
    {
      "epoch": 1.064323735009299,
      "loss": 1.183854341506958,
      "loss_ce": 0.00026065349811688066,
      "loss_iou": 0.5390625,
      "loss_num": 0.0218505859375,
      "loss_xval": 1.1875,
      "num_input_tokens_seen": 524047488,
      "step": 4149
    },
    {
      "epoch": 1.0645802603732444,
      "grad_norm": 43.06047439575195,
      "learning_rate": 5e-06,
      "loss": 0.9277,
      "num_input_tokens_seen": 524174392,
      "step": 4150
    },
    {
      "epoch": 1.0645802603732444,
      "loss": 0.9461584091186523,
      "loss_ce": 0.002310733776539564,
      "loss_iou": 0.423828125,
      "loss_num": 0.0194091796875,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 524174392,
      "step": 4150
    },
    {
      "epoch": 1.0648367857371897,
      "grad_norm": 43.09352493286133,
      "learning_rate": 5e-06,
      "loss": 0.9051,
      "num_input_tokens_seen": 524300408,
      "step": 4151
    },
    {
      "epoch": 1.0648367857371897,
      "loss": 0.9206950664520264,
      "loss_ce": 0.0032146023586392403,
      "loss_iou": 0.4140625,
      "loss_num": 0.017578125,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 524300408,
      "step": 4151
    },
    {
      "epoch": 1.0650933111011351,
      "grad_norm": 45.6676139831543,
      "learning_rate": 5e-06,
      "loss": 0.77,
      "num_input_tokens_seen": 524426216,
      "step": 4152
    },
    {
      "epoch": 1.0650933111011351,
      "loss": 0.8179129362106323,
      "loss_ce": 0.0002860224340111017,
      "loss_iou": 0.380859375,
      "loss_num": 0.01123046875,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 524426216,
      "step": 4152
    },
    {
      "epoch": 1.0653498364650804,
      "grad_norm": 39.8922119140625,
      "learning_rate": 5e-06,
      "loss": 0.9816,
      "num_input_tokens_seen": 524551740,
      "step": 4153
    },
    {
      "epoch": 1.0653498364650804,
      "loss": 0.9455645680427551,
      "loss_ce": 0.002693519229069352,
      "loss_iou": 0.435546875,
      "loss_num": 0.0145263671875,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 524551740,
      "step": 4153
    },
    {
      "epoch": 1.065606361829026,
      "grad_norm": 31.099653244018555,
      "learning_rate": 5e-06,
      "loss": 0.8065,
      "num_input_tokens_seen": 524678504,
      "step": 4154
    },
    {
      "epoch": 1.065606361829026,
      "loss": 0.7129804491996765,
      "loss_ce": 0.0005780643550679088,
      "loss_iou": 0.326171875,
      "loss_num": 0.01190185546875,
      "loss_xval": 0.7109375,
      "num_input_tokens_seen": 524678504,
      "step": 4154
    },
    {
      "epoch": 1.0658628871929712,
      "grad_norm": 37.867855072021484,
      "learning_rate": 5e-06,
      "loss": 0.7288,
      "num_input_tokens_seen": 524805312,
      "step": 4155
    },
    {
      "epoch": 1.0658628871929712,
      "loss": 0.8181420564651489,
      "loss_ce": 0.0002709571272134781,
      "loss_iou": 0.390625,
      "loss_num": 0.007598876953125,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 524805312,
      "step": 4155
    },
    {
      "epoch": 1.0661194125569167,
      "grad_norm": 42.53268051147461,
      "learning_rate": 5e-06,
      "loss": 0.9812,
      "num_input_tokens_seen": 524930884,
      "step": 4156
    },
    {
      "epoch": 1.0661194125569167,
      "loss": 1.0750318765640259,
      "loss_ce": 0.004719448275864124,
      "loss_iou": 0.494140625,
      "loss_num": 0.0166015625,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 524930884,
      "step": 4156
    },
    {
      "epoch": 1.066375937920862,
      "grad_norm": 37.63185501098633,
      "learning_rate": 5e-06,
      "loss": 0.791,
      "num_input_tokens_seen": 525056908,
      "step": 4157
    },
    {
      "epoch": 1.066375937920862,
      "loss": 0.9166965484619141,
      "loss_ce": 0.00019264084403403103,
      "loss_iou": 0.41015625,
      "loss_num": 0.019287109375,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 525056908,
      "step": 4157
    },
    {
      "epoch": 1.0666324632848072,
      "grad_norm": 50.57176208496094,
      "learning_rate": 5e-06,
      "loss": 0.8695,
      "num_input_tokens_seen": 525182692,
      "step": 4158
    },
    {
      "epoch": 1.0666324632848072,
      "loss": 0.8871719241142273,
      "loss_ce": 0.0004531640443019569,
      "loss_iou": 0.419921875,
      "loss_num": 0.009033203125,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 525182692,
      "step": 4158
    },
    {
      "epoch": 1.0668889886487527,
      "grad_norm": 57.064117431640625,
      "learning_rate": 5e-06,
      "loss": 0.8549,
      "num_input_tokens_seen": 525311112,
      "step": 4159
    },
    {
      "epoch": 1.0668889886487527,
      "loss": 0.7742582559585571,
      "loss_ce": 0.00033243917278014123,
      "loss_iou": 0.36328125,
      "loss_num": 0.00982666015625,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 525311112,
      "step": 4159
    },
    {
      "epoch": 1.067145514012698,
      "grad_norm": 62.50679397583008,
      "learning_rate": 5e-06,
      "loss": 0.9899,
      "num_input_tokens_seen": 525436548,
      "step": 4160
    },
    {
      "epoch": 1.067145514012698,
      "loss": 1.0277459621429443,
      "loss_ce": 0.0013787655625492334,
      "loss_iou": 0.455078125,
      "loss_num": 0.023193359375,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 525436548,
      "step": 4160
    },
    {
      "epoch": 1.0674020393766435,
      "grad_norm": 52.06275939941406,
      "learning_rate": 5e-06,
      "loss": 1.012,
      "num_input_tokens_seen": 525562876,
      "step": 4161
    },
    {
      "epoch": 1.0674020393766435,
      "loss": 0.916785478591919,
      "loss_ce": 0.0002815945481415838,
      "loss_iou": 0.42578125,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 525562876,
      "step": 4161
    },
    {
      "epoch": 1.0676585647405887,
      "grad_norm": 43.26593780517578,
      "learning_rate": 5e-06,
      "loss": 0.8779,
      "num_input_tokens_seen": 525689436,
      "step": 4162
    },
    {
      "epoch": 1.0676585647405887,
      "loss": 0.8051106929779053,
      "loss_ce": 0.0013997521018609405,
      "loss_iou": 0.380859375,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 525689436,
      "step": 4162
    },
    {
      "epoch": 1.067915090104534,
      "grad_norm": 66.40210723876953,
      "learning_rate": 5e-06,
      "loss": 0.8496,
      "num_input_tokens_seen": 525816484,
      "step": 4163
    },
    {
      "epoch": 1.067915090104534,
      "loss": 0.7468167543411255,
      "loss_ce": 0.0007230263436213136,
      "loss_iou": 0.345703125,
      "loss_num": 0.0107421875,
      "loss_xval": 0.74609375,
      "num_input_tokens_seen": 525816484,
      "step": 4163
    },
    {
      "epoch": 1.0681716154684795,
      "grad_norm": 48.73047637939453,
      "learning_rate": 5e-06,
      "loss": 0.9952,
      "num_input_tokens_seen": 525941296,
      "step": 4164
    },
    {
      "epoch": 1.0681716154684795,
      "loss": 0.9476333856582642,
      "loss_ce": 0.0018326574936509132,
      "loss_iou": 0.443359375,
      "loss_num": 0.01202392578125,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 525941296,
      "step": 4164
    },
    {
      "epoch": 1.0684281408324248,
      "grad_norm": 47.21750259399414,
      "learning_rate": 5e-06,
      "loss": 0.8577,
      "num_input_tokens_seen": 526067284,
      "step": 4165
    },
    {
      "epoch": 1.0684281408324248,
      "loss": 1.027710199356079,
      "loss_ce": 0.0008548051118850708,
      "loss_iou": 0.484375,
      "loss_num": 0.01129150390625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 526067284,
      "step": 4165
    },
    {
      "epoch": 1.0686846661963703,
      "grad_norm": 46.33027648925781,
      "learning_rate": 5e-06,
      "loss": 0.8874,
      "num_input_tokens_seen": 526193248,
      "step": 4166
    },
    {
      "epoch": 1.0686846661963703,
      "loss": 0.7645811438560486,
      "loss_ce": 0.0004209933977108449,
      "loss_iou": 0.357421875,
      "loss_num": 0.00970458984375,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 526193248,
      "step": 4166
    },
    {
      "epoch": 1.0689411915603155,
      "grad_norm": 47.78883361816406,
      "learning_rate": 5e-06,
      "loss": 0.8729,
      "num_input_tokens_seen": 526319480,
      "step": 4167
    },
    {
      "epoch": 1.0689411915603155,
      "loss": 0.8846005797386169,
      "loss_ce": 0.00032323168125003576,
      "loss_iou": 0.41796875,
      "loss_num": 0.00933837890625,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 526319480,
      "step": 4167
    },
    {
      "epoch": 1.0691977169242608,
      "grad_norm": 59.405975341796875,
      "learning_rate": 5e-06,
      "loss": 0.9017,
      "num_input_tokens_seen": 526445624,
      "step": 4168
    },
    {
      "epoch": 1.0691977169242608,
      "loss": 0.7328838109970093,
      "loss_ce": 0.0007060596835799515,
      "loss_iou": 0.345703125,
      "loss_num": 0.00811767578125,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 526445624,
      "step": 4168
    },
    {
      "epoch": 1.0694542422882063,
      "grad_norm": 42.227962493896484,
      "learning_rate": 5e-06,
      "loss": 0.9368,
      "num_input_tokens_seen": 526571100,
      "step": 4169
    },
    {
      "epoch": 1.0694542422882063,
      "loss": 0.8257947564125061,
      "loss_ce": 0.0010877142194658518,
      "loss_iou": 0.390625,
      "loss_num": 0.00897216796875,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 526571100,
      "step": 4169
    },
    {
      "epoch": 1.0697107676521516,
      "grad_norm": 28.14371109008789,
      "learning_rate": 5e-06,
      "loss": 0.7942,
      "num_input_tokens_seen": 526696932,
      "step": 4170
    },
    {
      "epoch": 1.0697107676521516,
      "loss": 0.913670539855957,
      "loss_ce": 0.0013170039746910334,
      "loss_iou": 0.42578125,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 526696932,
      "step": 4170
    },
    {
      "epoch": 1.069967293016097,
      "grad_norm": 48.249664306640625,
      "learning_rate": 5e-06,
      "loss": 0.9169,
      "num_input_tokens_seen": 526824396,
      "step": 4171
    },
    {
      "epoch": 1.069967293016097,
      "loss": 0.8387980461120605,
      "loss_ce": 0.00041919059003703296,
      "loss_iou": 0.388671875,
      "loss_num": 0.0120849609375,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 526824396,
      "step": 4171
    },
    {
      "epoch": 1.0702238183800423,
      "grad_norm": 39.90413284301758,
      "learning_rate": 5e-06,
      "loss": 0.8026,
      "num_input_tokens_seen": 526950580,
      "step": 4172
    },
    {
      "epoch": 1.0702238183800423,
      "loss": 0.740874171257019,
      "loss_ce": 0.0008839551592245698,
      "loss_iou": 0.34765625,
      "loss_num": 0.00860595703125,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 526950580,
      "step": 4172
    },
    {
      "epoch": 1.0704803437439876,
      "grad_norm": 44.372032165527344,
      "learning_rate": 5e-06,
      "loss": 0.8204,
      "num_input_tokens_seen": 527077696,
      "step": 4173
    },
    {
      "epoch": 1.0704803437439876,
      "loss": 0.97274249792099,
      "loss_ce": 0.0015510930679738522,
      "loss_iou": 0.435546875,
      "loss_num": 0.020263671875,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 527077696,
      "step": 4173
    },
    {
      "epoch": 1.070736869107933,
      "grad_norm": 54.79743957519531,
      "learning_rate": 5e-06,
      "loss": 0.9525,
      "num_input_tokens_seen": 527203196,
      "step": 4174
    },
    {
      "epoch": 1.070736869107933,
      "loss": 1.0224778652191162,
      "loss_ce": 0.001237738411873579,
      "loss_iou": 0.4609375,
      "loss_num": 0.01953125,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 527203196,
      "step": 4174
    },
    {
      "epoch": 1.0709933944718784,
      "grad_norm": 51.15628433227539,
      "learning_rate": 5e-06,
      "loss": 0.8438,
      "num_input_tokens_seen": 527331152,
      "step": 4175
    },
    {
      "epoch": 1.0709933944718784,
      "loss": 0.8993298411369324,
      "loss_ce": 0.0011365215759724379,
      "loss_iou": 0.412109375,
      "loss_num": 0.014892578125,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 527331152,
      "step": 4175
    },
    {
      "epoch": 1.0712499198358238,
      "grad_norm": 56.01426696777344,
      "learning_rate": 5e-06,
      "loss": 0.9121,
      "num_input_tokens_seen": 527457144,
      "step": 4176
    },
    {
      "epoch": 1.0712499198358238,
      "loss": 0.7160322666168213,
      "loss_ce": 0.00021199611364863813,
      "loss_iou": 0.34765625,
      "loss_num": 0.004364013671875,
      "loss_xval": 0.71484375,
      "num_input_tokens_seen": 527457144,
      "step": 4176
    },
    {
      "epoch": 1.0715064451997691,
      "grad_norm": 40.7580451965332,
      "learning_rate": 5e-06,
      "loss": 0.8728,
      "num_input_tokens_seen": 527583712,
      "step": 4177
    },
    {
      "epoch": 1.0715064451997691,
      "loss": 0.7623565196990967,
      "loss_ce": 0.0001494719326728955,
      "loss_iou": 0.353515625,
      "loss_num": 0.0107421875,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 527583712,
      "step": 4177
    },
    {
      "epoch": 1.0717629705637144,
      "grad_norm": 27.959163665771484,
      "learning_rate": 5e-06,
      "loss": 0.7653,
      "num_input_tokens_seen": 527710364,
      "step": 4178
    },
    {
      "epoch": 1.0717629705637144,
      "loss": 0.9189596176147461,
      "loss_ce": 0.003432276425883174,
      "loss_iou": 0.408203125,
      "loss_num": 0.0201416015625,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 527710364,
      "step": 4178
    },
    {
      "epoch": 1.0720194959276599,
      "grad_norm": 35.057247161865234,
      "learning_rate": 5e-06,
      "loss": 0.8908,
      "num_input_tokens_seen": 527836020,
      "step": 4179
    },
    {
      "epoch": 1.0720194959276599,
      "loss": 0.9363690614700317,
      "loss_ce": 0.0010663105640560389,
      "loss_iou": 0.43359375,
      "loss_num": 0.01397705078125,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 527836020,
      "step": 4179
    },
    {
      "epoch": 1.0722760212916052,
      "grad_norm": 42.190067291259766,
      "learning_rate": 5e-06,
      "loss": 0.9189,
      "num_input_tokens_seen": 527962596,
      "step": 4180
    },
    {
      "epoch": 1.0722760212916052,
      "loss": 0.8115580081939697,
      "loss_ce": 0.002476019086316228,
      "loss_iou": 0.3828125,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 527962596,
      "step": 4180
    },
    {
      "epoch": 1.0725325466555506,
      "grad_norm": 37.59096145629883,
      "learning_rate": 5e-06,
      "loss": 0.8276,
      "num_input_tokens_seen": 528088972,
      "step": 4181
    },
    {
      "epoch": 1.0725325466555506,
      "loss": 0.8050222396850586,
      "loss_ce": 0.00033473348594270647,
      "loss_iou": 0.38671875,
      "loss_num": 0.006683349609375,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 528088972,
      "step": 4181
    },
    {
      "epoch": 1.072789072019496,
      "grad_norm": 45.51539611816406,
      "learning_rate": 5e-06,
      "loss": 0.8164,
      "num_input_tokens_seen": 528215628,
      "step": 4182
    },
    {
      "epoch": 1.072789072019496,
      "loss": 0.8562222719192505,
      "loss_ce": 0.00026527117006480694,
      "loss_iou": 0.392578125,
      "loss_num": 0.013916015625,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 528215628,
      "step": 4182
    },
    {
      "epoch": 1.0730455973834412,
      "grad_norm": 39.7054443359375,
      "learning_rate": 5e-06,
      "loss": 0.9525,
      "num_input_tokens_seen": 528341552,
      "step": 4183
    },
    {
      "epoch": 1.0730455973834412,
      "loss": 0.9826571941375732,
      "loss_ce": 0.0007235925877466798,
      "loss_iou": 0.443359375,
      "loss_num": 0.0191650390625,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 528341552,
      "step": 4183
    },
    {
      "epoch": 1.0733021227473867,
      "grad_norm": 42.57738494873047,
      "learning_rate": 5e-06,
      "loss": 0.8493,
      "num_input_tokens_seen": 528467956,
      "step": 4184
    },
    {
      "epoch": 1.0733021227473867,
      "loss": 0.7209435105323792,
      "loss_ce": 0.0014610780635848641,
      "loss_iou": 0.33203125,
      "loss_num": 0.0107421875,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 528467956,
      "step": 4184
    },
    {
      "epoch": 1.073558648111332,
      "grad_norm": 41.62625503540039,
      "learning_rate": 5e-06,
      "loss": 0.8412,
      "num_input_tokens_seen": 528594052,
      "step": 4185
    },
    {
      "epoch": 1.073558648111332,
      "loss": 0.8481071591377258,
      "loss_ce": 0.0036247444804757833,
      "loss_iou": 0.388671875,
      "loss_num": 0.01348876953125,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 528594052,
      "step": 4185
    },
    {
      "epoch": 1.0738151734752774,
      "grad_norm": 58.26880645751953,
      "learning_rate": 5e-06,
      "loss": 0.9427,
      "num_input_tokens_seen": 528721424,
      "step": 4186
    },
    {
      "epoch": 1.0738151734752774,
      "loss": 1.119249939918518,
      "loss_ce": 0.0013301001163199544,
      "loss_iou": 0.498046875,
      "loss_num": 0.0244140625,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 528721424,
      "step": 4186
    },
    {
      "epoch": 1.0740716988392227,
      "grad_norm": 48.4378776550293,
      "learning_rate": 5e-06,
      "loss": 0.9677,
      "num_input_tokens_seen": 528848088,
      "step": 4187
    },
    {
      "epoch": 1.0740716988392227,
      "loss": 0.7414765954017639,
      "loss_ce": 0.0005098258843645453,
      "loss_iou": 0.349609375,
      "loss_num": 0.00860595703125,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 528848088,
      "step": 4187
    },
    {
      "epoch": 1.074328224203168,
      "grad_norm": 29.05378532409668,
      "learning_rate": 5e-06,
      "loss": 0.8722,
      "num_input_tokens_seen": 528975016,
      "step": 4188
    },
    {
      "epoch": 1.074328224203168,
      "loss": 0.7682508826255798,
      "loss_ce": 0.0004286542534828186,
      "loss_iou": 0.369140625,
      "loss_num": 0.005859375,
      "loss_xval": 0.76953125,
      "num_input_tokens_seen": 528975016,
      "step": 4188
    },
    {
      "epoch": 1.0745847495671135,
      "grad_norm": 37.82373046875,
      "learning_rate": 5e-06,
      "loss": 0.84,
      "num_input_tokens_seen": 529100964,
      "step": 4189
    },
    {
      "epoch": 1.0745847495671135,
      "loss": 0.6978469491004944,
      "loss_ce": 9.303812112193555e-05,
      "loss_iou": 0.333984375,
      "loss_num": 0.00567626953125,
      "loss_xval": 0.69921875,
      "num_input_tokens_seen": 529100964,
      "step": 4189
    },
    {
      "epoch": 1.0748412749310587,
      "grad_norm": 58.646358489990234,
      "learning_rate": 5e-06,
      "loss": 0.8189,
      "num_input_tokens_seen": 529227284,
      "step": 4190
    },
    {
      "epoch": 1.0748412749310587,
      "loss": 0.8101799488067627,
      "loss_ce": 0.0003654654719866812,
      "loss_iou": 0.37890625,
      "loss_num": 0.010009765625,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 529227284,
      "step": 4190
    },
    {
      "epoch": 1.0750978002950042,
      "grad_norm": 63.41388702392578,
      "learning_rate": 5e-06,
      "loss": 0.8657,
      "num_input_tokens_seen": 529354560,
      "step": 4191
    },
    {
      "epoch": 1.0750978002950042,
      "loss": 0.8496758937835693,
      "loss_ce": 6.65304105496034e-05,
      "loss_iou": 0.400390625,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 529354560,
      "step": 4191
    },
    {
      "epoch": 1.0753543256589495,
      "grad_norm": 68.31269073486328,
      "learning_rate": 5e-06,
      "loss": 0.8689,
      "num_input_tokens_seen": 529480904,
      "step": 4192
    },
    {
      "epoch": 1.0753543256589495,
      "loss": 0.8683198690414429,
      "loss_ce": 0.00015579210594296455,
      "loss_iou": 0.396484375,
      "loss_num": 0.0150146484375,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 529480904,
      "step": 4192
    },
    {
      "epoch": 1.075610851022895,
      "grad_norm": 47.187068939208984,
      "learning_rate": 5e-06,
      "loss": 1.0213,
      "num_input_tokens_seen": 529607548,
      "step": 4193
    },
    {
      "epoch": 1.075610851022895,
      "loss": 1.0502688884735107,
      "loss_ce": 0.0019290390191599727,
      "loss_iou": 0.48046875,
      "loss_num": 0.0179443359375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 529607548,
      "step": 4193
    },
    {
      "epoch": 1.0758673763868403,
      "grad_norm": 19.860132217407227,
      "learning_rate": 5e-06,
      "loss": 0.9243,
      "num_input_tokens_seen": 529735288,
      "step": 4194
    },
    {
      "epoch": 1.0758673763868403,
      "loss": 1.0263779163360596,
      "loss_ce": 0.0004990854649804533,
      "loss_iou": 0.462890625,
      "loss_num": 0.0196533203125,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 529735288,
      "step": 4194
    },
    {
      "epoch": 1.0761239017507855,
      "grad_norm": 72.54859161376953,
      "learning_rate": 5e-06,
      "loss": 0.8668,
      "num_input_tokens_seen": 529860936,
      "step": 4195
    },
    {
      "epoch": 1.0761239017507855,
      "loss": 1.0949292182922363,
      "loss_ce": 0.002155718393623829,
      "loss_iou": 0.498046875,
      "loss_num": 0.018798828125,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 529860936,
      "step": 4195
    },
    {
      "epoch": 1.076380427114731,
      "grad_norm": 30.86298179626465,
      "learning_rate": 5e-06,
      "loss": 0.9305,
      "num_input_tokens_seen": 529986772,
      "step": 4196
    },
    {
      "epoch": 1.076380427114731,
      "loss": 0.7357765436172485,
      "loss_ce": 0.0004250332713127136,
      "loss_iou": 0.34375,
      "loss_num": 0.00927734375,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 529986772,
      "step": 4196
    },
    {
      "epoch": 1.0766369524786763,
      "grad_norm": 38.56808090209961,
      "learning_rate": 5e-06,
      "loss": 0.8046,
      "num_input_tokens_seen": 530113344,
      "step": 4197
    },
    {
      "epoch": 1.0766369524786763,
      "loss": 0.6771001815795898,
      "loss_ce": 9.8239557701163e-05,
      "loss_iou": 0.326171875,
      "loss_num": 0.005096435546875,
      "loss_xval": 0.67578125,
      "num_input_tokens_seen": 530113344,
      "step": 4197
    },
    {
      "epoch": 1.0768934778426216,
      "grad_norm": 33.69475555419922,
      "learning_rate": 5e-06,
      "loss": 0.8813,
      "num_input_tokens_seen": 530238984,
      "step": 4198
    },
    {
      "epoch": 1.0768934778426216,
      "loss": 0.9525139927864075,
      "loss_ce": 0.000853819539770484,
      "loss_iou": 0.427734375,
      "loss_num": 0.01904296875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 530238984,
      "step": 4198
    },
    {
      "epoch": 1.077150003206567,
      "grad_norm": 32.98690414428711,
      "learning_rate": 5e-06,
      "loss": 0.801,
      "num_input_tokens_seen": 530366188,
      "step": 4199
    },
    {
      "epoch": 1.077150003206567,
      "loss": 0.8253825902938843,
      "loss_ce": 0.00018727047427091748,
      "loss_iou": 0.37890625,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 530366188,
      "step": 4199
    },
    {
      "epoch": 1.0774065285705123,
      "grad_norm": 51.6097412109375,
      "learning_rate": 5e-06,
      "loss": 0.8374,
      "num_input_tokens_seen": 530492600,
      "step": 4200
    },
    {
      "epoch": 1.0774065285705123,
      "loss": 0.9814297556877136,
      "loss_ce": 0.00291415024548769,
      "loss_iou": 0.431640625,
      "loss_num": 0.0230712890625,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 530492600,
      "step": 4200
    },
    {
      "epoch": 1.0776630539344578,
      "grad_norm": 44.34135055541992,
      "learning_rate": 5e-06,
      "loss": 0.8513,
      "num_input_tokens_seen": 530618964,
      "step": 4201
    },
    {
      "epoch": 1.0776630539344578,
      "loss": 0.8574546575546265,
      "loss_ce": 0.0019859308376908302,
      "loss_iou": 0.396484375,
      "loss_num": 0.01263427734375,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 530618964,
      "step": 4201
    },
    {
      "epoch": 1.077919579298403,
      "grad_norm": 32.64875793457031,
      "learning_rate": 5e-06,
      "loss": 0.7987,
      "num_input_tokens_seen": 530745292,
      "step": 4202
    },
    {
      "epoch": 1.077919579298403,
      "loss": 0.8369764089584351,
      "loss_ce": 0.00030647614039480686,
      "loss_iou": 0.380859375,
      "loss_num": 0.0147705078125,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 530745292,
      "step": 4202
    },
    {
      "epoch": 1.0781761046623486,
      "grad_norm": 45.32022476196289,
      "learning_rate": 5e-06,
      "loss": 0.87,
      "num_input_tokens_seen": 530873132,
      "step": 4203
    },
    {
      "epoch": 1.0781761046623486,
      "loss": 1.0392160415649414,
      "loss_ce": 0.0011301666963845491,
      "loss_iou": 0.458984375,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 530873132,
      "step": 4203
    },
    {
      "epoch": 1.0784326300262939,
      "grad_norm": 59.504520416259766,
      "learning_rate": 5e-06,
      "loss": 0.868,
      "num_input_tokens_seen": 530999516,
      "step": 4204
    },
    {
      "epoch": 1.0784326300262939,
      "loss": 0.8765503168106079,
      "loss_ce": 0.0049683284014463425,
      "loss_iou": 0.404296875,
      "loss_num": 0.012451171875,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 530999516,
      "step": 4204
    },
    {
      "epoch": 1.0786891553902391,
      "grad_norm": 61.230506896972656,
      "learning_rate": 5e-06,
      "loss": 0.8981,
      "num_input_tokens_seen": 531126468,
      "step": 4205
    },
    {
      "epoch": 1.0786891553902391,
      "loss": 0.7520017027854919,
      "loss_ce": 0.0010251434287056327,
      "loss_iou": 0.36328125,
      "loss_num": 0.004669189453125,
      "loss_xval": 0.75,
      "num_input_tokens_seen": 531126468,
      "step": 4205
    },
    {
      "epoch": 1.0789456807541846,
      "grad_norm": 53.96475601196289,
      "learning_rate": 5e-06,
      "loss": 0.8537,
      "num_input_tokens_seen": 531252620,
      "step": 4206
    },
    {
      "epoch": 1.0789456807541846,
      "loss": 0.8793063163757324,
      "loss_ce": 0.0013766268966719508,
      "loss_iou": 0.41796875,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 531252620,
      "step": 4206
    },
    {
      "epoch": 1.07920220611813,
      "grad_norm": 53.399471282958984,
      "learning_rate": 5e-06,
      "loss": 0.8832,
      "num_input_tokens_seen": 531380108,
      "step": 4207
    },
    {
      "epoch": 1.07920220611813,
      "loss": 0.9851667881011963,
      "loss_ce": 0.0022566020488739014,
      "loss_iou": 0.4453125,
      "loss_num": 0.0185546875,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 531380108,
      "step": 4207
    },
    {
      "epoch": 1.0794587314820754,
      "grad_norm": 55.17346954345703,
      "learning_rate": 5e-06,
      "loss": 0.8325,
      "num_input_tokens_seen": 531507208,
      "step": 4208
    },
    {
      "epoch": 1.0794587314820754,
      "loss": 0.8835180997848511,
      "loss_ce": 0.001193856354802847,
      "loss_iou": 0.4140625,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 531507208,
      "step": 4208
    },
    {
      "epoch": 1.0797152568460207,
      "grad_norm": 55.189151763916016,
      "learning_rate": 5e-06,
      "loss": 0.8871,
      "num_input_tokens_seen": 531634352,
      "step": 4209
    },
    {
      "epoch": 1.0797152568460207,
      "loss": 0.8817172050476074,
      "loss_ce": 0.000857790932059288,
      "loss_iou": 0.41015625,
      "loss_num": 0.0120849609375,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 531634352,
      "step": 4209
    },
    {
      "epoch": 1.079971782209966,
      "grad_norm": 47.58444595336914,
      "learning_rate": 5e-06,
      "loss": 0.9878,
      "num_input_tokens_seen": 531761008,
      "step": 4210
    },
    {
      "epoch": 1.079971782209966,
      "loss": 1.1156752109527588,
      "loss_ce": 0.0014174773823469877,
      "loss_iou": 0.5,
      "loss_num": 0.0233154296875,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 531761008,
      "step": 4210
    },
    {
      "epoch": 1.0802283075739114,
      "grad_norm": 41.86310577392578,
      "learning_rate": 5e-06,
      "loss": 0.8807,
      "num_input_tokens_seen": 531888004,
      "step": 4211
    },
    {
      "epoch": 1.0802283075739114,
      "loss": 0.8120375871658325,
      "loss_ce": 0.001002421253360808,
      "loss_iou": 0.37890625,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 531888004,
      "step": 4211
    },
    {
      "epoch": 1.0804848329378567,
      "grad_norm": 39.249576568603516,
      "learning_rate": 5e-06,
      "loss": 0.7756,
      "num_input_tokens_seen": 532012892,
      "step": 4212
    },
    {
      "epoch": 1.0804848329378567,
      "loss": 0.6914447546005249,
      "loss_ce": 0.0032123287674039602,
      "loss_iou": 0.326171875,
      "loss_num": 0.00714111328125,
      "loss_xval": 0.6875,
      "num_input_tokens_seen": 532012892,
      "step": 4212
    },
    {
      "epoch": 1.0807413583018022,
      "grad_norm": 46.90755844116211,
      "learning_rate": 5e-06,
      "loss": 0.8608,
      "num_input_tokens_seen": 532140004,
      "step": 4213
    },
    {
      "epoch": 1.0807413583018022,
      "loss": 0.7585276365280151,
      "loss_ce": 0.0012033790117129683,
      "loss_iou": 0.36328125,
      "loss_num": 0.005767822265625,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 532140004,
      "step": 4213
    },
    {
      "epoch": 1.0809978836657474,
      "grad_norm": 47.502777099609375,
      "learning_rate": 5e-06,
      "loss": 0.8863,
      "num_input_tokens_seen": 532266248,
      "step": 4214
    },
    {
      "epoch": 1.0809978836657474,
      "loss": 0.8726658225059509,
      "loss_ce": 0.00010722808656282723,
      "loss_iou": 0.4140625,
      "loss_num": 0.00848388671875,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 532266248,
      "step": 4214
    },
    {
      "epoch": 1.0812544090296927,
      "grad_norm": 41.40102005004883,
      "learning_rate": 5e-06,
      "loss": 0.916,
      "num_input_tokens_seen": 532393040,
      "step": 4215
    },
    {
      "epoch": 1.0812544090296927,
      "loss": 1.0989556312561035,
      "loss_ce": 0.0012993266573175788,
      "loss_iou": 0.50390625,
      "loss_num": 0.018310546875,
      "loss_xval": 1.09375,
      "num_input_tokens_seen": 532393040,
      "step": 4215
    },
    {
      "epoch": 1.0815109343936382,
      "grad_norm": 59.09712600708008,
      "learning_rate": 5e-06,
      "loss": 0.7986,
      "num_input_tokens_seen": 532518856,
      "step": 4216
    },
    {
      "epoch": 1.0815109343936382,
      "loss": 0.7000777721405029,
      "loss_ce": 0.0006148414104245603,
      "loss_iou": 0.3359375,
      "loss_num": 0.00579833984375,
      "loss_xval": 0.69921875,
      "num_input_tokens_seen": 532518856,
      "step": 4216
    },
    {
      "epoch": 1.0817674597575835,
      "grad_norm": 53.499820709228516,
      "learning_rate": 5e-06,
      "loss": 0.897,
      "num_input_tokens_seen": 532645012,
      "step": 4217
    },
    {
      "epoch": 1.0817674597575835,
      "loss": 0.9126287698745728,
      "loss_ce": 0.0014959567924961448,
      "loss_iou": 0.41015625,
      "loss_num": 0.018310546875,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 532645012,
      "step": 4217
    },
    {
      "epoch": 1.082023985121529,
      "grad_norm": 33.29347610473633,
      "learning_rate": 5e-06,
      "loss": 0.9478,
      "num_input_tokens_seen": 532771248,
      "step": 4218
    },
    {
      "epoch": 1.082023985121529,
      "loss": 1.2001385688781738,
      "loss_ce": 0.005802708677947521,
      "loss_iou": 0.515625,
      "loss_num": 0.0322265625,
      "loss_xval": 1.1953125,
      "num_input_tokens_seen": 532771248,
      "step": 4218
    },
    {
      "epoch": 1.0822805104854742,
      "grad_norm": 35.39781188964844,
      "learning_rate": 5e-06,
      "loss": 0.9198,
      "num_input_tokens_seen": 532898612,
      "step": 4219
    },
    {
      "epoch": 1.0822805104854742,
      "loss": 0.885926365852356,
      "loss_ce": 0.0006724612321704626,
      "loss_iou": 0.412109375,
      "loss_num": 0.01202392578125,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 532898612,
      "step": 4219
    },
    {
      "epoch": 1.0825370358494195,
      "grad_norm": 34.225677490234375,
      "learning_rate": 5e-06,
      "loss": 0.7988,
      "num_input_tokens_seen": 533024504,
      "step": 4220
    },
    {
      "epoch": 1.0825370358494195,
      "loss": 0.8996380567550659,
      "loss_ce": 0.0016888619866222143,
      "loss_iou": 0.419921875,
      "loss_num": 0.01177978515625,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 533024504,
      "step": 4220
    },
    {
      "epoch": 1.082793561213365,
      "grad_norm": 44.10832214355469,
      "learning_rate": 5e-06,
      "loss": 0.885,
      "num_input_tokens_seen": 533151580,
      "step": 4221
    },
    {
      "epoch": 1.082793561213365,
      "loss": 0.8218718767166138,
      "loss_ce": 0.000582851585932076,
      "loss_iou": 0.3828125,
      "loss_num": 0.011474609375,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 533151580,
      "step": 4221
    },
    {
      "epoch": 1.0830500865773103,
      "grad_norm": 46.55870819091797,
      "learning_rate": 5e-06,
      "loss": 0.8533,
      "num_input_tokens_seen": 533277624,
      "step": 4222
    },
    {
      "epoch": 1.0830500865773103,
      "loss": 1.001863718032837,
      "loss_ce": 0.0006430696230381727,
      "loss_iou": 0.45703125,
      "loss_num": 0.0174560546875,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 533277624,
      "step": 4222
    },
    {
      "epoch": 1.0833066119412558,
      "grad_norm": 43.02298355102539,
      "learning_rate": 5e-06,
      "loss": 0.8653,
      "num_input_tokens_seen": 533404032,
      "step": 4223
    },
    {
      "epoch": 1.0833066119412558,
      "loss": 1.0847413539886475,
      "loss_ce": 0.002221813192591071,
      "loss_iou": 0.49609375,
      "loss_num": 0.0184326171875,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 533404032,
      "step": 4223
    },
    {
      "epoch": 1.083563137305201,
      "grad_norm": 43.85771179199219,
      "learning_rate": 5e-06,
      "loss": 0.7463,
      "num_input_tokens_seen": 533530080,
      "step": 4224
    },
    {
      "epoch": 1.083563137305201,
      "loss": 0.7807549834251404,
      "loss_ce": 0.00048152607632800937,
      "loss_iou": 0.361328125,
      "loss_num": 0.01190185546875,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 533530080,
      "step": 4224
    },
    {
      "epoch": 1.0838196626691463,
      "grad_norm": 46.588233947753906,
      "learning_rate": 5e-06,
      "loss": 0.8319,
      "num_input_tokens_seen": 533657120,
      "step": 4225
    },
    {
      "epoch": 1.0838196626691463,
      "loss": 0.7868473529815674,
      "loss_ce": 0.00022626503778155893,
      "loss_iou": 0.37890625,
      "loss_num": 0.00543212890625,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 533657120,
      "step": 4225
    },
    {
      "epoch": 1.0840761880330918,
      "grad_norm": 42.978641510009766,
      "learning_rate": 5e-06,
      "loss": 0.8432,
      "num_input_tokens_seen": 533783784,
      "step": 4226
    },
    {
      "epoch": 1.0840761880330918,
      "loss": 0.8225687742233276,
      "loss_ce": 0.0007914521847851574,
      "loss_iou": 0.38671875,
      "loss_num": 0.009521484375,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 533783784,
      "step": 4226
    },
    {
      "epoch": 1.084332713397037,
      "grad_norm": 44.81273651123047,
      "learning_rate": 5e-06,
      "loss": 0.9412,
      "num_input_tokens_seen": 533911388,
      "step": 4227
    },
    {
      "epoch": 1.084332713397037,
      "loss": 1.2181427478790283,
      "loss_ce": 0.0013458174653351307,
      "loss_iou": 0.5546875,
      "loss_num": 0.022216796875,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 533911388,
      "step": 4227
    },
    {
      "epoch": 1.0845892387609826,
      "grad_norm": 54.927406311035156,
      "learning_rate": 5e-06,
      "loss": 0.7777,
      "num_input_tokens_seen": 534039472,
      "step": 4228
    },
    {
      "epoch": 1.0845892387609826,
      "loss": 0.8690335750579834,
      "loss_ce": 0.0003812081413343549,
      "loss_iou": 0.419921875,
      "loss_num": 0.00579833984375,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 534039472,
      "step": 4228
    },
    {
      "epoch": 1.0848457641249278,
      "grad_norm": 53.92333221435547,
      "learning_rate": 5e-06,
      "loss": 1.0151,
      "num_input_tokens_seen": 534167032,
      "step": 4229
    },
    {
      "epoch": 1.0848457641249278,
      "loss": 0.8962100744247437,
      "loss_ce": 0.0011905742576345801,
      "loss_iou": 0.41015625,
      "loss_num": 0.0146484375,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 534167032,
      "step": 4229
    },
    {
      "epoch": 1.0851022894888733,
      "grad_norm": 57.178504943847656,
      "learning_rate": 5e-06,
      "loss": 0.983,
      "num_input_tokens_seen": 534293676,
      "step": 4230
    },
    {
      "epoch": 1.0851022894888733,
      "loss": 1.1175835132598877,
      "loss_ce": 0.0018608798272907734,
      "loss_iou": 0.5,
      "loss_num": 0.02294921875,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 534293676,
      "step": 4230
    },
    {
      "epoch": 1.0853588148528186,
      "grad_norm": 50.4942741394043,
      "learning_rate": 5e-06,
      "loss": 0.8058,
      "num_input_tokens_seen": 534419448,
      "step": 4231
    },
    {
      "epoch": 1.0853588148528186,
      "loss": 0.9174057245254517,
      "loss_ce": 0.0033432317432016134,
      "loss_iou": 0.41015625,
      "loss_num": 0.0189208984375,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 534419448,
      "step": 4231
    },
    {
      "epoch": 1.0856153402167639,
      "grad_norm": 28.80629539489746,
      "learning_rate": 5e-06,
      "loss": 0.8629,
      "num_input_tokens_seen": 534545564,
      "step": 4232
    },
    {
      "epoch": 1.0856153402167639,
      "loss": 0.8702431917190552,
      "loss_ce": 0.0025673885829746723,
      "loss_iou": 0.404296875,
      "loss_num": 0.0118408203125,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 534545564,
      "step": 4232
    },
    {
      "epoch": 1.0858718655807094,
      "grad_norm": 31.324724197387695,
      "learning_rate": 5e-06,
      "loss": 0.926,
      "num_input_tokens_seen": 534672808,
      "step": 4233
    },
    {
      "epoch": 1.0858718655807094,
      "loss": 0.8496278524398804,
      "loss_ce": 0.0022157507482916117,
      "loss_iou": 0.38671875,
      "loss_num": 0.0145263671875,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 534672808,
      "step": 4233
    },
    {
      "epoch": 1.0861283909446546,
      "grad_norm": 33.96489334106445,
      "learning_rate": 5e-06,
      "loss": 0.8165,
      "num_input_tokens_seen": 534800392,
      "step": 4234
    },
    {
      "epoch": 1.0861283909446546,
      "loss": 0.8228338956832886,
      "loss_ce": 7.999742229003459e-05,
      "loss_iou": 0.384765625,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 534800392,
      "step": 4234
    },
    {
      "epoch": 1.0863849163086,
      "grad_norm": 38.15224075317383,
      "learning_rate": 5e-06,
      "loss": 0.8775,
      "num_input_tokens_seen": 534926524,
      "step": 4235
    },
    {
      "epoch": 1.0863849163086,
      "loss": 0.9135920405387878,
      "loss_ce": 0.00026199675630778074,
      "loss_iou": 0.423828125,
      "loss_num": 0.013427734375,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 534926524,
      "step": 4235
    },
    {
      "epoch": 1.0866414416725454,
      "grad_norm": 53.63994216918945,
      "learning_rate": 5e-06,
      "loss": 0.8408,
      "num_input_tokens_seen": 535054332,
      "step": 4236
    },
    {
      "epoch": 1.0866414416725454,
      "loss": 0.7420462369918823,
      "loss_ce": 0.00034697563387453556,
      "loss_iou": 0.359375,
      "loss_num": 0.004974365234375,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 535054332,
      "step": 4236
    },
    {
      "epoch": 1.0868979670364907,
      "grad_norm": 46.743919372558594,
      "learning_rate": 5e-06,
      "loss": 0.9626,
      "num_input_tokens_seen": 535180964,
      "step": 4237
    },
    {
      "epoch": 1.0868979670364907,
      "loss": 0.9385435581207275,
      "loss_ce": 0.0005552737857215106,
      "loss_iou": 0.435546875,
      "loss_num": 0.01336669921875,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 535180964,
      "step": 4237
    },
    {
      "epoch": 1.0871544924004362,
      "grad_norm": 357.4437255859375,
      "learning_rate": 5e-06,
      "loss": 0.8425,
      "num_input_tokens_seen": 535307400,
      "step": 4238
    },
    {
      "epoch": 1.0871544924004362,
      "loss": 0.9378539323806763,
      "loss_ce": 0.0008422537357546389,
      "loss_iou": 0.43359375,
      "loss_num": 0.01385498046875,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 535307400,
      "step": 4238
    },
    {
      "epoch": 1.0874110177643814,
      "grad_norm": 43.215606689453125,
      "learning_rate": 5e-06,
      "loss": 0.8641,
      "num_input_tokens_seen": 535434540,
      "step": 4239
    },
    {
      "epoch": 1.0874110177643814,
      "loss": 0.7945486307144165,
      "loss_ce": 0.0015798923559486866,
      "loss_iou": 0.373046875,
      "loss_num": 0.00958251953125,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 535434540,
      "step": 4239
    },
    {
      "epoch": 1.087667543128327,
      "grad_norm": 40.43342208862305,
      "learning_rate": 5e-06,
      "loss": 0.7766,
      "num_input_tokens_seen": 535562004,
      "step": 4240
    },
    {
      "epoch": 1.087667543128327,
      "loss": 0.7647783756256104,
      "loss_ce": 0.0006181845092214644,
      "loss_iou": 0.353515625,
      "loss_num": 0.01177978515625,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 535562004,
      "step": 4240
    },
    {
      "epoch": 1.0879240684922722,
      "grad_norm": 40.38063049316406,
      "learning_rate": 5e-06,
      "loss": 0.9133,
      "num_input_tokens_seen": 535688672,
      "step": 4241
    },
    {
      "epoch": 1.0879240684922722,
      "loss": 1.1253987550735474,
      "loss_ce": 0.0008870072197169065,
      "loss_iou": 0.515625,
      "loss_num": 0.019287109375,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 535688672,
      "step": 4241
    },
    {
      "epoch": 1.0881805938562175,
      "grad_norm": 37.272422790527344,
      "learning_rate": 5e-06,
      "loss": 0.8324,
      "num_input_tokens_seen": 535814516,
      "step": 4242
    },
    {
      "epoch": 1.0881805938562175,
      "loss": 0.7911187410354614,
      "loss_ce": 0.00010313833627151325,
      "loss_iou": 0.365234375,
      "loss_num": 0.01220703125,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 535814516,
      "step": 4242
    },
    {
      "epoch": 1.088437119220163,
      "grad_norm": 42.66666793823242,
      "learning_rate": 5e-06,
      "loss": 0.8733,
      "num_input_tokens_seen": 535941108,
      "step": 4243
    },
    {
      "epoch": 1.088437119220163,
      "loss": 0.9083069562911987,
      "loss_ce": 0.0010803421027958393,
      "loss_iou": 0.42578125,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 535941108,
      "step": 4243
    },
    {
      "epoch": 1.0886936445841082,
      "grad_norm": 53.776206970214844,
      "learning_rate": 5e-06,
      "loss": 0.8283,
      "num_input_tokens_seen": 536066972,
      "step": 4244
    },
    {
      "epoch": 1.0886936445841082,
      "loss": 0.807137131690979,
      "loss_ce": 0.0007406857330352068,
      "loss_iou": 0.376953125,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 536066972,
      "step": 4244
    },
    {
      "epoch": 1.0889501699480537,
      "grad_norm": 50.006229400634766,
      "learning_rate": 5e-06,
      "loss": 0.8946,
      "num_input_tokens_seen": 536193364,
      "step": 4245
    },
    {
      "epoch": 1.0889501699480537,
      "loss": 0.7244573831558228,
      "loss_ce": 9.214598685503006e-05,
      "loss_iou": 0.345703125,
      "loss_num": 0.006988525390625,
      "loss_xval": 0.72265625,
      "num_input_tokens_seen": 536193364,
      "step": 4245
    },
    {
      "epoch": 1.089206695311999,
      "grad_norm": 54.94211196899414,
      "learning_rate": 5e-06,
      "loss": 0.8253,
      "num_input_tokens_seen": 536318772,
      "step": 4246
    },
    {
      "epoch": 1.089206695311999,
      "loss": 0.9607019424438477,
      "loss_ce": 0.003182359039783478,
      "loss_iou": 0.44140625,
      "loss_num": 0.01513671875,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 536318772,
      "step": 4246
    },
    {
      "epoch": 1.0894632206759443,
      "grad_norm": 56.43708038330078,
      "learning_rate": 5e-06,
      "loss": 0.861,
      "num_input_tokens_seen": 536446540,
      "step": 4247
    },
    {
      "epoch": 1.0894632206759443,
      "loss": 0.6866933107376099,
      "loss_ce": 0.00041404360672459006,
      "loss_iou": 0.326171875,
      "loss_num": 0.006805419921875,
      "loss_xval": 0.6875,
      "num_input_tokens_seen": 536446540,
      "step": 4247
    },
    {
      "epoch": 1.0897197460398897,
      "grad_norm": 52.314186096191406,
      "learning_rate": 5e-06,
      "loss": 0.7136,
      "num_input_tokens_seen": 536572444,
      "step": 4248
    },
    {
      "epoch": 1.0897197460398897,
      "loss": 0.7623040080070496,
      "loss_ce": 0.0005852805334143341,
      "loss_iou": 0.3671875,
      "loss_num": 0.005859375,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 536572444,
      "step": 4248
    },
    {
      "epoch": 1.089976271403835,
      "grad_norm": 44.573787689208984,
      "learning_rate": 5e-06,
      "loss": 0.8552,
      "num_input_tokens_seen": 536698844,
      "step": 4249
    },
    {
      "epoch": 1.089976271403835,
      "loss": 0.8431373834609985,
      "loss_ce": 0.00011988347250735387,
      "loss_iou": 0.40234375,
      "loss_num": 0.00787353515625,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 536698844,
      "step": 4249
    },
    {
      "epoch": 1.0902327967677805,
      "grad_norm": 47.36097717285156,
      "learning_rate": 5e-06,
      "loss": 0.8683,
      "num_input_tokens_seen": 536825940,
      "step": 4250
    },
    {
      "epoch": 1.0902327967677805,
      "eval_icons_CIoU": 0.3023005574941635,
      "eval_icons_GIoU": 0.2556134760379791,
      "eval_icons_IoU": 0.4722231328487396,
      "eval_icons_MAE_all": 0.028205308131873608,
      "eval_icons_MAE_h": 0.03800942189991474,
      "eval_icons_MAE_w": 0.05544603429734707,
      "eval_icons_MAE_x_boxes": 0.05080600455403328,
      "eval_icons_MAE_y_boxes": 0.0376229602843523,
      "eval_icons_NUM_probability": 0.9998997449874878,
      "eval_icons_inside_bbox": 0.7239583432674408,
      "eval_icons_loss": 1.5769168138504028,
      "eval_icons_loss_ce": 3.709676275320817e-05,
      "eval_icons_loss_iou": 0.69952392578125,
      "eval_icons_loss_num": 0.02767181396484375,
      "eval_icons_loss_xval": 1.5380859375,
      "eval_icons_runtime": 44.6499,
      "eval_icons_samples_per_second": 1.12,
      "eval_icons_steps_per_second": 0.045,
      "num_input_tokens_seen": 536825940,
      "step": 4250
    },
    {
      "epoch": 1.0902327967677805,
      "eval_screenspot_CIoU": 0.11266590903202693,
      "eval_screenspot_GIoU": 0.09308384358882904,
      "eval_screenspot_IoU": 0.29253459970156354,
      "eval_screenspot_MAE_all": 0.07968296110630035,
      "eval_screenspot_MAE_h": 0.07943055654565494,
      "eval_screenspot_MAE_w": 0.12661905586719513,
      "eval_screenspot_MAE_x_boxes": 0.10553709914286931,
      "eval_screenspot_MAE_y_boxes": 0.06493873397509257,
      "eval_screenspot_NUM_probability": 0.9999548594156901,
      "eval_screenspot_inside_bbox": 0.6016666690508524,
      "eval_screenspot_loss": 2.2541990280151367,
      "eval_screenspot_loss_ce": 0.0033002846563855806,
      "eval_screenspot_loss_iou": 0.9331868489583334,
      "eval_screenspot_loss_num": 0.08353678385416667,
      "eval_screenspot_loss_xval": 2.2835286458333335,
      "eval_screenspot_runtime": 77.2232,
      "eval_screenspot_samples_per_second": 1.153,
      "eval_screenspot_steps_per_second": 0.039,
      "num_input_tokens_seen": 536825940,
      "step": 4250
    },
    {
      "epoch": 1.0902327967677805,
      "loss": 2.283000946044922,
      "loss_ce": 0.0017511313781142235,
      "loss_iou": 0.9453125,
      "loss_num": 0.078125,
      "loss_xval": 2.28125,
      "num_input_tokens_seen": 536825940,
      "step": 4250
    },
    {
      "epoch": 1.0904893221317258,
      "grad_norm": 50.12983703613281,
      "learning_rate": 5e-06,
      "loss": 1.029,
      "num_input_tokens_seen": 536953460,
      "step": 4251
    },
    {
      "epoch": 1.0904893221317258,
      "loss": 1.083077311515808,
      "loss_ce": 0.002022591419517994,
      "loss_iou": 0.4921875,
      "loss_num": 0.01953125,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 536953460,
      "step": 4251
    },
    {
      "epoch": 1.090745847495671,
      "grad_norm": 49.1562385559082,
      "learning_rate": 5e-06,
      "loss": 0.8907,
      "num_input_tokens_seen": 537080272,
      "step": 4252
    },
    {
      "epoch": 1.090745847495671,
      "loss": 0.7602747678756714,
      "loss_ce": 0.0005091187776997685,
      "loss_iou": 0.359375,
      "loss_num": 0.00836181640625,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 537080272,
      "step": 4252
    },
    {
      "epoch": 1.0910023728596165,
      "grad_norm": 53.04816436767578,
      "learning_rate": 5e-06,
      "loss": 0.8633,
      "num_input_tokens_seen": 537206992,
      "step": 4253
    },
    {
      "epoch": 1.0910023728596165,
      "loss": 0.8083138465881348,
      "loss_ce": 0.00020841433433815837,
      "loss_iou": 0.380859375,
      "loss_num": 0.00921630859375,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 537206992,
      "step": 4253
    },
    {
      "epoch": 1.0912588982235618,
      "grad_norm": 49.52168273925781,
      "learning_rate": 5e-06,
      "loss": 1.0393,
      "num_input_tokens_seen": 537332292,
      "step": 4254
    },
    {
      "epoch": 1.0912588982235618,
      "loss": 1.0582189559936523,
      "loss_ce": 0.003287315834313631,
      "loss_iou": 0.47265625,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 537332292,
      "step": 4254
    },
    {
      "epoch": 1.0915154235875073,
      "grad_norm": 40.197608947753906,
      "learning_rate": 5e-06,
      "loss": 0.8552,
      "num_input_tokens_seen": 537458684,
      "step": 4255
    },
    {
      "epoch": 1.0915154235875073,
      "loss": 0.8571491241455078,
      "loss_ce": 0.003633481217548251,
      "loss_iou": 0.392578125,
      "loss_num": 0.01348876953125,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 537458684,
      "step": 4255
    },
    {
      "epoch": 1.0917719489514526,
      "grad_norm": 61.588470458984375,
      "learning_rate": 5e-06,
      "loss": 0.8977,
      "num_input_tokens_seen": 537585544,
      "step": 4256
    },
    {
      "epoch": 1.0917719489514526,
      "loss": 1.0696187019348145,
      "loss_ce": 0.0012592999264597893,
      "loss_iou": 0.4765625,
      "loss_num": 0.023193359375,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 537585544,
      "step": 4256
    },
    {
      "epoch": 1.0920284743153978,
      "grad_norm": 77.4262466430664,
      "learning_rate": 5e-06,
      "loss": 1.0143,
      "num_input_tokens_seen": 537712696,
      "step": 4257
    },
    {
      "epoch": 1.0920284743153978,
      "loss": 0.983360230922699,
      "loss_ce": 0.0019149334402754903,
      "loss_iou": 0.447265625,
      "loss_num": 0.017333984375,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 537712696,
      "step": 4257
    },
    {
      "epoch": 1.0922849996793433,
      "grad_norm": 46.227577209472656,
      "learning_rate": 5e-06,
      "loss": 0.851,
      "num_input_tokens_seen": 537839712,
      "step": 4258
    },
    {
      "epoch": 1.0922849996793433,
      "loss": 0.8714098930358887,
      "loss_ce": 0.0017809381242841482,
      "loss_iou": 0.41015625,
      "loss_num": 0.01031494140625,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 537839712,
      "step": 4258
    },
    {
      "epoch": 1.0925415250432886,
      "grad_norm": 34.097782135009766,
      "learning_rate": 5e-06,
      "loss": 0.8491,
      "num_input_tokens_seen": 537966540,
      "step": 4259
    },
    {
      "epoch": 1.0925415250432886,
      "loss": 0.9689818620681763,
      "loss_ce": 0.003405759809538722,
      "loss_iou": 0.4375,
      "loss_num": 0.018310546875,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 537966540,
      "step": 4259
    },
    {
      "epoch": 1.092798050407234,
      "grad_norm": 49.35053634643555,
      "learning_rate": 5e-06,
      "loss": 0.8634,
      "num_input_tokens_seen": 538093360,
      "step": 4260
    },
    {
      "epoch": 1.092798050407234,
      "loss": 0.6868743896484375,
      "loss_ce": 0.0003509339294396341,
      "loss_iou": 0.33203125,
      "loss_num": 0.00445556640625,
      "loss_xval": 0.6875,
      "num_input_tokens_seen": 538093360,
      "step": 4260
    },
    {
      "epoch": 1.0930545757711794,
      "grad_norm": 46.145225524902344,
      "learning_rate": 5e-06,
      "loss": 0.821,
      "num_input_tokens_seen": 538219876,
      "step": 4261
    },
    {
      "epoch": 1.0930545757711794,
      "loss": 0.7840884923934937,
      "loss_ce": 0.000397077645175159,
      "loss_iou": 0.37890625,
      "loss_num": 0.005218505859375,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 538219876,
      "step": 4261
    },
    {
      "epoch": 1.0933111011351246,
      "grad_norm": 54.58528518676758,
      "learning_rate": 5e-06,
      "loss": 0.8393,
      "num_input_tokens_seen": 538346804,
      "step": 4262
    },
    {
      "epoch": 1.0933111011351246,
      "loss": 0.8000120520591736,
      "loss_ce": 0.0011838998179882765,
      "loss_iou": 0.384765625,
      "loss_num": 0.006011962890625,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 538346804,
      "step": 4262
    },
    {
      "epoch": 1.0935676264990701,
      "grad_norm": 51.060523986816406,
      "learning_rate": 5e-06,
      "loss": 0.8966,
      "num_input_tokens_seen": 538472808,
      "step": 4263
    },
    {
      "epoch": 1.0935676264990701,
      "loss": 0.923377275466919,
      "loss_ce": 0.0019906063098460436,
      "loss_iou": 0.435546875,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 538472808,
      "step": 4263
    },
    {
      "epoch": 1.0938241518630154,
      "grad_norm": 55.52627944946289,
      "learning_rate": 5e-06,
      "loss": 0.8305,
      "num_input_tokens_seen": 538598704,
      "step": 4264
    },
    {
      "epoch": 1.0938241518630154,
      "loss": 0.9450574517250061,
      "loss_ce": 0.0026745933573693037,
      "loss_iou": 0.439453125,
      "loss_num": 0.01239013671875,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 538598704,
      "step": 4264
    },
    {
      "epoch": 1.094080677226961,
      "grad_norm": 50.153961181640625,
      "learning_rate": 5e-06,
      "loss": 0.944,
      "num_input_tokens_seen": 538724636,
      "step": 4265
    },
    {
      "epoch": 1.094080677226961,
      "loss": 0.8521740436553955,
      "loss_ce": 0.007447536569088697,
      "loss_iou": 0.3984375,
      "loss_num": 0.009765625,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 538724636,
      "step": 4265
    },
    {
      "epoch": 1.0943372025909062,
      "grad_norm": 49.00498580932617,
      "learning_rate": 5e-06,
      "loss": 0.8281,
      "num_input_tokens_seen": 538850212,
      "step": 4266
    },
    {
      "epoch": 1.0943372025909062,
      "loss": 0.7847800254821777,
      "loss_ce": 0.000600374536588788,
      "loss_iou": 0.37109375,
      "loss_num": 0.00836181640625,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 538850212,
      "step": 4266
    },
    {
      "epoch": 1.0945937279548514,
      "grad_norm": 18.410188674926758,
      "learning_rate": 5e-06,
      "loss": 0.7488,
      "num_input_tokens_seen": 538976580,
      "step": 4267
    },
    {
      "epoch": 1.0945937279548514,
      "loss": 0.8457469940185547,
      "loss_ce": 0.000776328903157264,
      "loss_iou": 0.392578125,
      "loss_num": 0.01171875,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 538976580,
      "step": 4267
    },
    {
      "epoch": 1.094850253318797,
      "grad_norm": 24.589529037475586,
      "learning_rate": 5e-06,
      "loss": 0.8897,
      "num_input_tokens_seen": 539102592,
      "step": 4268
    },
    {
      "epoch": 1.094850253318797,
      "loss": 0.6910320520401001,
      "loss_ce": 0.0020671954844146967,
      "loss_iou": 0.31640625,
      "loss_num": 0.01116943359375,
      "loss_xval": 0.6875,
      "num_input_tokens_seen": 539102592,
      "step": 4268
    },
    {
      "epoch": 1.0951067786827422,
      "grad_norm": 28.972549438476562,
      "learning_rate": 5e-06,
      "loss": 0.8679,
      "num_input_tokens_seen": 539227848,
      "step": 4269
    },
    {
      "epoch": 1.0951067786827422,
      "loss": 0.779083251953125,
      "loss_ce": 0.0017394808819517493,
      "loss_iou": 0.357421875,
      "loss_num": 0.0120849609375,
      "loss_xval": 0.77734375,
      "num_input_tokens_seen": 539227848,
      "step": 4269
    },
    {
      "epoch": 1.0953633040466877,
      "grad_norm": 31.57301902770996,
      "learning_rate": 5e-06,
      "loss": 0.8545,
      "num_input_tokens_seen": 539354052,
      "step": 4270
    },
    {
      "epoch": 1.0953633040466877,
      "loss": 0.7170563340187073,
      "loss_ce": 0.00025950040435418487,
      "loss_iou": 0.330078125,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 539354052,
      "step": 4270
    },
    {
      "epoch": 1.095619829410633,
      "grad_norm": 31.407758712768555,
      "learning_rate": 5e-06,
      "loss": 0.8916,
      "num_input_tokens_seen": 539479636,
      "step": 4271
    },
    {
      "epoch": 1.095619829410633,
      "loss": 0.9890812635421753,
      "loss_ce": 0.0025089557748287916,
      "loss_iou": 0.42578125,
      "loss_num": 0.027099609375,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 539479636,
      "step": 4271
    },
    {
      "epoch": 1.0958763547745782,
      "grad_norm": 37.442626953125,
      "learning_rate": 5e-06,
      "loss": 0.8417,
      "num_input_tokens_seen": 539605992,
      "step": 4272
    },
    {
      "epoch": 1.0958763547745782,
      "loss": 0.6854358911514282,
      "loss_ce": 0.0006214665481820703,
      "loss_iou": 0.322265625,
      "loss_num": 0.007659912109375,
      "loss_xval": 0.68359375,
      "num_input_tokens_seen": 539605992,
      "step": 4272
    },
    {
      "epoch": 1.0961328801385237,
      "grad_norm": 39.12180709838867,
      "learning_rate": 5e-06,
      "loss": 1.0539,
      "num_input_tokens_seen": 539731668,
      "step": 4273
    },
    {
      "epoch": 1.0961328801385237,
      "loss": 0.7987058758735657,
      "loss_ce": 0.0003660315414890647,
      "loss_iou": 0.36328125,
      "loss_num": 0.01446533203125,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 539731668,
      "step": 4273
    },
    {
      "epoch": 1.096389405502469,
      "grad_norm": 47.7686882019043,
      "learning_rate": 5e-06,
      "loss": 0.8861,
      "num_input_tokens_seen": 539857632,
      "step": 4274
    },
    {
      "epoch": 1.096389405502469,
      "loss": 0.9397404193878174,
      "loss_ce": 0.0012638181215152144,
      "loss_iou": 0.42578125,
      "loss_num": 0.017333984375,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 539857632,
      "step": 4274
    },
    {
      "epoch": 1.0966459308664145,
      "grad_norm": 37.07966613769531,
      "learning_rate": 5e-06,
      "loss": 0.9588,
      "num_input_tokens_seen": 539983688,
      "step": 4275
    },
    {
      "epoch": 1.0966459308664145,
      "loss": 0.9746381044387817,
      "loss_ce": 0.0005169447977095842,
      "loss_iou": 0.4453125,
      "loss_num": 0.0164794921875,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 539983688,
      "step": 4275
    },
    {
      "epoch": 1.0969024562303598,
      "grad_norm": 22.157163619995117,
      "learning_rate": 5e-06,
      "loss": 0.8029,
      "num_input_tokens_seen": 540110124,
      "step": 4276
    },
    {
      "epoch": 1.0969024562303598,
      "loss": 0.9074290990829468,
      "loss_ce": 0.0023997726384550333,
      "loss_iou": 0.40625,
      "loss_num": 0.018310546875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 540110124,
      "step": 4276
    },
    {
      "epoch": 1.0971589815943052,
      "grad_norm": 24.439579010009766,
      "learning_rate": 5e-06,
      "loss": 0.9176,
      "num_input_tokens_seen": 540235712,
      "step": 4277
    },
    {
      "epoch": 1.0971589815943052,
      "loss": 0.9007980823516846,
      "loss_ce": 0.0011398524511605501,
      "loss_iou": 0.41796875,
      "loss_num": 0.012939453125,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 540235712,
      "step": 4277
    },
    {
      "epoch": 1.0974155069582505,
      "grad_norm": 31.011384963989258,
      "learning_rate": 5e-06,
      "loss": 0.8186,
      "num_input_tokens_seen": 540362596,
      "step": 4278
    },
    {
      "epoch": 1.0974155069582505,
      "loss": 0.7741881608963013,
      "loss_ce": 0.0017271911492571235,
      "loss_iou": 0.3671875,
      "loss_num": 0.00726318359375,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 540362596,
      "step": 4278
    },
    {
      "epoch": 1.0976720323221958,
      "grad_norm": 30.156375885009766,
      "learning_rate": 5e-06,
      "loss": 0.9196,
      "num_input_tokens_seen": 540488564,
      "step": 4279
    },
    {
      "epoch": 1.0976720323221958,
      "loss": 0.7317163944244385,
      "loss_ce": 0.00027108192443847656,
      "loss_iou": 0.345703125,
      "loss_num": 0.00799560546875,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 540488564,
      "step": 4279
    },
    {
      "epoch": 1.0979285576861413,
      "grad_norm": 21.90422248840332,
      "learning_rate": 5e-06,
      "loss": 0.8118,
      "num_input_tokens_seen": 540613576,
      "step": 4280
    },
    {
      "epoch": 1.0979285576861413,
      "loss": 0.8804684281349182,
      "loss_ce": 0.0032711708918213844,
      "loss_iou": 0.404296875,
      "loss_num": 0.01385498046875,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 540613576,
      "step": 4280
    },
    {
      "epoch": 1.0981850830500866,
      "grad_norm": 29.854904174804688,
      "learning_rate": 5e-06,
      "loss": 0.9381,
      "num_input_tokens_seen": 540740020,
      "step": 4281
    },
    {
      "epoch": 1.0981850830500866,
      "loss": 0.7842676043510437,
      "loss_ce": 0.0003320628893561661,
      "loss_iou": 0.369140625,
      "loss_num": 0.0096435546875,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 540740020,
      "step": 4281
    },
    {
      "epoch": 1.0984416084140318,
      "grad_norm": 39.7161750793457,
      "learning_rate": 5e-06,
      "loss": 0.8353,
      "num_input_tokens_seen": 540866572,
      "step": 4282
    },
    {
      "epoch": 1.0984416084140318,
      "loss": 0.8786364197731018,
      "loss_ce": 0.006566146854311228,
      "loss_iou": 0.400390625,
      "loss_num": 0.01422119140625,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 540866572,
      "step": 4282
    },
    {
      "epoch": 1.0986981337779773,
      "grad_norm": 43.448307037353516,
      "learning_rate": 5e-06,
      "loss": 0.8013,
      "num_input_tokens_seen": 540991756,
      "step": 4283
    },
    {
      "epoch": 1.0986981337779773,
      "loss": 0.8713977336883545,
      "loss_ce": 0.0025012330152094364,
      "loss_iou": 0.404296875,
      "loss_num": 0.0120849609375,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 540991756,
      "step": 4283
    },
    {
      "epoch": 1.0989546591419226,
      "grad_norm": 60.8759651184082,
      "learning_rate": 5e-06,
      "loss": 0.8596,
      "num_input_tokens_seen": 541117180,
      "step": 4284
    },
    {
      "epoch": 1.0989546591419226,
      "loss": 0.8601726293563843,
      "loss_ce": 0.0005534642841666937,
      "loss_iou": 0.400390625,
      "loss_num": 0.01153564453125,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 541117180,
      "step": 4284
    },
    {
      "epoch": 1.099211184505868,
      "grad_norm": 40.30632781982422,
      "learning_rate": 5e-06,
      "loss": 0.9197,
      "num_input_tokens_seen": 541243388,
      "step": 4285
    },
    {
      "epoch": 1.099211184505868,
      "loss": 0.9647684693336487,
      "loss_ce": 0.0013895528391003609,
      "loss_iou": 0.427734375,
      "loss_num": 0.021728515625,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 541243388,
      "step": 4285
    },
    {
      "epoch": 1.0994677098698133,
      "grad_norm": 29.083728790283203,
      "learning_rate": 5e-06,
      "loss": 0.8316,
      "num_input_tokens_seen": 541368884,
      "step": 4286
    },
    {
      "epoch": 1.0994677098698133,
      "loss": 1.078627109527588,
      "loss_ce": 0.0014786063693463802,
      "loss_iou": 0.474609375,
      "loss_num": 0.0260009765625,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 541368884,
      "step": 4286
    },
    {
      "epoch": 1.0997242352337588,
      "grad_norm": 33.91740036010742,
      "learning_rate": 5e-06,
      "loss": 0.9254,
      "num_input_tokens_seen": 541495028,
      "step": 4287
    },
    {
      "epoch": 1.0997242352337588,
      "loss": 0.7508026361465454,
      "loss_ce": 0.0003143171197734773,
      "loss_iou": 0.35546875,
      "loss_num": 0.007476806640625,
      "loss_xval": 0.75,
      "num_input_tokens_seen": 541495028,
      "step": 4287
    },
    {
      "epoch": 1.099980760597704,
      "grad_norm": 70.21348571777344,
      "learning_rate": 5e-06,
      "loss": 0.9061,
      "num_input_tokens_seen": 541622888,
      "step": 4288
    },
    {
      "epoch": 1.099980760597704,
      "loss": 0.8699834942817688,
      "loss_ce": 0.0008428778382949531,
      "loss_iou": 0.400390625,
      "loss_num": 0.0137939453125,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 541622888,
      "step": 4288
    },
    {
      "epoch": 1.1002372859616494,
      "grad_norm": 53.37354278564453,
      "learning_rate": 5e-06,
      "loss": 0.9855,
      "num_input_tokens_seen": 541749388,
      "step": 4289
    },
    {
      "epoch": 1.1002372859616494,
      "loss": 1.0263888835906982,
      "loss_ce": 0.00026589585468173027,
      "loss_iou": 0.45703125,
      "loss_num": 0.022216796875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 541749388,
      "step": 4289
    },
    {
      "epoch": 1.1004938113255949,
      "grad_norm": 28.36046028137207,
      "learning_rate": 5e-06,
      "loss": 0.9164,
      "num_input_tokens_seen": 541875696,
      "step": 4290
    },
    {
      "epoch": 1.1004938113255949,
      "loss": 1.0823887586593628,
      "loss_ce": 0.0008457691874355078,
      "loss_iou": 0.4921875,
      "loss_num": 0.0194091796875,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 541875696,
      "step": 4290
    },
    {
      "epoch": 1.1007503366895401,
      "grad_norm": 19.23958396911621,
      "learning_rate": 5e-06,
      "loss": 0.8282,
      "num_input_tokens_seen": 542001120,
      "step": 4291
    },
    {
      "epoch": 1.1007503366895401,
      "loss": 0.8432102799415588,
      "loss_ce": 0.0009251004667021334,
      "loss_iou": 0.390625,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 542001120,
      "step": 4291
    },
    {
      "epoch": 1.1010068620534856,
      "grad_norm": 23.499225616455078,
      "learning_rate": 5e-06,
      "loss": 0.7738,
      "num_input_tokens_seen": 542128356,
      "step": 4292
    },
    {
      "epoch": 1.1010068620534856,
      "loss": 0.707275390625,
      "loss_ce": 0.0012206961400806904,
      "loss_iou": 0.33203125,
      "loss_num": 0.00848388671875,
      "loss_xval": 0.70703125,
      "num_input_tokens_seen": 542128356,
      "step": 4292
    },
    {
      "epoch": 1.101263387417431,
      "grad_norm": 27.7711181640625,
      "learning_rate": 5e-06,
      "loss": 0.885,
      "num_input_tokens_seen": 542253812,
      "step": 4293
    },
    {
      "epoch": 1.101263387417431,
      "loss": 0.9279822707176208,
      "loss_ce": 0.0004920315695926547,
      "loss_iou": 0.4375,
      "loss_num": 0.01025390625,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 542253812,
      "step": 4293
    },
    {
      "epoch": 1.1015199127813762,
      "grad_norm": 31.392070770263672,
      "learning_rate": 5e-06,
      "loss": 0.8842,
      "num_input_tokens_seen": 542379648,
      "step": 4294
    },
    {
      "epoch": 1.1015199127813762,
      "loss": 1.1123526096343994,
      "loss_ce": 0.006151500158011913,
      "loss_iou": 0.5,
      "loss_num": 0.021484375,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 542379648,
      "step": 4294
    },
    {
      "epoch": 1.1017764381453217,
      "grad_norm": 28.39433479309082,
      "learning_rate": 5e-06,
      "loss": 0.8804,
      "num_input_tokens_seen": 542505184,
      "step": 4295
    },
    {
      "epoch": 1.1017764381453217,
      "loss": 0.9964362382888794,
      "loss_ce": 0.00034247367875650525,
      "loss_iou": 0.45703125,
      "loss_num": 0.016357421875,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 542505184,
      "step": 4295
    },
    {
      "epoch": 1.102032963509267,
      "grad_norm": 23.99445343017578,
      "learning_rate": 5e-06,
      "loss": 0.7401,
      "num_input_tokens_seen": 542631336,
      "step": 4296
    },
    {
      "epoch": 1.102032963509267,
      "loss": 0.7546756267547607,
      "loss_ce": 0.002478391397744417,
      "loss_iou": 0.353515625,
      "loss_num": 0.00885009765625,
      "loss_xval": 0.75390625,
      "num_input_tokens_seen": 542631336,
      "step": 4296
    },
    {
      "epoch": 1.1022894888732124,
      "grad_norm": 26.39970588684082,
      "learning_rate": 5e-06,
      "loss": 0.908,
      "num_input_tokens_seen": 542758280,
      "step": 4297
    },
    {
      "epoch": 1.1022894888732124,
      "loss": 0.8445360064506531,
      "loss_ce": 0.005668806377798319,
      "loss_iou": 0.369140625,
      "loss_num": 0.019775390625,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 542758280,
      "step": 4297
    },
    {
      "epoch": 1.1025460142371577,
      "grad_norm": 18.303077697753906,
      "learning_rate": 5e-06,
      "loss": 0.9792,
      "num_input_tokens_seen": 542883528,
      "step": 4298
    },
    {
      "epoch": 1.1025460142371577,
      "loss": 1.1276503801345825,
      "loss_ce": 0.00020899563969578594,
      "loss_iou": 0.51953125,
      "loss_num": 0.017822265625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 542883528,
      "step": 4298
    },
    {
      "epoch": 1.102802539601103,
      "grad_norm": 23.197484970092773,
      "learning_rate": 5e-06,
      "loss": 0.774,
      "num_input_tokens_seen": 543010680,
      "step": 4299
    },
    {
      "epoch": 1.102802539601103,
      "loss": 0.900610625743866,
      "loss_ce": 0.0036379829980432987,
      "loss_iou": 0.4140625,
      "loss_num": 0.0137939453125,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 543010680,
      "step": 4299
    },
    {
      "epoch": 1.1030590649650485,
      "grad_norm": 25.959684371948242,
      "learning_rate": 5e-06,
      "loss": 0.9188,
      "num_input_tokens_seen": 543137940,
      "step": 4300
    },
    {
      "epoch": 1.1030590649650485,
      "loss": 1.1069316864013672,
      "loss_ce": 0.0024394006468355656,
      "loss_iou": 0.5,
      "loss_num": 0.020263671875,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 543137940,
      "step": 4300
    },
    {
      "epoch": 1.1033155903289937,
      "grad_norm": 28.61568260192871,
      "learning_rate": 5e-06,
      "loss": 0.7797,
      "num_input_tokens_seen": 543263064,
      "step": 4301
    },
    {
      "epoch": 1.1033155903289937,
      "loss": 0.7574151754379272,
      "loss_ce": 0.0015558232553303242,
      "loss_iou": 0.361328125,
      "loss_num": 0.006561279296875,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 543263064,
      "step": 4301
    },
    {
      "epoch": 1.1035721156929392,
      "grad_norm": 36.354576110839844,
      "learning_rate": 5e-06,
      "loss": 0.9081,
      "num_input_tokens_seen": 543390520,
      "step": 4302
    },
    {
      "epoch": 1.1035721156929392,
      "loss": 0.7381107807159424,
      "loss_ce": 0.0008061382686719298,
      "loss_iou": 0.353515625,
      "loss_num": 0.005950927734375,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 543390520,
      "step": 4302
    },
    {
      "epoch": 1.1038286410568845,
      "grad_norm": 45.602210998535156,
      "learning_rate": 5e-06,
      "loss": 0.9825,
      "num_input_tokens_seen": 543516312,
      "step": 4303
    },
    {
      "epoch": 1.1038286410568845,
      "loss": 0.8675527572631836,
      "loss_ce": 0.0006093965494073927,
      "loss_iou": 0.404296875,
      "loss_num": 0.01202392578125,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 543516312,
      "step": 4303
    },
    {
      "epoch": 1.1040851664208298,
      "grad_norm": 91.75167083740234,
      "learning_rate": 5e-06,
      "loss": 0.8958,
      "num_input_tokens_seen": 543642356,
      "step": 4304
    },
    {
      "epoch": 1.1040851664208298,
      "loss": 1.0318009853363037,
      "loss_ce": 0.0010393330594524741,
      "loss_iou": 0.458984375,
      "loss_num": 0.02294921875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 543642356,
      "step": 4304
    },
    {
      "epoch": 1.1043416917847753,
      "grad_norm": 50.707435607910156,
      "learning_rate": 5e-06,
      "loss": 0.8799,
      "num_input_tokens_seen": 543770108,
      "step": 4305
    },
    {
      "epoch": 1.1043416917847753,
      "loss": 0.827349841594696,
      "loss_ce": 0.0009337865631096065,
      "loss_iou": 0.384765625,
      "loss_num": 0.01165771484375,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 543770108,
      "step": 4305
    },
    {
      "epoch": 1.1045982171487205,
      "grad_norm": 43.76702880859375,
      "learning_rate": 5e-06,
      "loss": 0.77,
      "num_input_tokens_seen": 543895832,
      "step": 4306
    },
    {
      "epoch": 1.1045982171487205,
      "loss": 0.727180540561676,
      "loss_ce": 0.0020829015411436558,
      "loss_iou": 0.345703125,
      "loss_num": 0.006744384765625,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 543895832,
      "step": 4306
    },
    {
      "epoch": 1.104854742512666,
      "grad_norm": 37.87589645385742,
      "learning_rate": 5e-06,
      "loss": 0.846,
      "num_input_tokens_seen": 544022276,
      "step": 4307
    },
    {
      "epoch": 1.104854742512666,
      "loss": 0.8235594630241394,
      "loss_ce": 0.000317238038405776,
      "loss_iou": 0.3828125,
      "loss_num": 0.0113525390625,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 544022276,
      "step": 4307
    },
    {
      "epoch": 1.1051112678766113,
      "grad_norm": 43.56135177612305,
      "learning_rate": 5e-06,
      "loss": 0.9064,
      "num_input_tokens_seen": 544148976,
      "step": 4308
    },
    {
      "epoch": 1.1051112678766113,
      "loss": 0.8506561517715454,
      "loss_ce": 0.0003143421490676701,
      "loss_iou": 0.396484375,
      "loss_num": 0.01141357421875,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 544148976,
      "step": 4308
    },
    {
      "epoch": 1.1053677932405566,
      "grad_norm": 43.42847442626953,
      "learning_rate": 5e-06,
      "loss": 0.8481,
      "num_input_tokens_seen": 544274960,
      "step": 4309
    },
    {
      "epoch": 1.1053677932405566,
      "loss": 0.7657710909843445,
      "loss_ce": 0.0006343668792396784,
      "loss_iou": 0.369140625,
      "loss_num": 0.005401611328125,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 544274960,
      "step": 4309
    },
    {
      "epoch": 1.105624318604502,
      "grad_norm": 35.625308990478516,
      "learning_rate": 5e-06,
      "loss": 0.8821,
      "num_input_tokens_seen": 544400900,
      "step": 4310
    },
    {
      "epoch": 1.105624318604502,
      "loss": 1.0252317190170288,
      "loss_ce": 0.0005735588492825627,
      "loss_iou": 0.46875,
      "loss_num": 0.0172119140625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 544400900,
      "step": 4310
    },
    {
      "epoch": 1.1058808439684473,
      "grad_norm": 48.231136322021484,
      "learning_rate": 5e-06,
      "loss": 0.8841,
      "num_input_tokens_seen": 544526980,
      "step": 4311
    },
    {
      "epoch": 1.1058808439684473,
      "loss": 0.9105788469314575,
      "loss_ce": 0.002619875594973564,
      "loss_iou": 0.40234375,
      "loss_num": 0.0205078125,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 544526980,
      "step": 4311
    },
    {
      "epoch": 1.1061373693323928,
      "grad_norm": 55.390167236328125,
      "learning_rate": 5e-06,
      "loss": 0.8102,
      "num_input_tokens_seen": 544653632,
      "step": 4312
    },
    {
      "epoch": 1.1061373693323928,
      "loss": 0.788372278213501,
      "loss_ce": 0.003704322502017021,
      "loss_iou": 0.36328125,
      "loss_num": 0.01165771484375,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 544653632,
      "step": 4312
    },
    {
      "epoch": 1.106393894696338,
      "grad_norm": 35.091670989990234,
      "learning_rate": 5e-06,
      "loss": 1.0184,
      "num_input_tokens_seen": 544779380,
      "step": 4313
    },
    {
      "epoch": 1.106393894696338,
      "loss": 0.9373239278793335,
      "loss_ce": 0.0010446407832205296,
      "loss_iou": 0.431640625,
      "loss_num": 0.01470947265625,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 544779380,
      "step": 4313
    },
    {
      "epoch": 1.1066504200602834,
      "grad_norm": 30.846092224121094,
      "learning_rate": 5e-06,
      "loss": 0.8725,
      "num_input_tokens_seen": 544905788,
      "step": 4314
    },
    {
      "epoch": 1.1066504200602834,
      "loss": 0.9354002475738525,
      "loss_ce": 0.00034161435905843973,
      "loss_iou": 0.44140625,
      "loss_num": 0.01007080078125,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 544905788,
      "step": 4314
    },
    {
      "epoch": 1.1069069454242288,
      "grad_norm": 47.69921875,
      "learning_rate": 5e-06,
      "loss": 0.8348,
      "num_input_tokens_seen": 545032256,
      "step": 4315
    },
    {
      "epoch": 1.1069069454242288,
      "loss": 0.8526338338851929,
      "loss_ce": 0.001803714083507657,
      "loss_iou": 0.390625,
      "loss_num": 0.01416015625,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 545032256,
      "step": 4315
    },
    {
      "epoch": 1.1071634707881741,
      "grad_norm": 84.14291381835938,
      "learning_rate": 5e-06,
      "loss": 0.9106,
      "num_input_tokens_seen": 545159704,
      "step": 4316
    },
    {
      "epoch": 1.1071634707881741,
      "loss": 0.8474912643432617,
      "loss_ce": 0.001055678236298263,
      "loss_iou": 0.396484375,
      "loss_num": 0.01092529296875,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 545159704,
      "step": 4316
    },
    {
      "epoch": 1.1074199961521196,
      "grad_norm": 45.74492645263672,
      "learning_rate": 5e-06,
      "loss": 0.8932,
      "num_input_tokens_seen": 545285364,
      "step": 4317
    },
    {
      "epoch": 1.1074199961521196,
      "loss": 0.8470907211303711,
      "loss_ce": 0.0008993504452519119,
      "loss_iou": 0.3984375,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 545285364,
      "step": 4317
    },
    {
      "epoch": 1.1076765215160649,
      "grad_norm": 41.20510482788086,
      "learning_rate": 5e-06,
      "loss": 0.8304,
      "num_input_tokens_seen": 545412204,
      "step": 4318
    },
    {
      "epoch": 1.1076765215160649,
      "loss": 1.028680682182312,
      "loss_ce": 0.0013370290398597717,
      "loss_iou": 0.4765625,
      "loss_num": 0.01544189453125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 545412204,
      "step": 4318
    },
    {
      "epoch": 1.1079330468800102,
      "grad_norm": 49.92390060424805,
      "learning_rate": 5e-06,
      "loss": 0.8388,
      "num_input_tokens_seen": 545538508,
      "step": 4319
    },
    {
      "epoch": 1.1079330468800102,
      "loss": 0.8438367247581482,
      "loss_ce": 8.673957199789584e-05,
      "loss_iou": 0.404296875,
      "loss_num": 0.00701904296875,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 545538508,
      "step": 4319
    },
    {
      "epoch": 1.1081895722439556,
      "grad_norm": 41.34299850463867,
      "learning_rate": 5e-06,
      "loss": 0.9655,
      "num_input_tokens_seen": 545665048,
      "step": 4320
    },
    {
      "epoch": 1.1081895722439556,
      "loss": 0.9609396457672119,
      "loss_ce": 0.0021993510890752077,
      "loss_iou": 0.43359375,
      "loss_num": 0.0179443359375,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 545665048,
      "step": 4320
    },
    {
      "epoch": 1.108446097607901,
      "grad_norm": 42.18601989746094,
      "learning_rate": 5e-06,
      "loss": 0.7357,
      "num_input_tokens_seen": 545790824,
      "step": 4321
    },
    {
      "epoch": 1.108446097607901,
      "loss": 0.7437649965286255,
      "loss_ce": 0.0001126947026932612,
      "loss_iou": 0.3515625,
      "loss_num": 0.00787353515625,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 545790824,
      "step": 4321
    },
    {
      "epoch": 1.1087026229718464,
      "grad_norm": 55.76960372924805,
      "learning_rate": 5e-06,
      "loss": 0.9227,
      "num_input_tokens_seen": 545915996,
      "step": 4322
    },
    {
      "epoch": 1.1087026229718464,
      "loss": 0.8311585187911987,
      "loss_ce": 0.00010382455366197973,
      "loss_iou": 0.39453125,
      "loss_num": 0.0087890625,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 545915996,
      "step": 4322
    },
    {
      "epoch": 1.1089591483357917,
      "grad_norm": 47.57638168334961,
      "learning_rate": 5e-06,
      "loss": 0.9503,
      "num_input_tokens_seen": 546042392,
      "step": 4323
    },
    {
      "epoch": 1.1089591483357917,
      "loss": 1.0606603622436523,
      "loss_ce": 0.0006017279229126871,
      "loss_iou": 0.484375,
      "loss_num": 0.0185546875,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 546042392,
      "step": 4323
    },
    {
      "epoch": 1.1092156736997372,
      "grad_norm": 23.349313735961914,
      "learning_rate": 5e-06,
      "loss": 0.7945,
      "num_input_tokens_seen": 546168972,
      "step": 4324
    },
    {
      "epoch": 1.1092156736997372,
      "loss": 0.9148021936416626,
      "loss_ce": 0.0007397367735393345,
      "loss_iou": 0.427734375,
      "loss_num": 0.01177978515625,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 546168972,
      "step": 4324
    },
    {
      "epoch": 1.1094721990636824,
      "grad_norm": 30.05824089050293,
      "learning_rate": 5e-06,
      "loss": 0.91,
      "num_input_tokens_seen": 546294420,
      "step": 4325
    },
    {
      "epoch": 1.1094721990636824,
      "loss": 1.0125209093093872,
      "loss_ce": 0.0008021629182621837,
      "loss_iou": 0.48828125,
      "loss_num": 0.007476806640625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 546294420,
      "step": 4325
    },
    {
      "epoch": 1.1097287244276277,
      "grad_norm": 38.878639221191406,
      "learning_rate": 5e-06,
      "loss": 0.838,
      "num_input_tokens_seen": 546420720,
      "step": 4326
    },
    {
      "epoch": 1.1097287244276277,
      "loss": 0.8379665613174438,
      "loss_ce": 7.59649119572714e-05,
      "loss_iou": 0.396484375,
      "loss_num": 0.009033203125,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 546420720,
      "step": 4326
    },
    {
      "epoch": 1.1099852497915732,
      "grad_norm": 36.23270034790039,
      "learning_rate": 5e-06,
      "loss": 0.9309,
      "num_input_tokens_seen": 546545608,
      "step": 4327
    },
    {
      "epoch": 1.1099852497915732,
      "loss": 1.082977056503296,
      "loss_ce": 0.0010678669204935431,
      "loss_iou": 0.50390625,
      "loss_num": 0.0150146484375,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 546545608,
      "step": 4327
    },
    {
      "epoch": 1.1102417751555185,
      "grad_norm": 30.02294921875,
      "learning_rate": 5e-06,
      "loss": 0.9254,
      "num_input_tokens_seen": 546671504,
      "step": 4328
    },
    {
      "epoch": 1.1102417751555185,
      "loss": 1.0396860837936401,
      "loss_ce": 0.00013527771807275712,
      "loss_iou": 0.48828125,
      "loss_num": 0.0125732421875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 546671504,
      "step": 4328
    },
    {
      "epoch": 1.110498300519464,
      "grad_norm": 38.41831970214844,
      "learning_rate": 5e-06,
      "loss": 0.7806,
      "num_input_tokens_seen": 546798088,
      "step": 4329
    },
    {
      "epoch": 1.110498300519464,
      "loss": 0.7459325790405273,
      "loss_ce": 0.0005712311249226332,
      "loss_iou": 0.34375,
      "loss_num": 0.011962890625,
      "loss_xval": 0.74609375,
      "num_input_tokens_seen": 546798088,
      "step": 4329
    },
    {
      "epoch": 1.1107548258834092,
      "grad_norm": 64.88684844970703,
      "learning_rate": 5e-06,
      "loss": 0.7683,
      "num_input_tokens_seen": 546925776,
      "step": 4330
    },
    {
      "epoch": 1.1107548258834092,
      "loss": 0.7801439762115479,
      "loss_ce": 0.0010911995777860284,
      "loss_iou": 0.365234375,
      "loss_num": 0.0096435546875,
      "loss_xval": 0.77734375,
      "num_input_tokens_seen": 546925776,
      "step": 4330
    },
    {
      "epoch": 1.1110113512473545,
      "grad_norm": 48.632659912109375,
      "learning_rate": 5e-06,
      "loss": 1.0049,
      "num_input_tokens_seen": 547053120,
      "step": 4331
    },
    {
      "epoch": 1.1110113512473545,
      "loss": 0.9485212564468384,
      "loss_ce": 0.00027907907497137785,
      "loss_iou": 0.44921875,
      "loss_num": 0.010009765625,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 547053120,
      "step": 4331
    },
    {
      "epoch": 1.1112678766113,
      "grad_norm": 36.08280563354492,
      "learning_rate": 5e-06,
      "loss": 0.8086,
      "num_input_tokens_seen": 547179528,
      "step": 4332
    },
    {
      "epoch": 1.1112678766113,
      "loss": 0.7682315707206726,
      "loss_ce": 0.0008975934470072389,
      "loss_iou": 0.369140625,
      "loss_num": 0.005523681640625,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 547179528,
      "step": 4332
    },
    {
      "epoch": 1.1115244019752453,
      "grad_norm": 23.5977840423584,
      "learning_rate": 5e-06,
      "loss": 0.8733,
      "num_input_tokens_seen": 547305424,
      "step": 4333
    },
    {
      "epoch": 1.1115244019752453,
      "loss": 0.7772883176803589,
      "loss_ce": 0.00043281036778353155,
      "loss_iou": 0.365234375,
      "loss_num": 0.009033203125,
      "loss_xval": 0.77734375,
      "num_input_tokens_seen": 547305424,
      "step": 4333
    },
    {
      "epoch": 1.1117809273391908,
      "grad_norm": 22.18503761291504,
      "learning_rate": 5e-06,
      "loss": 0.8892,
      "num_input_tokens_seen": 547431468,
      "step": 4334
    },
    {
      "epoch": 1.1117809273391908,
      "loss": 0.8320704698562622,
      "loss_ce": 0.0005274790455587208,
      "loss_iou": 0.375,
      "loss_num": 0.0162353515625,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 547431468,
      "step": 4334
    },
    {
      "epoch": 1.112037452703136,
      "grad_norm": 29.73309326171875,
      "learning_rate": 5e-06,
      "loss": 0.8016,
      "num_input_tokens_seen": 547558356,
      "step": 4335
    },
    {
      "epoch": 1.112037452703136,
      "loss": 0.8512779474258423,
      "loss_ce": 0.0006919445586390793,
      "loss_iou": 0.40234375,
      "loss_num": 0.00885009765625,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 547558356,
      "step": 4335
    },
    {
      "epoch": 1.1122939780670813,
      "grad_norm": 39.437191009521484,
      "learning_rate": 5e-06,
      "loss": 0.9088,
      "num_input_tokens_seen": 547683576,
      "step": 4336
    },
    {
      "epoch": 1.1122939780670813,
      "loss": 1.0593878030776978,
      "loss_ce": 0.0007940260693430901,
      "loss_iou": 0.48046875,
      "loss_num": 0.0198974609375,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 547683576,
      "step": 4336
    },
    {
      "epoch": 1.1125505034310268,
      "grad_norm": 43.902976989746094,
      "learning_rate": 5e-06,
      "loss": 0.8705,
      "num_input_tokens_seen": 547809848,
      "step": 4337
    },
    {
      "epoch": 1.1125505034310268,
      "loss": 0.778790295124054,
      "loss_ce": 0.002178991213440895,
      "loss_iou": 0.359375,
      "loss_num": 0.01190185546875,
      "loss_xval": 0.77734375,
      "num_input_tokens_seen": 547809848,
      "step": 4337
    },
    {
      "epoch": 1.112807028794972,
      "grad_norm": 63.915199279785156,
      "learning_rate": 5e-06,
      "loss": 0.9543,
      "num_input_tokens_seen": 547936576,
      "step": 4338
    },
    {
      "epoch": 1.112807028794972,
      "loss": 1.026183009147644,
      "loss_ce": 0.0007924425881356001,
      "loss_iou": 0.46484375,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 547936576,
      "step": 4338
    },
    {
      "epoch": 1.1130635541589176,
      "grad_norm": 41.193145751953125,
      "learning_rate": 5e-06,
      "loss": 0.922,
      "num_input_tokens_seen": 548061560,
      "step": 4339
    },
    {
      "epoch": 1.1130635541589176,
      "loss": 0.8346478939056396,
      "loss_ce": 0.0006635297322645783,
      "loss_iou": 0.392578125,
      "loss_num": 0.009765625,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 548061560,
      "step": 4339
    },
    {
      "epoch": 1.1133200795228628,
      "grad_norm": 15.18467903137207,
      "learning_rate": 5e-06,
      "loss": 0.824,
      "num_input_tokens_seen": 548187144,
      "step": 4340
    },
    {
      "epoch": 1.1133200795228628,
      "loss": 0.7874307036399841,
      "loss_ce": 0.000809607794508338,
      "loss_iou": 0.35546875,
      "loss_num": 0.01507568359375,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 548187144,
      "step": 4340
    },
    {
      "epoch": 1.113576604886808,
      "grad_norm": 16.0417423248291,
      "learning_rate": 5e-06,
      "loss": 0.8983,
      "num_input_tokens_seen": 548312424,
      "step": 4341
    },
    {
      "epoch": 1.113576604886808,
      "loss": 1.070455551147461,
      "loss_ce": 0.002096222247928381,
      "loss_iou": 0.48828125,
      "loss_num": 0.01806640625,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 548312424,
      "step": 4341
    },
    {
      "epoch": 1.1138331302507536,
      "grad_norm": 29.132429122924805,
      "learning_rate": 5e-06,
      "loss": 0.8498,
      "num_input_tokens_seen": 548439744,
      "step": 4342
    },
    {
      "epoch": 1.1138331302507536,
      "loss": 1.0245627164840698,
      "loss_ce": 0.0035666569601744413,
      "loss_iou": 0.4453125,
      "loss_num": 0.0262451171875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 548439744,
      "step": 4342
    },
    {
      "epoch": 1.1140896556146989,
      "grad_norm": 57.43910217285156,
      "learning_rate": 5e-06,
      "loss": 0.8075,
      "num_input_tokens_seen": 548565996,
      "step": 4343
    },
    {
      "epoch": 1.1140896556146989,
      "loss": 0.7767149806022644,
      "loss_ce": 0.00034781708382070065,
      "loss_iou": 0.359375,
      "loss_num": 0.011474609375,
      "loss_xval": 0.77734375,
      "num_input_tokens_seen": 548565996,
      "step": 4343
    },
    {
      "epoch": 1.1143461809786444,
      "grad_norm": 46.432334899902344,
      "learning_rate": 5e-06,
      "loss": 0.9115,
      "num_input_tokens_seen": 548691336,
      "step": 4344
    },
    {
      "epoch": 1.1143461809786444,
      "loss": 0.9542741775512695,
      "loss_ce": 0.00017260274034924805,
      "loss_iou": 0.447265625,
      "loss_num": 0.0123291015625,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 548691336,
      "step": 4344
    },
    {
      "epoch": 1.1146027063425896,
      "grad_norm": 45.6448974609375,
      "learning_rate": 5e-06,
      "loss": 0.8134,
      "num_input_tokens_seen": 548818332,
      "step": 4345
    },
    {
      "epoch": 1.1146027063425896,
      "loss": 0.8319808840751648,
      "loss_ce": 0.001902785967104137,
      "loss_iou": 0.376953125,
      "loss_num": 0.01519775390625,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 548818332,
      "step": 4345
    },
    {
      "epoch": 1.114859231706535,
      "grad_norm": 44.381229400634766,
      "learning_rate": 5e-06,
      "loss": 0.8669,
      "num_input_tokens_seen": 548945232,
      "step": 4346
    },
    {
      "epoch": 1.114859231706535,
      "loss": 0.8497058153152466,
      "loss_ce": 0.0005846631247550249,
      "loss_iou": 0.39453125,
      "loss_num": 0.01171875,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 548945232,
      "step": 4346
    },
    {
      "epoch": 1.1151157570704804,
      "grad_norm": 50.7393798828125,
      "learning_rate": 5e-06,
      "loss": 0.9095,
      "num_input_tokens_seen": 549071388,
      "step": 4347
    },
    {
      "epoch": 1.1151157570704804,
      "loss": 0.875673770904541,
      "loss_ce": 0.0006737565854564309,
      "loss_iou": 0.416015625,
      "loss_num": 0.00836181640625,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 549071388,
      "step": 4347
    },
    {
      "epoch": 1.1153722824344257,
      "grad_norm": 42.75398635864258,
      "learning_rate": 5e-06,
      "loss": 0.8838,
      "num_input_tokens_seen": 549199352,
      "step": 4348
    },
    {
      "epoch": 1.1153722824344257,
      "loss": 0.9345332384109497,
      "loss_ce": 0.0011835902696475387,
      "loss_iou": 0.4140625,
      "loss_num": 0.0208740234375,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 549199352,
      "step": 4348
    },
    {
      "epoch": 1.1156288077983711,
      "grad_norm": 42.85823440551758,
      "learning_rate": 5e-06,
      "loss": 0.7838,
      "num_input_tokens_seen": 549325656,
      "step": 4349
    },
    {
      "epoch": 1.1156288077983711,
      "loss": 0.7038822174072266,
      "loss_ce": 0.0014896478969603777,
      "loss_iou": 0.33984375,
      "loss_num": 0.0047607421875,
      "loss_xval": 0.703125,
      "num_input_tokens_seen": 549325656,
      "step": 4349
    },
    {
      "epoch": 1.1158853331623164,
      "grad_norm": 49.983821868896484,
      "learning_rate": 5e-06,
      "loss": 0.7953,
      "num_input_tokens_seen": 549452284,
      "step": 4350
    },
    {
      "epoch": 1.1158853331623164,
      "loss": 0.7098771929740906,
      "loss_ce": 0.00016040733316913247,
      "loss_iou": 0.341796875,
      "loss_num": 0.005615234375,
      "loss_xval": 0.7109375,
      "num_input_tokens_seen": 549452284,
      "step": 4350
    },
    {
      "epoch": 1.1161418585262617,
      "grad_norm": 52.36488723754883,
      "learning_rate": 5e-06,
      "loss": 0.8923,
      "num_input_tokens_seen": 549579272,
      "step": 4351
    },
    {
      "epoch": 1.1161418585262617,
      "loss": 0.99235999584198,
      "loss_ce": 0.0001725416659610346,
      "loss_iou": 0.44921875,
      "loss_num": 0.0185546875,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 549579272,
      "step": 4351
    },
    {
      "epoch": 1.1163983838902072,
      "grad_norm": 42.4118766784668,
      "learning_rate": 5e-06,
      "loss": 1.0615,
      "num_input_tokens_seen": 549706340,
      "step": 4352
    },
    {
      "epoch": 1.1163983838902072,
      "loss": 1.2037432193756104,
      "loss_ce": 0.002571369521319866,
      "loss_iou": 0.52734375,
      "loss_num": 0.0294189453125,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 549706340,
      "step": 4352
    },
    {
      "epoch": 1.1166549092541525,
      "grad_norm": 40.351776123046875,
      "learning_rate": 5e-06,
      "loss": 0.8098,
      "num_input_tokens_seen": 549833780,
      "step": 4353
    },
    {
      "epoch": 1.1166549092541525,
      "loss": 0.8293738961219788,
      "loss_ce": 0.001248902059160173,
      "loss_iou": 0.3828125,
      "loss_num": 0.0123291015625,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 549833780,
      "step": 4353
    },
    {
      "epoch": 1.116911434618098,
      "grad_norm": 48.80207824707031,
      "learning_rate": 5e-06,
      "loss": 0.9824,
      "num_input_tokens_seen": 549961556,
      "step": 4354
    },
    {
      "epoch": 1.116911434618098,
      "loss": 1.1541458368301392,
      "loss_ce": 0.001802100334316492,
      "loss_iou": 0.53125,
      "loss_num": 0.0181884765625,
      "loss_xval": 1.15625,
      "num_input_tokens_seen": 549961556,
      "step": 4354
    },
    {
      "epoch": 1.1171679599820432,
      "grad_norm": 46.95970153808594,
      "learning_rate": 5e-06,
      "loss": 0.7989,
      "num_input_tokens_seen": 550088136,
      "step": 4355
    },
    {
      "epoch": 1.1171679599820432,
      "loss": 0.9718947410583496,
      "loss_ce": 0.003144698217511177,
      "loss_iou": 0.421875,
      "loss_num": 0.0252685546875,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 550088136,
      "step": 4355
    },
    {
      "epoch": 1.1174244853459885,
      "grad_norm": 40.880516052246094,
      "learning_rate": 5e-06,
      "loss": 0.9483,
      "num_input_tokens_seen": 550214248,
      "step": 4356
    },
    {
      "epoch": 1.1174244853459885,
      "loss": 0.7997308969497681,
      "loss_ce": 0.001146951923146844,
      "loss_iou": 0.359375,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 550214248,
      "step": 4356
    },
    {
      "epoch": 1.117681010709934,
      "grad_norm": 44.80527877807617,
      "learning_rate": 5e-06,
      "loss": 0.9267,
      "num_input_tokens_seen": 550341020,
      "step": 4357
    },
    {
      "epoch": 1.117681010709934,
      "loss": 0.9524534344673157,
      "loss_ce": 0.0012815501540899277,
      "loss_iou": 0.431640625,
      "loss_num": 0.017578125,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 550341020,
      "step": 4357
    },
    {
      "epoch": 1.1179375360738792,
      "grad_norm": 44.82581329345703,
      "learning_rate": 5e-06,
      "loss": 0.8198,
      "num_input_tokens_seen": 550467328,
      "step": 4358
    },
    {
      "epoch": 1.1179375360738792,
      "loss": 0.8152981996536255,
      "loss_ce": 0.0013334134127944708,
      "loss_iou": 0.384765625,
      "loss_num": 0.00927734375,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 550467328,
      "step": 4358
    },
    {
      "epoch": 1.1181940614378247,
      "grad_norm": 45.86843490600586,
      "learning_rate": 5e-06,
      "loss": 0.8333,
      "num_input_tokens_seen": 550592892,
      "step": 4359
    },
    {
      "epoch": 1.1181940614378247,
      "loss": 0.8417699337005615,
      "loss_ce": 0.002170381834730506,
      "loss_iou": 0.40234375,
      "loss_num": 0.006805419921875,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 550592892,
      "step": 4359
    },
    {
      "epoch": 1.11845058680177,
      "grad_norm": 31.5723819732666,
      "learning_rate": 5e-06,
      "loss": 0.9584,
      "num_input_tokens_seen": 550718484,
      "step": 4360
    },
    {
      "epoch": 1.11845058680177,
      "loss": 0.8775990009307861,
      "loss_ce": 0.0004017712199129164,
      "loss_iou": 0.41015625,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 550718484,
      "step": 4360
    },
    {
      "epoch": 1.1187071121657155,
      "grad_norm": 25.42947769165039,
      "learning_rate": 5e-06,
      "loss": 0.8516,
      "num_input_tokens_seen": 550844716,
      "step": 4361
    },
    {
      "epoch": 1.1187071121657155,
      "loss": 0.9348640441894531,
      "loss_ce": 0.001026150188408792,
      "loss_iou": 0.421875,
      "loss_num": 0.018310546875,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 550844716,
      "step": 4361
    },
    {
      "epoch": 1.1189636375296608,
      "grad_norm": 37.81428909301758,
      "learning_rate": 5e-06,
      "loss": 0.8755,
      "num_input_tokens_seen": 550971596,
      "step": 4362
    },
    {
      "epoch": 1.1189636375296608,
      "loss": 0.9227215051651001,
      "loss_ce": 0.0013348252978175879,
      "loss_iou": 0.42578125,
      "loss_num": 0.013916015625,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 550971596,
      "step": 4362
    },
    {
      "epoch": 1.119220162893606,
      "grad_norm": 50.570152282714844,
      "learning_rate": 5e-06,
      "loss": 0.8338,
      "num_input_tokens_seen": 551096720,
      "step": 4363
    },
    {
      "epoch": 1.119220162893606,
      "loss": 0.8676013946533203,
      "loss_ce": 0.0023670385126024485,
      "loss_iou": 0.39453125,
      "loss_num": 0.0150146484375,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 551096720,
      "step": 4363
    },
    {
      "epoch": 1.1194766882575515,
      "grad_norm": 48.67875289916992,
      "learning_rate": 5e-06,
      "loss": 0.8746,
      "num_input_tokens_seen": 551222668,
      "step": 4364
    },
    {
      "epoch": 1.1194766882575515,
      "loss": 0.7082058191299438,
      "loss_ce": 0.0016628922894597054,
      "loss_iou": 0.326171875,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.70703125,
      "num_input_tokens_seen": 551222668,
      "step": 4364
    },
    {
      "epoch": 1.1197332136214968,
      "grad_norm": 55.56336212158203,
      "learning_rate": 5e-06,
      "loss": 0.9132,
      "num_input_tokens_seen": 551349372,
      "step": 4365
    },
    {
      "epoch": 1.1197332136214968,
      "loss": 0.9336636662483215,
      "loss_ce": 0.0010464995866641402,
      "loss_iou": 0.42578125,
      "loss_num": 0.01611328125,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 551349372,
      "step": 4365
    },
    {
      "epoch": 1.119989738985442,
      "grad_norm": 57.901336669921875,
      "learning_rate": 5e-06,
      "loss": 0.9009,
      "num_input_tokens_seen": 551476308,
      "step": 4366
    },
    {
      "epoch": 1.119989738985442,
      "loss": 1.0617588758468628,
      "loss_ce": 0.001700288848951459,
      "loss_iou": 0.50390625,
      "loss_num": 0.0107421875,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 551476308,
      "step": 4366
    },
    {
      "epoch": 1.1202462643493876,
      "grad_norm": 53.584716796875,
      "learning_rate": 5e-06,
      "loss": 0.9056,
      "num_input_tokens_seen": 551602616,
      "step": 4367
    },
    {
      "epoch": 1.1202462643493876,
      "loss": 0.891726553440094,
      "loss_ce": 0.00012495940609369427,
      "loss_iou": 0.423828125,
      "loss_num": 0.0087890625,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 551602616,
      "step": 4367
    },
    {
      "epoch": 1.1205027897133328,
      "grad_norm": 44.50483703613281,
      "learning_rate": 5e-06,
      "loss": 0.92,
      "num_input_tokens_seen": 551728364,
      "step": 4368
    },
    {
      "epoch": 1.1205027897133328,
      "loss": 0.9803924560546875,
      "loss_ce": 0.00041199952829629183,
      "loss_iou": 0.45703125,
      "loss_num": 0.01336669921875,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 551728364,
      "step": 4368
    },
    {
      "epoch": 1.1207593150772783,
      "grad_norm": 37.173744201660156,
      "learning_rate": 5e-06,
      "loss": 0.8246,
      "num_input_tokens_seen": 551854700,
      "step": 4369
    },
    {
      "epoch": 1.1207593150772783,
      "loss": 0.9545555114746094,
      "loss_ce": 0.0004539501969702542,
      "loss_iou": 0.439453125,
      "loss_num": 0.0155029296875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 551854700,
      "step": 4369
    },
    {
      "epoch": 1.1210158404412236,
      "grad_norm": 44.56998825073242,
      "learning_rate": 5e-06,
      "loss": 0.9118,
      "num_input_tokens_seen": 551980588,
      "step": 4370
    },
    {
      "epoch": 1.1210158404412236,
      "loss": 0.8184912800788879,
      "loss_ce": 0.00013190042227506638,
      "loss_iou": 0.38671875,
      "loss_num": 0.0091552734375,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 551980588,
      "step": 4370
    },
    {
      "epoch": 1.121272365805169,
      "grad_norm": 38.713741302490234,
      "learning_rate": 5e-06,
      "loss": 0.9,
      "num_input_tokens_seen": 552106076,
      "step": 4371
    },
    {
      "epoch": 1.121272365805169,
      "loss": 0.8636499047279358,
      "loss_ce": 0.0001245239982381463,
      "loss_iou": 0.400390625,
      "loss_num": 0.01239013671875,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 552106076,
      "step": 4371
    },
    {
      "epoch": 1.1215288911691144,
      "grad_norm": 30.864137649536133,
      "learning_rate": 5e-06,
      "loss": 0.9205,
      "num_input_tokens_seen": 552231528,
      "step": 4372
    },
    {
      "epoch": 1.1215288911691144,
      "loss": 0.9976637959480286,
      "loss_ce": 0.001081775058992207,
      "loss_iou": 0.455078125,
      "loss_num": 0.01708984375,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 552231528,
      "step": 4372
    },
    {
      "epoch": 1.1217854165330596,
      "grad_norm": 29.91069984436035,
      "learning_rate": 5e-06,
      "loss": 0.913,
      "num_input_tokens_seen": 552357680,
      "step": 4373
    },
    {
      "epoch": 1.1217854165330596,
      "loss": 0.9998218417167664,
      "loss_ce": 0.0007983618415892124,
      "loss_iou": 0.45703125,
      "loss_num": 0.016845703125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 552357680,
      "step": 4373
    },
    {
      "epoch": 1.1220419418970051,
      "grad_norm": 34.38151550292969,
      "learning_rate": 5e-06,
      "loss": 0.8808,
      "num_input_tokens_seen": 552483836,
      "step": 4374
    },
    {
      "epoch": 1.1220419418970051,
      "loss": 0.7624691724777222,
      "loss_ce": 0.0012386748567223549,
      "loss_iou": 0.361328125,
      "loss_num": 0.00799560546875,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 552483836,
      "step": 4374
    },
    {
      "epoch": 1.1222984672609504,
      "grad_norm": 41.12311935424805,
      "learning_rate": 5e-06,
      "loss": 0.8607,
      "num_input_tokens_seen": 552609852,
      "step": 4375
    },
    {
      "epoch": 1.1222984672609504,
      "loss": 0.8001327514648438,
      "loss_ce": 0.0003280199889559299,
      "loss_iou": 0.376953125,
      "loss_num": 0.009521484375,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 552609852,
      "step": 4375
    },
    {
      "epoch": 1.1225549926248959,
      "grad_norm": 49.13603210449219,
      "learning_rate": 5e-06,
      "loss": 0.8807,
      "num_input_tokens_seen": 552735908,
      "step": 4376
    },
    {
      "epoch": 1.1225549926248959,
      "loss": 0.9168971180915833,
      "loss_ce": 0.0018580653704702854,
      "loss_iou": 0.42578125,
      "loss_num": 0.0130615234375,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 552735908,
      "step": 4376
    },
    {
      "epoch": 1.1228115179888412,
      "grad_norm": 64.6429443359375,
      "learning_rate": 5e-06,
      "loss": 0.8666,
      "num_input_tokens_seen": 552862552,
      "step": 4377
    },
    {
      "epoch": 1.1228115179888412,
      "loss": 1.022615909576416,
      "loss_ce": 0.002596435835584998,
      "loss_iou": 0.46484375,
      "loss_num": 0.018310546875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 552862552,
      "step": 4377
    },
    {
      "epoch": 1.1230680433527864,
      "grad_norm": 39.24332046508789,
      "learning_rate": 5e-06,
      "loss": 0.8474,
      "num_input_tokens_seen": 552987532,
      "step": 4378
    },
    {
      "epoch": 1.1230680433527864,
      "loss": 0.8478530645370483,
      "loss_ce": 0.0009292476461268961,
      "loss_iou": 0.3984375,
      "loss_num": 0.01007080078125,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 552987532,
      "step": 4378
    },
    {
      "epoch": 1.123324568716732,
      "grad_norm": 19.18568992614746,
      "learning_rate": 5e-06,
      "loss": 0.7981,
      "num_input_tokens_seen": 553113336,
      "step": 4379
    },
    {
      "epoch": 1.123324568716732,
      "loss": 0.6219620108604431,
      "loss_ce": 0.00013583345571532845,
      "loss_iou": 0.30078125,
      "loss_num": 0.003692626953125,
      "loss_xval": 0.62109375,
      "num_input_tokens_seen": 553113336,
      "step": 4379
    },
    {
      "epoch": 1.1235810940806772,
      "grad_norm": 20.040058135986328,
      "learning_rate": 5e-06,
      "loss": 0.8888,
      "num_input_tokens_seen": 553240752,
      "step": 4380
    },
    {
      "epoch": 1.1235810940806772,
      "loss": 0.734830379486084,
      "loss_ce": 0.00021118266158737242,
      "loss_iou": 0.31640625,
      "loss_num": 0.0206298828125,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 553240752,
      "step": 4380
    },
    {
      "epoch": 1.1238376194446227,
      "grad_norm": 32.27317810058594,
      "learning_rate": 5e-06,
      "loss": 0.7715,
      "num_input_tokens_seen": 553366632,
      "step": 4381
    },
    {
      "epoch": 1.1238376194446227,
      "loss": 0.9068415760993958,
      "loss_ce": 0.002544699003919959,
      "loss_iou": 0.40625,
      "loss_num": 0.018310546875,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 553366632,
      "step": 4381
    },
    {
      "epoch": 1.124094144808568,
      "grad_norm": 30.0147647857666,
      "learning_rate": 5e-06,
      "loss": 0.8307,
      "num_input_tokens_seen": 553492428,
      "step": 4382
    },
    {
      "epoch": 1.124094144808568,
      "loss": 0.8747435808181763,
      "loss_ce": 0.0012084178160876036,
      "loss_iou": 0.40625,
      "loss_num": 0.012451171875,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 553492428,
      "step": 4382
    },
    {
      "epoch": 1.1243506701725132,
      "grad_norm": 30.49001693725586,
      "learning_rate": 5e-06,
      "loss": 0.874,
      "num_input_tokens_seen": 553618004,
      "step": 4383
    },
    {
      "epoch": 1.1243506701725132,
      "loss": 0.7560674548149109,
      "loss_ce": 0.00045218784362077713,
      "loss_iou": 0.353515625,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.75390625,
      "num_input_tokens_seen": 553618004,
      "step": 4383
    },
    {
      "epoch": 1.1246071955364587,
      "grad_norm": 25.693103790283203,
      "learning_rate": 5e-06,
      "loss": 0.8422,
      "num_input_tokens_seen": 553744816,
      "step": 4384
    },
    {
      "epoch": 1.1246071955364587,
      "loss": 0.9814960360527039,
      "loss_ce": 0.0002948415349237621,
      "loss_iou": 0.4453125,
      "loss_num": 0.01806640625,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 553744816,
      "step": 4384
    },
    {
      "epoch": 1.124863720900404,
      "grad_norm": 32.014095306396484,
      "learning_rate": 5e-06,
      "loss": 0.8295,
      "num_input_tokens_seen": 553872164,
      "step": 4385
    },
    {
      "epoch": 1.124863720900404,
      "loss": 0.6938352584838867,
      "loss_ce": 0.0046262736432254314,
      "loss_iou": 0.328125,
      "loss_num": 0.006500244140625,
      "loss_xval": 0.6875,
      "num_input_tokens_seen": 553872164,
      "step": 4385
    },
    {
      "epoch": 1.1251202462643495,
      "grad_norm": 38.43335723876953,
      "learning_rate": 5e-06,
      "loss": 0.9303,
      "num_input_tokens_seen": 553998316,
      "step": 4386
    },
    {
      "epoch": 1.1251202462643495,
      "loss": 0.8111484050750732,
      "loss_ce": 0.003531200345605612,
      "loss_iou": 0.38671875,
      "loss_num": 0.00634765625,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 553998316,
      "step": 4386
    },
    {
      "epoch": 1.1253767716282947,
      "grad_norm": 39.179443359375,
      "learning_rate": 5e-06,
      "loss": 0.7466,
      "num_input_tokens_seen": 554123560,
      "step": 4387
    },
    {
      "epoch": 1.1253767716282947,
      "loss": 0.8397973775863647,
      "loss_ce": 0.0009301979443989694,
      "loss_iou": 0.40234375,
      "loss_num": 0.007080078125,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 554123560,
      "step": 4387
    },
    {
      "epoch": 1.12563329699224,
      "grad_norm": 41.7021369934082,
      "learning_rate": 5e-06,
      "loss": 0.8533,
      "num_input_tokens_seen": 554249508,
      "step": 4388
    },
    {
      "epoch": 1.12563329699224,
      "loss": 0.7980391979217529,
      "loss_ce": 0.005070447456091642,
      "loss_iou": 0.369140625,
      "loss_num": 0.01092529296875,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 554249508,
      "step": 4388
    },
    {
      "epoch": 1.1258898223561855,
      "grad_norm": 36.926239013671875,
      "learning_rate": 5e-06,
      "loss": 0.8864,
      "num_input_tokens_seen": 554376552,
      "step": 4389
    },
    {
      "epoch": 1.1258898223561855,
      "loss": 0.6297857761383057,
      "loss_ce": 0.002344384789466858,
      "loss_iou": 0.287109375,
      "loss_num": 0.01031494140625,
      "loss_xval": 0.62890625,
      "num_input_tokens_seen": 554376552,
      "step": 4389
    },
    {
      "epoch": 1.1261463477201308,
      "grad_norm": 51.78299331665039,
      "learning_rate": 5e-06,
      "loss": 0.8808,
      "num_input_tokens_seen": 554502756,
      "step": 4390
    },
    {
      "epoch": 1.1261463477201308,
      "loss": 1.0998618602752686,
      "loss_ce": 0.0012289967853575945,
      "loss_iou": 0.494140625,
      "loss_num": 0.02197265625,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 554502756,
      "step": 4390
    },
    {
      "epoch": 1.1264028730840763,
      "grad_norm": 52.92314529418945,
      "learning_rate": 5e-06,
      "loss": 0.9373,
      "num_input_tokens_seen": 554627876,
      "step": 4391
    },
    {
      "epoch": 1.1264028730840763,
      "loss": 0.8387633562088013,
      "loss_ce": 0.0018493086099624634,
      "loss_iou": 0.37109375,
      "loss_num": 0.0194091796875,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 554627876,
      "step": 4391
    },
    {
      "epoch": 1.1266593984480215,
      "grad_norm": 69.74037170410156,
      "learning_rate": 5e-06,
      "loss": 0.9283,
      "num_input_tokens_seen": 554754072,
      "step": 4392
    },
    {
      "epoch": 1.1266593984480215,
      "loss": 0.7326191067695618,
      "loss_ce": 0.002638638950884342,
      "loss_iou": 0.353515625,
      "loss_num": 0.0050048828125,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 554754072,
      "step": 4392
    },
    {
      "epoch": 1.1269159238119668,
      "grad_norm": 53.04520797729492,
      "learning_rate": 5e-06,
      "loss": 0.8486,
      "num_input_tokens_seen": 554881260,
      "step": 4393
    },
    {
      "epoch": 1.1269159238119668,
      "loss": 0.7891746163368225,
      "loss_ce": 0.00011215827544219792,
      "loss_iou": 0.380859375,
      "loss_num": 0.00537109375,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 554881260,
      "step": 4393
    },
    {
      "epoch": 1.1271724491759123,
      "grad_norm": 24.915786743164062,
      "learning_rate": 5e-06,
      "loss": 0.8125,
      "num_input_tokens_seen": 555008056,
      "step": 4394
    },
    {
      "epoch": 1.1271724491759123,
      "loss": 0.8816965222358704,
      "loss_ce": 0.0010812953114509583,
      "loss_iou": 0.3984375,
      "loss_num": 0.0166015625,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 555008056,
      "step": 4394
    },
    {
      "epoch": 1.1274289745398576,
      "grad_norm": 162.7960968017578,
      "learning_rate": 5e-06,
      "loss": 0.8329,
      "num_input_tokens_seen": 555135048,
      "step": 4395
    },
    {
      "epoch": 1.1274289745398576,
      "loss": 0.8506788015365601,
      "loss_ce": 9.289111767429858e-05,
      "loss_iou": 0.408203125,
      "loss_num": 0.00701904296875,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 555135048,
      "step": 4395
    },
    {
      "epoch": 1.127685499903803,
      "grad_norm": 34.88717269897461,
      "learning_rate": 5e-06,
      "loss": 0.9598,
      "num_input_tokens_seen": 555261412,
      "step": 4396
    },
    {
      "epoch": 1.127685499903803,
      "loss": 1.1063413619995117,
      "loss_ce": 0.0013608213048428297,
      "loss_iou": 0.5,
      "loss_num": 0.02099609375,
      "loss_xval": 1.1015625,
      "num_input_tokens_seen": 555261412,
      "step": 4396
    },
    {
      "epoch": 1.1279420252677483,
      "grad_norm": 39.1777458190918,
      "learning_rate": 5e-06,
      "loss": 0.9162,
      "num_input_tokens_seen": 555388296,
      "step": 4397
    },
    {
      "epoch": 1.1279420252677483,
      "loss": 0.8866813778877258,
      "loss_ce": 0.0006950302049517632,
      "loss_iou": 0.41015625,
      "loss_num": 0.01318359375,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 555388296,
      "step": 4397
    },
    {
      "epoch": 1.1281985506316938,
      "grad_norm": 37.644840240478516,
      "learning_rate": 5e-06,
      "loss": 0.8344,
      "num_input_tokens_seen": 555514060,
      "step": 4398
    },
    {
      "epoch": 1.1281985506316938,
      "loss": 1.0176427364349365,
      "loss_ce": 0.002017771825194359,
      "loss_iou": 0.453125,
      "loss_num": 0.0216064453125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 555514060,
      "step": 4398
    },
    {
      "epoch": 1.128455075995639,
      "grad_norm": 29.90350341796875,
      "learning_rate": 5e-06,
      "loss": 0.9394,
      "num_input_tokens_seen": 555638844,
      "step": 4399
    },
    {
      "epoch": 1.128455075995639,
      "loss": 0.8645536303520203,
      "loss_ce": 0.0007840826874598861,
      "loss_iou": 0.392578125,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 555638844,
      "step": 4399
    },
    {
      "epoch": 1.1287116013595844,
      "grad_norm": 23.48908042907715,
      "learning_rate": 5e-06,
      "loss": 0.9904,
      "num_input_tokens_seen": 555765948,
      "step": 4400
    },
    {
      "epoch": 1.1287116013595844,
      "loss": 0.8629847764968872,
      "loss_ce": 0.002877362072467804,
      "loss_iou": 0.3984375,
      "loss_num": 0.01287841796875,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 555765948,
      "step": 4400
    },
    {
      "epoch": 1.1289681267235299,
      "grad_norm": 36.1854133605957,
      "learning_rate": 5e-06,
      "loss": 0.801,
      "num_input_tokens_seen": 555892572,
      "step": 4401
    },
    {
      "epoch": 1.1289681267235299,
      "loss": 0.651606559753418,
      "loss_ce": 0.0012159384787082672,
      "loss_iou": 0.30859375,
      "loss_num": 0.006317138671875,
      "loss_xval": 0.6484375,
      "num_input_tokens_seen": 555892572,
      "step": 4401
    },
    {
      "epoch": 1.1292246520874751,
      "grad_norm": 47.392578125,
      "learning_rate": 5e-06,
      "loss": 0.9113,
      "num_input_tokens_seen": 556017728,
      "step": 4402
    },
    {
      "epoch": 1.1292246520874751,
      "loss": 0.7943363189697266,
      "loss_ce": 0.0011234241537749767,
      "loss_iou": 0.361328125,
      "loss_num": 0.01416015625,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 556017728,
      "step": 4402
    },
    {
      "epoch": 1.1294811774514204,
      "grad_norm": 40.92268753051758,
      "learning_rate": 5e-06,
      "loss": 0.8955,
      "num_input_tokens_seen": 556143444,
      "step": 4403
    },
    {
      "epoch": 1.1294811774514204,
      "loss": 0.8459879159927368,
      "loss_ce": 0.00028476043371483684,
      "loss_iou": 0.40625,
      "loss_num": 0.006439208984375,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 556143444,
      "step": 4403
    },
    {
      "epoch": 1.129737702815366,
      "grad_norm": 21.690141677856445,
      "learning_rate": 5e-06,
      "loss": 0.9149,
      "num_input_tokens_seen": 556270628,
      "step": 4404
    },
    {
      "epoch": 1.129737702815366,
      "loss": 0.7214297652244568,
      "loss_ce": 0.0004824622010346502,
      "loss_iou": 0.33984375,
      "loss_num": 0.00830078125,
      "loss_xval": 0.72265625,
      "num_input_tokens_seen": 556270628,
      "step": 4404
    },
    {
      "epoch": 1.1299942281793112,
      "grad_norm": 26.732696533203125,
      "learning_rate": 5e-06,
      "loss": 0.7908,
      "num_input_tokens_seen": 556397372,
      "step": 4405
    },
    {
      "epoch": 1.1299942281793112,
      "loss": 0.790381908416748,
      "loss_ce": 0.0008311310084536672,
      "loss_iou": 0.373046875,
      "loss_num": 0.0087890625,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 556397372,
      "step": 4405
    },
    {
      "epoch": 1.1302507535432567,
      "grad_norm": 23.73853302001953,
      "learning_rate": 5e-06,
      "loss": 0.857,
      "num_input_tokens_seen": 556522372,
      "step": 4406
    },
    {
      "epoch": 1.1302507535432567,
      "loss": 0.951476514339447,
      "loss_ce": 0.00030466634780168533,
      "loss_iou": 0.431640625,
      "loss_num": 0.017333984375,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 556522372,
      "step": 4406
    },
    {
      "epoch": 1.130507278907202,
      "grad_norm": 32.32231903076172,
      "learning_rate": 5e-06,
      "loss": 0.9398,
      "num_input_tokens_seen": 556648344,
      "step": 4407
    },
    {
      "epoch": 1.130507278907202,
      "loss": 1.028932809829712,
      "loss_ce": 0.00354212848469615,
      "loss_iou": 0.478515625,
      "loss_num": 0.01385498046875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 556648344,
      "step": 4407
    },
    {
      "epoch": 1.1307638042711474,
      "grad_norm": 27.304912567138672,
      "learning_rate": 5e-06,
      "loss": 0.7536,
      "num_input_tokens_seen": 556775648,
      "step": 4408
    },
    {
      "epoch": 1.1307638042711474,
      "loss": 0.7329480648040771,
      "loss_ce": 0.0002820421941578388,
      "loss_iou": 0.3359375,
      "loss_num": 0.01165771484375,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 556775648,
      "step": 4408
    },
    {
      "epoch": 1.1310203296350927,
      "grad_norm": 41.16486358642578,
      "learning_rate": 5e-06,
      "loss": 0.9261,
      "num_input_tokens_seen": 556903264,
      "step": 4409
    },
    {
      "epoch": 1.1310203296350927,
      "loss": 1.2765600681304932,
      "loss_ce": 0.001169364433735609,
      "loss_iou": 0.56640625,
      "loss_num": 0.029296875,
      "loss_xval": 1.2734375,
      "num_input_tokens_seen": 556903264,
      "step": 4409
    },
    {
      "epoch": 1.131276854999038,
      "grad_norm": 51.45564651489258,
      "learning_rate": 5e-06,
      "loss": 0.8066,
      "num_input_tokens_seen": 557028928,
      "step": 4410
    },
    {
      "epoch": 1.131276854999038,
      "loss": 0.8082805871963501,
      "loss_ce": 0.005546221509575844,
      "loss_iou": 0.37109375,
      "loss_num": 0.01239013671875,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 557028928,
      "step": 4410
    },
    {
      "epoch": 1.1315333803629835,
      "grad_norm": 45.31657409667969,
      "learning_rate": 5e-06,
      "loss": 0.9209,
      "num_input_tokens_seen": 557155300,
      "step": 4411
    },
    {
      "epoch": 1.1315333803629835,
      "loss": 0.908155620098114,
      "loss_ce": 0.0019056496676057577,
      "loss_iou": 0.4140625,
      "loss_num": 0.0150146484375,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 557155300,
      "step": 4411
    },
    {
      "epoch": 1.1317899057269287,
      "grad_norm": 57.716121673583984,
      "learning_rate": 5e-06,
      "loss": 0.8792,
      "num_input_tokens_seen": 557280880,
      "step": 4412
    },
    {
      "epoch": 1.1317899057269287,
      "loss": 0.8125715851783752,
      "loss_ce": 0.002024728339165449,
      "loss_iou": 0.37109375,
      "loss_num": 0.0137939453125,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 557280880,
      "step": 4412
    },
    {
      "epoch": 1.132046431090874,
      "grad_norm": 42.386470794677734,
      "learning_rate": 5e-06,
      "loss": 0.8834,
      "num_input_tokens_seen": 557406952,
      "step": 4413
    },
    {
      "epoch": 1.132046431090874,
      "loss": 0.994838297367096,
      "loss_ce": 0.0036273705773055553,
      "loss_iou": 0.447265625,
      "loss_num": 0.01904296875,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 557406952,
      "step": 4413
    },
    {
      "epoch": 1.1323029564548195,
      "grad_norm": 32.808624267578125,
      "learning_rate": 5e-06,
      "loss": 0.8203,
      "num_input_tokens_seen": 557531964,
      "step": 4414
    },
    {
      "epoch": 1.1323029564548195,
      "loss": 0.7963255643844604,
      "loss_ce": 0.0011595336254686117,
      "loss_iou": 0.37890625,
      "loss_num": 0.00732421875,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 557531964,
      "step": 4414
    },
    {
      "epoch": 1.1325594818187648,
      "grad_norm": 33.4691047668457,
      "learning_rate": 5e-06,
      "loss": 0.9026,
      "num_input_tokens_seen": 557658032,
      "step": 4415
    },
    {
      "epoch": 1.1325594818187648,
      "loss": 0.7694133520126343,
      "loss_ce": 0.00037034720298834145,
      "loss_iou": 0.3515625,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.76953125,
      "num_input_tokens_seen": 557658032,
      "step": 4415
    },
    {
      "epoch": 1.1328160071827102,
      "grad_norm": 55.896968841552734,
      "learning_rate": 5e-06,
      "loss": 0.8796,
      "num_input_tokens_seen": 557785212,
      "step": 4416
    },
    {
      "epoch": 1.1328160071827102,
      "loss": 0.9487991333007812,
      "loss_ce": 0.0003128039534203708,
      "loss_iou": 0.453125,
      "loss_num": 0.008544921875,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 557785212,
      "step": 4416
    },
    {
      "epoch": 1.1330725325466555,
      "grad_norm": 52.81481170654297,
      "learning_rate": 5e-06,
      "loss": 0.9621,
      "num_input_tokens_seen": 557911936,
      "step": 4417
    },
    {
      "epoch": 1.1330725325466555,
      "loss": 1.0358659029006958,
      "loss_ce": 0.00022133860329631716,
      "loss_iou": 0.474609375,
      "loss_num": 0.017333984375,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 557911936,
      "step": 4417
    },
    {
      "epoch": 1.133329057910601,
      "grad_norm": 34.914764404296875,
      "learning_rate": 5e-06,
      "loss": 0.9367,
      "num_input_tokens_seen": 558039780,
      "step": 4418
    },
    {
      "epoch": 1.133329057910601,
      "loss": 0.8766589760780334,
      "loss_ce": 0.0006824140436947346,
      "loss_iou": 0.404296875,
      "loss_num": 0.01324462890625,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 558039780,
      "step": 4418
    },
    {
      "epoch": 1.1335855832745463,
      "grad_norm": 47.31360626220703,
      "learning_rate": 5e-06,
      "loss": 0.9257,
      "num_input_tokens_seen": 558165848,
      "step": 4419
    },
    {
      "epoch": 1.1335855832745463,
      "loss": 0.7454118728637695,
      "loss_ce": 0.0012712456518784165,
      "loss_iou": 0.345703125,
      "loss_num": 0.0107421875,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 558165848,
      "step": 4419
    },
    {
      "epoch": 1.1338421086384916,
      "grad_norm": 59.62784957885742,
      "learning_rate": 5e-06,
      "loss": 0.8289,
      "num_input_tokens_seen": 558292360,
      "step": 4420
    },
    {
      "epoch": 1.1338421086384916,
      "loss": 0.8426828384399414,
      "loss_ce": 0.0023508346639573574,
      "loss_iou": 0.388671875,
      "loss_num": 0.01239013671875,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 558292360,
      "step": 4420
    },
    {
      "epoch": 1.134098634002437,
      "grad_norm": 50.734474182128906,
      "learning_rate": 5e-06,
      "loss": 0.8246,
      "num_input_tokens_seen": 558418764,
      "step": 4421
    },
    {
      "epoch": 1.134098634002437,
      "loss": 0.8006922006607056,
      "loss_ce": 0.0008874908089637756,
      "loss_iou": 0.3671875,
      "loss_num": 0.01300048828125,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 558418764,
      "step": 4421
    },
    {
      "epoch": 1.1343551593663823,
      "grad_norm": 38.48472213745117,
      "learning_rate": 5e-06,
      "loss": 0.9217,
      "num_input_tokens_seen": 558544664,
      "step": 4422
    },
    {
      "epoch": 1.1343551593663823,
      "loss": 0.8721931576728821,
      "loss_ce": 0.001099409768357873,
      "loss_iou": 0.39453125,
      "loss_num": 0.0167236328125,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 558544664,
      "step": 4422
    },
    {
      "epoch": 1.1346116847303278,
      "grad_norm": 33.49497985839844,
      "learning_rate": 5e-06,
      "loss": 0.9448,
      "num_input_tokens_seen": 558669664,
      "step": 4423
    },
    {
      "epoch": 1.1346116847303278,
      "loss": 1.0355424880981445,
      "loss_ce": 0.0011186428600922227,
      "loss_iou": 0.482421875,
      "loss_num": 0.0140380859375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 558669664,
      "step": 4423
    },
    {
      "epoch": 1.134868210094273,
      "grad_norm": 29.18581199645996,
      "learning_rate": 5e-06,
      "loss": 0.7851,
      "num_input_tokens_seen": 558795288,
      "step": 4424
    },
    {
      "epoch": 1.134868210094273,
      "loss": 0.745862603187561,
      "loss_ce": 0.0002570961369201541,
      "loss_iou": 0.34765625,
      "loss_num": 0.010009765625,
      "loss_xval": 0.74609375,
      "num_input_tokens_seen": 558795288,
      "step": 4424
    },
    {
      "epoch": 1.1351247354582183,
      "grad_norm": 33.792850494384766,
      "learning_rate": 5e-06,
      "loss": 0.8425,
      "num_input_tokens_seen": 558921084,
      "step": 4425
    },
    {
      "epoch": 1.1351247354582183,
      "loss": 0.677505612373352,
      "loss_ce": 0.0002594981633592397,
      "loss_iou": 0.326171875,
      "loss_num": 0.005218505859375,
      "loss_xval": 0.67578125,
      "num_input_tokens_seen": 558921084,
      "step": 4425
    },
    {
      "epoch": 1.1353812608221638,
      "grad_norm": 46.56937026977539,
      "learning_rate": 5e-06,
      "loss": 0.8168,
      "num_input_tokens_seen": 559048396,
      "step": 4426
    },
    {
      "epoch": 1.1353812608221638,
      "loss": 0.7433246970176697,
      "loss_ce": 0.0035785753279924393,
      "loss_iou": 0.349609375,
      "loss_num": 0.0078125,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 559048396,
      "step": 4426
    },
    {
      "epoch": 1.135637786186109,
      "grad_norm": 41.06705093383789,
      "learning_rate": 5e-06,
      "loss": 0.9126,
      "num_input_tokens_seen": 559174348,
      "step": 4427
    },
    {
      "epoch": 1.135637786186109,
      "loss": 1.0798604488372803,
      "loss_ce": 0.0002707089006435126,
      "loss_iou": 0.5078125,
      "loss_num": 0.0135498046875,
      "loss_xval": 1.078125,
      "num_input_tokens_seen": 559174348,
      "step": 4427
    },
    {
      "epoch": 1.1358943115500546,
      "grad_norm": 40.635093688964844,
      "learning_rate": 5e-06,
      "loss": 0.8407,
      "num_input_tokens_seen": 559302100,
      "step": 4428
    },
    {
      "epoch": 1.1358943115500546,
      "loss": 0.8367603421211243,
      "loss_ce": 0.0010670038172975183,
      "loss_iou": 0.388671875,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 559302100,
      "step": 4428
    },
    {
      "epoch": 1.1361508369139999,
      "grad_norm": 42.51997375488281,
      "learning_rate": 5e-06,
      "loss": 0.9438,
      "num_input_tokens_seen": 559428152,
      "step": 4429
    },
    {
      "epoch": 1.1361508369139999,
      "loss": 1.183257818222046,
      "loss_ce": 0.0011289167450740933,
      "loss_iou": 0.515625,
      "loss_num": 0.02978515625,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 559428152,
      "step": 4429
    },
    {
      "epoch": 1.1364073622779451,
      "grad_norm": 41.86601638793945,
      "learning_rate": 5e-06,
      "loss": 0.8697,
      "num_input_tokens_seen": 559554584,
      "step": 4430
    },
    {
      "epoch": 1.1364073622779451,
      "loss": 0.7875471115112305,
      "loss_ce": 0.0014142829459160566,
      "loss_iou": 0.369140625,
      "loss_num": 0.009521484375,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 559554584,
      "step": 4430
    },
    {
      "epoch": 1.1366638876418906,
      "grad_norm": 45.27227020263672,
      "learning_rate": 5e-06,
      "loss": 0.8625,
      "num_input_tokens_seen": 559680384,
      "step": 4431
    },
    {
      "epoch": 1.1366638876418906,
      "loss": 0.8791888952255249,
      "loss_ce": 0.0005267518572509289,
      "loss_iou": 0.392578125,
      "loss_num": 0.018310546875,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 559680384,
      "step": 4431
    },
    {
      "epoch": 1.136920413005836,
      "grad_norm": 36.407752990722656,
      "learning_rate": 5e-06,
      "loss": 0.9386,
      "num_input_tokens_seen": 559804936,
      "step": 4432
    },
    {
      "epoch": 1.136920413005836,
      "loss": 0.9912967681884766,
      "loss_ce": 0.002771340310573578,
      "loss_iou": 0.44140625,
      "loss_num": 0.021484375,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 559804936,
      "step": 4432
    },
    {
      "epoch": 1.1371769383697814,
      "grad_norm": 42.199607849121094,
      "learning_rate": 5e-06,
      "loss": 0.8679,
      "num_input_tokens_seen": 559931020,
      "step": 4433
    },
    {
      "epoch": 1.1371769383697814,
      "loss": 0.9299167394638062,
      "loss_ce": 0.002182358643040061,
      "loss_iou": 0.42578125,
      "loss_num": 0.01556396484375,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 559931020,
      "step": 4433
    },
    {
      "epoch": 1.1374334637337267,
      "grad_norm": 81.89493560791016,
      "learning_rate": 5e-06,
      "loss": 0.8914,
      "num_input_tokens_seen": 560057192,
      "step": 4434
    },
    {
      "epoch": 1.1374334637337267,
      "loss": 0.8806267380714417,
      "loss_ce": 0.0017204806208610535,
      "loss_iou": 0.408203125,
      "loss_num": 0.01239013671875,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 560057192,
      "step": 4434
    },
    {
      "epoch": 1.137689989097672,
      "grad_norm": 40.13206100463867,
      "learning_rate": 5e-06,
      "loss": 0.8605,
      "num_input_tokens_seen": 560183524,
      "step": 4435
    },
    {
      "epoch": 1.137689989097672,
      "loss": 0.860345721244812,
      "loss_ce": 0.0014589800266548991,
      "loss_iou": 0.404296875,
      "loss_num": 0.0101318359375,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 560183524,
      "step": 4435
    },
    {
      "epoch": 1.1379465144616174,
      "grad_norm": 25.544431686401367,
      "learning_rate": 5e-06,
      "loss": 0.9067,
      "num_input_tokens_seen": 560309308,
      "step": 4436
    },
    {
      "epoch": 1.1379465144616174,
      "loss": 0.8781530857086182,
      "loss_ce": 0.00022340784198604524,
      "loss_iou": 0.412109375,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 560309308,
      "step": 4436
    },
    {
      "epoch": 1.1382030398255627,
      "grad_norm": 32.66789245605469,
      "learning_rate": 5e-06,
      "loss": 0.9011,
      "num_input_tokens_seen": 560435688,
      "step": 4437
    },
    {
      "epoch": 1.1382030398255627,
      "loss": 0.9783151149749756,
      "loss_ce": 0.0022408643271774054,
      "loss_iou": 0.453125,
      "loss_num": 0.013671875,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 560435688,
      "step": 4437
    },
    {
      "epoch": 1.1384595651895082,
      "grad_norm": 51.138572692871094,
      "learning_rate": 5e-06,
      "loss": 0.7268,
      "num_input_tokens_seen": 560561572,
      "step": 4438
    },
    {
      "epoch": 1.1384595651895082,
      "loss": 1.0364906787872314,
      "loss_ce": 0.0027991621755063534,
      "loss_iou": 0.474609375,
      "loss_num": 0.0169677734375,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 560561572,
      "step": 4438
    },
    {
      "epoch": 1.1387160905534535,
      "grad_norm": 44.8787841796875,
      "learning_rate": 5e-06,
      "loss": 0.8043,
      "num_input_tokens_seen": 560688320,
      "step": 4439
    },
    {
      "epoch": 1.1387160905534535,
      "loss": 0.9539803266525269,
      "loss_ce": 0.0003670936275739223,
      "loss_iou": 0.44140625,
      "loss_num": 0.01458740234375,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 560688320,
      "step": 4439
    },
    {
      "epoch": 1.1389726159173987,
      "grad_norm": 37.48916244506836,
      "learning_rate": 5e-06,
      "loss": 0.8264,
      "num_input_tokens_seen": 560814428,
      "step": 4440
    },
    {
      "epoch": 1.1389726159173987,
      "loss": 0.7381656169891357,
      "loss_ce": 0.0006168429972603917,
      "loss_iou": 0.34765625,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 560814428,
      "step": 4440
    },
    {
      "epoch": 1.1392291412813442,
      "grad_norm": 42.377132415771484,
      "learning_rate": 5e-06,
      "loss": 0.8684,
      "num_input_tokens_seen": 560940840,
      "step": 4441
    },
    {
      "epoch": 1.1392291412813442,
      "loss": 0.8824979662895203,
      "loss_ce": 0.0013944649836048484,
      "loss_iou": 0.39453125,
      "loss_num": 0.0185546875,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 560940840,
      "step": 4441
    },
    {
      "epoch": 1.1394856666452895,
      "grad_norm": 36.90537643432617,
      "learning_rate": 5e-06,
      "loss": 0.8099,
      "num_input_tokens_seen": 561067712,
      "step": 4442
    },
    {
      "epoch": 1.1394856666452895,
      "loss": 0.8814148306846619,
      "loss_ce": 0.0010437555611133575,
      "loss_iou": 0.41015625,
      "loss_num": 0.01165771484375,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 561067712,
      "step": 4442
    },
    {
      "epoch": 1.139742192009235,
      "grad_norm": 40.15196228027344,
      "learning_rate": 5e-06,
      "loss": 0.9104,
      "num_input_tokens_seen": 561194304,
      "step": 4443
    },
    {
      "epoch": 1.139742192009235,
      "loss": 0.8533523678779602,
      "loss_ce": 0.0003250593435950577,
      "loss_iou": 0.40234375,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 561194304,
      "step": 4443
    },
    {
      "epoch": 1.1399987173731803,
      "grad_norm": 41.93926239013672,
      "learning_rate": 5e-06,
      "loss": 0.8838,
      "num_input_tokens_seen": 561320660,
      "step": 4444
    },
    {
      "epoch": 1.1399987173731803,
      "loss": 0.7890812158584595,
      "loss_ce": 0.001727710710838437,
      "loss_iou": 0.365234375,
      "loss_num": 0.01141357421875,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 561320660,
      "step": 4444
    },
    {
      "epoch": 1.1402552427371258,
      "grad_norm": 37.9354248046875,
      "learning_rate": 5e-06,
      "loss": 0.8466,
      "num_input_tokens_seen": 561446632,
      "step": 4445
    },
    {
      "epoch": 1.1402552427371258,
      "loss": 0.8583638668060303,
      "loss_ce": 0.00020953506464138627,
      "loss_iou": 0.384765625,
      "loss_num": 0.0177001953125,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 561446632,
      "step": 4445
    },
    {
      "epoch": 1.140511768101071,
      "grad_norm": 35.330997467041016,
      "learning_rate": 5e-06,
      "loss": 0.8084,
      "num_input_tokens_seen": 561572920,
      "step": 4446
    },
    {
      "epoch": 1.140511768101071,
      "loss": 0.8883254528045654,
      "loss_ce": 0.0030715276952832937,
      "loss_iou": 0.400390625,
      "loss_num": 0.016845703125,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 561572920,
      "step": 4446
    },
    {
      "epoch": 1.1407682934650163,
      "grad_norm": 40.6688346862793,
      "learning_rate": 5e-06,
      "loss": 0.797,
      "num_input_tokens_seen": 561699828,
      "step": 4447
    },
    {
      "epoch": 1.1407682934650163,
      "loss": 0.6675664782524109,
      "loss_ce": 0.0008184141479432583,
      "loss_iou": 0.298828125,
      "loss_num": 0.013916015625,
      "loss_xval": 0.66796875,
      "num_input_tokens_seen": 561699828,
      "step": 4447
    },
    {
      "epoch": 1.1410248188289618,
      "grad_norm": 43.41802215576172,
      "learning_rate": 5e-06,
      "loss": 0.8284,
      "num_input_tokens_seen": 561826320,
      "step": 4448
    },
    {
      "epoch": 1.1410248188289618,
      "loss": 0.8148727416992188,
      "loss_ce": 0.0004196658555883914,
      "loss_iou": 0.38671875,
      "loss_num": 0.00830078125,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 561826320,
      "step": 4448
    },
    {
      "epoch": 1.141281344192907,
      "grad_norm": 31.469257354736328,
      "learning_rate": 5e-06,
      "loss": 0.7315,
      "num_input_tokens_seen": 561951048,
      "step": 4449
    },
    {
      "epoch": 1.141281344192907,
      "loss": 0.781965434551239,
      "loss_ce": 0.0007154140621423721,
      "loss_iou": 0.3671875,
      "loss_num": 0.00970458984375,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 561951048,
      "step": 4449
    },
    {
      "epoch": 1.1415378695568523,
      "grad_norm": 21.298030853271484,
      "learning_rate": 5e-06,
      "loss": 0.8441,
      "num_input_tokens_seen": 562077540,
      "step": 4450
    },
    {
      "epoch": 1.1415378695568523,
      "loss": 0.8850439786911011,
      "loss_ce": 0.0027198060415685177,
      "loss_iou": 0.408203125,
      "loss_num": 0.01324462890625,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 562077540,
      "step": 4450
    },
    {
      "epoch": 1.1417943949207978,
      "grad_norm": 29.97330665588379,
      "learning_rate": 5e-06,
      "loss": 0.926,
      "num_input_tokens_seen": 562203112,
      "step": 4451
    },
    {
      "epoch": 1.1417943949207978,
      "loss": 0.8590042591094971,
      "loss_ce": 0.0010940725915133953,
      "loss_iou": 0.408203125,
      "loss_num": 0.00872802734375,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 562203112,
      "step": 4451
    },
    {
      "epoch": 1.142050920284743,
      "grad_norm": 16.372140884399414,
      "learning_rate": 5e-06,
      "loss": 0.8398,
      "num_input_tokens_seen": 562329796,
      "step": 4452
    },
    {
      "epoch": 1.142050920284743,
      "loss": 0.880555272102356,
      "loss_ce": 0.0006724511040374637,
      "loss_iou": 0.412109375,
      "loss_num": 0.0106201171875,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 562329796,
      "step": 4452
    },
    {
      "epoch": 1.1423074456486886,
      "grad_norm": 29.026350021362305,
      "learning_rate": 5e-06,
      "loss": 0.8319,
      "num_input_tokens_seen": 562455572,
      "step": 4453
    },
    {
      "epoch": 1.1423074456486886,
      "loss": 0.7127703428268433,
      "loss_ce": 0.008180531673133373,
      "loss_iou": 0.33984375,
      "loss_num": 0.004852294921875,
      "loss_xval": 0.703125,
      "num_input_tokens_seen": 562455572,
      "step": 4453
    },
    {
      "epoch": 1.1425639710126338,
      "grad_norm": 42.253849029541016,
      "learning_rate": 5e-06,
      "loss": 0.866,
      "num_input_tokens_seen": 562582028,
      "step": 4454
    },
    {
      "epoch": 1.1425639710126338,
      "loss": 0.8493388891220093,
      "loss_ce": 0.00021777946676593274,
      "loss_iou": 0.40234375,
      "loss_num": 0.009033203125,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 562582028,
      "step": 4454
    },
    {
      "epoch": 1.1428204963765793,
      "grad_norm": 116.01903533935547,
      "learning_rate": 5e-06,
      "loss": 0.8205,
      "num_input_tokens_seen": 562708652,
      "step": 4455
    },
    {
      "epoch": 1.1428204963765793,
      "loss": 0.8533685207366943,
      "loss_ce": 0.0013176830252632499,
      "loss_iou": 0.38671875,
      "loss_num": 0.015380859375,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 562708652,
      "step": 4455
    },
    {
      "epoch": 1.1430770217405246,
      "grad_norm": 50.579341888427734,
      "learning_rate": 5e-06,
      "loss": 0.9816,
      "num_input_tokens_seen": 562835348,
      "step": 4456
    },
    {
      "epoch": 1.1430770217405246,
      "loss": 1.0645085573196411,
      "loss_ce": 0.0010319515131413937,
      "loss_iou": 0.486328125,
      "loss_num": 0.01806640625,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 562835348,
      "step": 4456
    },
    {
      "epoch": 1.1433335471044699,
      "grad_norm": 36.5203971862793,
      "learning_rate": 5e-06,
      "loss": 0.8091,
      "num_input_tokens_seen": 562962920,
      "step": 4457
    },
    {
      "epoch": 1.1433335471044699,
      "loss": 0.9490381479263306,
      "loss_ce": 0.0017725086072459817,
      "loss_iou": 0.427734375,
      "loss_num": 0.0181884765625,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 562962920,
      "step": 4457
    },
    {
      "epoch": 1.1435900724684154,
      "grad_norm": 43.22640609741211,
      "learning_rate": 5e-06,
      "loss": 0.7978,
      "num_input_tokens_seen": 563089332,
      "step": 4458
    },
    {
      "epoch": 1.1435900724684154,
      "loss": 0.8668995499610901,
      "loss_ce": 0.0002003289555432275,
      "loss_iou": 0.404296875,
      "loss_num": 0.01171875,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 563089332,
      "step": 4458
    },
    {
      "epoch": 1.1438465978323606,
      "grad_norm": 43.997127532958984,
      "learning_rate": 5e-06,
      "loss": 0.7852,
      "num_input_tokens_seen": 563215036,
      "step": 4459
    },
    {
      "epoch": 1.1438465978323606,
      "loss": 0.7188260555267334,
      "loss_ce": 0.0015408790204674006,
      "loss_iou": 0.34765625,
      "loss_num": 0.00445556640625,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 563215036,
      "step": 4459
    },
    {
      "epoch": 1.144103123196306,
      "grad_norm": 51.04657745361328,
      "learning_rate": 5e-06,
      "loss": 0.8408,
      "num_input_tokens_seen": 563341140,
      "step": 4460
    },
    {
      "epoch": 1.144103123196306,
      "loss": 1.0377075672149658,
      "loss_ce": 0.0010864771902561188,
      "loss_iou": 0.482421875,
      "loss_num": 0.0145263671875,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 563341140,
      "step": 4460
    },
    {
      "epoch": 1.1443596485602514,
      "grad_norm": 55.272396087646484,
      "learning_rate": 5e-06,
      "loss": 0.9946,
      "num_input_tokens_seen": 563467016,
      "step": 4461
    },
    {
      "epoch": 1.1443596485602514,
      "loss": 0.9771977663040161,
      "loss_ce": 0.00039115382242016494,
      "loss_iou": 0.45703125,
      "loss_num": 0.01214599609375,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 563467016,
      "step": 4461
    },
    {
      "epoch": 1.1446161739241967,
      "grad_norm": 45.25038528442383,
      "learning_rate": 5e-06,
      "loss": 0.7953,
      "num_input_tokens_seen": 563594052,
      "step": 4462
    },
    {
      "epoch": 1.1446161739241967,
      "loss": 0.7985683679580688,
      "loss_ce": 0.0012050714576616883,
      "loss_iou": 0.375,
      "loss_num": 0.00927734375,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 563594052,
      "step": 4462
    },
    {
      "epoch": 1.1448726992881422,
      "grad_norm": 37.15034866333008,
      "learning_rate": 5e-06,
      "loss": 0.8943,
      "num_input_tokens_seen": 563719560,
      "step": 4463
    },
    {
      "epoch": 1.1448726992881422,
      "loss": 0.9501623511314392,
      "loss_ce": 0.00045529319322668016,
      "loss_iou": 0.416015625,
      "loss_num": 0.0235595703125,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 563719560,
      "step": 4463
    },
    {
      "epoch": 1.1451292246520874,
      "grad_norm": 44.28472900390625,
      "learning_rate": 5e-06,
      "loss": 0.8514,
      "num_input_tokens_seen": 563845848,
      "step": 4464
    },
    {
      "epoch": 1.1451292246520874,
      "loss": 0.7816656827926636,
      "loss_ce": 0.0013922583311796188,
      "loss_iou": 0.361328125,
      "loss_num": 0.01177978515625,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 563845848,
      "step": 4464
    },
    {
      "epoch": 1.145385750016033,
      "grad_norm": 59.25954055786133,
      "learning_rate": 5e-06,
      "loss": 0.8846,
      "num_input_tokens_seen": 563971700,
      "step": 4465
    },
    {
      "epoch": 1.145385750016033,
      "loss": 0.9880316257476807,
      "loss_ce": 0.0014594256645068526,
      "loss_iou": 0.45703125,
      "loss_num": 0.0147705078125,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 563971700,
      "step": 4465
    },
    {
      "epoch": 1.1456422753799782,
      "grad_norm": 42.791873931884766,
      "learning_rate": 5e-06,
      "loss": 0.9027,
      "num_input_tokens_seen": 564098844,
      "step": 4466
    },
    {
      "epoch": 1.1456422753799782,
      "loss": 0.9128975868225098,
      "loss_ce": 0.0010324051836505532,
      "loss_iou": 0.400390625,
      "loss_num": 0.0220947265625,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 564098844,
      "step": 4466
    },
    {
      "epoch": 1.1458988007439235,
      "grad_norm": 36.11970138549805,
      "learning_rate": 5e-06,
      "loss": 0.7329,
      "num_input_tokens_seen": 564224832,
      "step": 4467
    },
    {
      "epoch": 1.1458988007439235,
      "loss": 0.7026975750923157,
      "loss_ce": 0.0007932375301606953,
      "loss_iou": 0.328125,
      "loss_num": 0.0087890625,
      "loss_xval": 0.703125,
      "num_input_tokens_seen": 564224832,
      "step": 4467
    },
    {
      "epoch": 1.146155326107869,
      "grad_norm": 42.857234954833984,
      "learning_rate": 5e-06,
      "loss": 0.8345,
      "num_input_tokens_seen": 564351184,
      "step": 4468
    },
    {
      "epoch": 1.146155326107869,
      "loss": 0.6153695583343506,
      "loss_ce": 0.00013519487401936203,
      "loss_iou": 0.298828125,
      "loss_num": 0.0038604736328125,
      "loss_xval": 0.6171875,
      "num_input_tokens_seen": 564351184,
      "step": 4468
    },
    {
      "epoch": 1.1464118514718142,
      "grad_norm": 36.790096282958984,
      "learning_rate": 5e-06,
      "loss": 0.7609,
      "num_input_tokens_seen": 564475868,
      "step": 4469
    },
    {
      "epoch": 1.1464118514718142,
      "loss": 0.66095370054245,
      "loss_ce": 0.0010415579890832305,
      "loss_iou": 0.318359375,
      "loss_num": 0.004791259765625,
      "loss_xval": 0.66015625,
      "num_input_tokens_seen": 564475868,
      "step": 4469
    },
    {
      "epoch": 1.1466683768357597,
      "grad_norm": 62.581661224365234,
      "learning_rate": 5e-06,
      "loss": 0.8514,
      "num_input_tokens_seen": 564603108,
      "step": 4470
    },
    {
      "epoch": 1.1466683768357597,
      "loss": 1.0341262817382812,
      "loss_ce": 0.001899718539789319,
      "loss_iou": 0.4765625,
      "loss_num": 0.0155029296875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 564603108,
      "step": 4470
    },
    {
      "epoch": 1.146924902199705,
      "grad_norm": 50.36272048950195,
      "learning_rate": 5e-06,
      "loss": 0.8329,
      "num_input_tokens_seen": 564730036,
      "step": 4471
    },
    {
      "epoch": 1.146924902199705,
      "loss": 0.9419748783111572,
      "loss_ce": 0.0005686100339516997,
      "loss_iou": 0.42578125,
      "loss_num": 0.017578125,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 564730036,
      "step": 4471
    },
    {
      "epoch": 1.1471814275636503,
      "grad_norm": 42.16992950439453,
      "learning_rate": 5e-06,
      "loss": 1.0065,
      "num_input_tokens_seen": 564855300,
      "step": 4472
    },
    {
      "epoch": 1.1471814275636503,
      "loss": 0.8988373279571533,
      "loss_ce": 0.004061905667185783,
      "loss_iou": 0.4140625,
      "loss_num": 0.01312255859375,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 564855300,
      "step": 4472
    },
    {
      "epoch": 1.1474379529275958,
      "grad_norm": 52.223533630371094,
      "learning_rate": 5e-06,
      "loss": 0.8039,
      "num_input_tokens_seen": 564981580,
      "step": 4473
    },
    {
      "epoch": 1.1474379529275958,
      "loss": 0.6878585815429688,
      "loss_ce": 0.00011441703099990264,
      "loss_iou": 0.3203125,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.6875,
      "num_input_tokens_seen": 564981580,
      "step": 4473
    },
    {
      "epoch": 1.147694478291541,
      "grad_norm": 52.660133361816406,
      "learning_rate": 5e-06,
      "loss": 0.9209,
      "num_input_tokens_seen": 565109268,
      "step": 4474
    },
    {
      "epoch": 1.147694478291541,
      "loss": 0.7826834917068481,
      "loss_ce": 0.0002127476327586919,
      "loss_iou": 0.365234375,
      "loss_num": 0.01025390625,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 565109268,
      "step": 4474
    },
    {
      "epoch": 1.1479510036554865,
      "grad_norm": 39.854496002197266,
      "learning_rate": 5e-06,
      "loss": 0.8417,
      "num_input_tokens_seen": 565235052,
      "step": 4475
    },
    {
      "epoch": 1.1479510036554865,
      "loss": 0.9808903932571411,
      "loss_ce": 0.0009099766612052917,
      "loss_iou": 0.431640625,
      "loss_num": 0.023193359375,
      "loss_xval": 0.98046875,
      "num_input_tokens_seen": 565235052,
      "step": 4475
    },
    {
      "epoch": 1.1482075290194318,
      "grad_norm": 33.5964469909668,
      "learning_rate": 5e-06,
      "loss": 0.871,
      "num_input_tokens_seen": 565362168,
      "step": 4476
    },
    {
      "epoch": 1.1482075290194318,
      "loss": 0.9289098978042603,
      "loss_ce": 0.002640355844050646,
      "loss_iou": 0.431640625,
      "loss_num": 0.0128173828125,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 565362168,
      "step": 4476
    },
    {
      "epoch": 1.148464054383377,
      "grad_norm": 28.817657470703125,
      "learning_rate": 5e-06,
      "loss": 0.9246,
      "num_input_tokens_seen": 565490448,
      "step": 4477
    },
    {
      "epoch": 1.148464054383377,
      "loss": 1.0202233791351318,
      "loss_ce": 0.00020388190750963986,
      "loss_iou": 0.443359375,
      "loss_num": 0.0264892578125,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 565490448,
      "step": 4477
    },
    {
      "epoch": 1.1487205797473226,
      "grad_norm": 30.86312484741211,
      "learning_rate": 5e-06,
      "loss": 0.8826,
      "num_input_tokens_seen": 565616992,
      "step": 4478
    },
    {
      "epoch": 1.1487205797473226,
      "loss": 0.7181052565574646,
      "loss_ce": 0.00033183899358846247,
      "loss_iou": 0.34375,
      "loss_num": 0.006195068359375,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 565616992,
      "step": 4478
    },
    {
      "epoch": 1.1489771051112678,
      "grad_norm": 31.412593841552734,
      "learning_rate": 5e-06,
      "loss": 0.7784,
      "num_input_tokens_seen": 565742968,
      "step": 4479
    },
    {
      "epoch": 1.1489771051112678,
      "loss": 0.7363811731338501,
      "loss_ce": 0.0015178981702774763,
      "loss_iou": 0.34375,
      "loss_num": 0.00921630859375,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 565742968,
      "step": 4479
    },
    {
      "epoch": 1.1492336304752133,
      "grad_norm": 35.64606857299805,
      "learning_rate": 5e-06,
      "loss": 0.887,
      "num_input_tokens_seen": 565869020,
      "step": 4480
    },
    {
      "epoch": 1.1492336304752133,
      "loss": 0.818684458732605,
      "loss_ce": 8.09276825748384e-05,
      "loss_iou": 0.392578125,
      "loss_num": 0.006622314453125,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 565869020,
      "step": 4480
    },
    {
      "epoch": 1.1494901558391586,
      "grad_norm": 33.52762985229492,
      "learning_rate": 5e-06,
      "loss": 0.9468,
      "num_input_tokens_seen": 565996772,
      "step": 4481
    },
    {
      "epoch": 1.1494901558391586,
      "loss": 0.8973528146743774,
      "loss_ce": 0.00038010289426892996,
      "loss_iou": 0.419921875,
      "loss_num": 0.010986328125,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 565996772,
      "step": 4481
    },
    {
      "epoch": 1.149746681203104,
      "grad_norm": 31.258670806884766,
      "learning_rate": 5e-06,
      "loss": 0.8503,
      "num_input_tokens_seen": 566122716,
      "step": 4482
    },
    {
      "epoch": 1.149746681203104,
      "loss": 0.9564247131347656,
      "loss_ce": 0.0008582413429394364,
      "loss_iou": 0.4296875,
      "loss_num": 0.0191650390625,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 566122716,
      "step": 4482
    },
    {
      "epoch": 1.1500032065670494,
      "grad_norm": 32.91709518432617,
      "learning_rate": 5e-06,
      "loss": 0.7186,
      "num_input_tokens_seen": 566249224,
      "step": 4483
    },
    {
      "epoch": 1.1500032065670494,
      "loss": 0.6349152326583862,
      "loss_ce": 0.00014958748943172395,
      "loss_iou": 0.296875,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.6328125,
      "num_input_tokens_seen": 566249224,
      "step": 4483
    },
    {
      "epoch": 1.1502597319309946,
      "grad_norm": 29.065040588378906,
      "learning_rate": 5e-06,
      "loss": 1.0251,
      "num_input_tokens_seen": 566373656,
      "step": 4484
    },
    {
      "epoch": 1.1502597319309946,
      "loss": 1.1403391361236572,
      "loss_ce": 0.001667277654632926,
      "loss_iou": 0.49609375,
      "loss_num": 0.029296875,
      "loss_xval": 1.140625,
      "num_input_tokens_seen": 566373656,
      "step": 4484
    },
    {
      "epoch": 1.1505162572949401,
      "grad_norm": 32.31103515625,
      "learning_rate": 5e-06,
      "loss": 0.8328,
      "num_input_tokens_seen": 566500508,
      "step": 4485
    },
    {
      "epoch": 1.1505162572949401,
      "loss": 0.8124203681945801,
      "loss_ce": 0.00040864365291781723,
      "loss_iou": 0.373046875,
      "loss_num": 0.0135498046875,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 566500508,
      "step": 4485
    },
    {
      "epoch": 1.1507727826588854,
      "grad_norm": 45.648014068603516,
      "learning_rate": 5e-06,
      "loss": 0.8443,
      "num_input_tokens_seen": 566626472,
      "step": 4486
    },
    {
      "epoch": 1.1507727826588854,
      "loss": 0.8159573078155518,
      "loss_ce": 0.0005275791045278311,
      "loss_iou": 0.37109375,
      "loss_num": 0.014892578125,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 566626472,
      "step": 4486
    },
    {
      "epoch": 1.1510293080228307,
      "grad_norm": 46.22900390625,
      "learning_rate": 5e-06,
      "loss": 0.8089,
      "num_input_tokens_seen": 566752160,
      "step": 4487
    },
    {
      "epoch": 1.1510293080228307,
      "loss": 0.8395812511444092,
      "loss_ce": 0.0007140823872759938,
      "loss_iou": 0.390625,
      "loss_num": 0.01202392578125,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 566752160,
      "step": 4487
    },
    {
      "epoch": 1.1512858333867761,
      "grad_norm": 75.57136535644531,
      "learning_rate": 5e-06,
      "loss": 1.0162,
      "num_input_tokens_seen": 566878636,
      "step": 4488
    },
    {
      "epoch": 1.1512858333867761,
      "loss": 0.894891619682312,
      "loss_ce": 0.0003603480872698128,
      "loss_iou": 0.427734375,
      "loss_num": 0.008056640625,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 566878636,
      "step": 4488
    },
    {
      "epoch": 1.1515423587507214,
      "grad_norm": 54.54248046875,
      "learning_rate": 5e-06,
      "loss": 0.8515,
      "num_input_tokens_seen": 567006132,
      "step": 4489
    },
    {
      "epoch": 1.1515423587507214,
      "loss": 0.7974320650100708,
      "loss_ce": 0.0010453383438289165,
      "loss_iou": 0.359375,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 567006132,
      "step": 4489
    },
    {
      "epoch": 1.151798884114667,
      "grad_norm": 53.7583122253418,
      "learning_rate": 5e-06,
      "loss": 0.7395,
      "num_input_tokens_seen": 567132256,
      "step": 4490
    },
    {
      "epoch": 1.151798884114667,
      "loss": 0.7229307889938354,
      "loss_ce": 0.0007628169259987772,
      "loss_iou": 0.330078125,
      "loss_num": 0.0120849609375,
      "loss_xval": 0.72265625,
      "num_input_tokens_seen": 567132256,
      "step": 4490
    },
    {
      "epoch": 1.1520554094786122,
      "grad_norm": 45.05324172973633,
      "learning_rate": 5e-06,
      "loss": 0.8284,
      "num_input_tokens_seen": 567257424,
      "step": 4491
    },
    {
      "epoch": 1.1520554094786122,
      "loss": 0.719456672668457,
      "loss_ce": 0.0007066383259370923,
      "loss_iou": 0.341796875,
      "loss_num": 0.006683349609375,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 567257424,
      "step": 4491
    },
    {
      "epoch": 1.1523119348425577,
      "grad_norm": 46.05257034301758,
      "learning_rate": 5e-06,
      "loss": 0.7932,
      "num_input_tokens_seen": 567383636,
      "step": 4492
    },
    {
      "epoch": 1.1523119348425577,
      "loss": 0.8213576078414917,
      "loss_ce": 0.0010451130801811814,
      "loss_iou": 0.384765625,
      "loss_num": 0.010498046875,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 567383636,
      "step": 4492
    },
    {
      "epoch": 1.152568460206503,
      "grad_norm": 41.408573150634766,
      "learning_rate": 5e-06,
      "loss": 0.7926,
      "num_input_tokens_seen": 567508556,
      "step": 4493
    },
    {
      "epoch": 1.152568460206503,
      "loss": 0.7170243263244629,
      "loss_ce": 0.0007156881038099527,
      "loss_iou": 0.33203125,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.71484375,
      "num_input_tokens_seen": 567508556,
      "step": 4493
    },
    {
      "epoch": 1.1528249855704482,
      "grad_norm": 43.28091812133789,
      "learning_rate": 5e-06,
      "loss": 0.7394,
      "num_input_tokens_seen": 567634944,
      "step": 4494
    },
    {
      "epoch": 1.1528249855704482,
      "loss": 0.6411104798316956,
      "loss_ce": 0.0002413822803646326,
      "loss_iou": 0.306640625,
      "loss_num": 0.005157470703125,
      "loss_xval": 0.640625,
      "num_input_tokens_seen": 567634944,
      "step": 4494
    },
    {
      "epoch": 1.1530815109343937,
      "grad_norm": 53.84357833862305,
      "learning_rate": 5e-06,
      "loss": 0.9558,
      "num_input_tokens_seen": 567760996,
      "step": 4495
    },
    {
      "epoch": 1.1530815109343937,
      "loss": 0.8985980153083801,
      "loss_ce": 0.0016253418289124966,
      "loss_iou": 0.42578125,
      "loss_num": 0.00946044921875,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 567760996,
      "step": 4495
    },
    {
      "epoch": 1.153338036298339,
      "grad_norm": 47.778160095214844,
      "learning_rate": 5e-06,
      "loss": 0.9394,
      "num_input_tokens_seen": 567886968,
      "step": 4496
    },
    {
      "epoch": 1.153338036298339,
      "loss": 0.9270901679992676,
      "loss_ce": 0.000820667133666575,
      "loss_iou": 0.435546875,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 567886968,
      "step": 4496
    },
    {
      "epoch": 1.1535945616622842,
      "grad_norm": 51.297630310058594,
      "learning_rate": 5e-06,
      "loss": 0.8352,
      "num_input_tokens_seen": 568013144,
      "step": 4497
    },
    {
      "epoch": 1.1535945616622842,
      "loss": 0.9491879343986511,
      "loss_ce": 0.0009457315900363028,
      "loss_iou": 0.431640625,
      "loss_num": 0.01708984375,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 568013144,
      "step": 4497
    },
    {
      "epoch": 1.1538510870262297,
      "grad_norm": 39.950984954833984,
      "learning_rate": 5e-06,
      "loss": 0.8372,
      "num_input_tokens_seen": 568139476,
      "step": 4498
    },
    {
      "epoch": 1.1538510870262297,
      "loss": 0.7550534009933472,
      "loss_ce": 0.0023678604047745466,
      "loss_iou": 0.349609375,
      "loss_num": 0.01092529296875,
      "loss_xval": 0.75390625,
      "num_input_tokens_seen": 568139476,
      "step": 4498
    },
    {
      "epoch": 1.154107612390175,
      "grad_norm": 44.750091552734375,
      "learning_rate": 5e-06,
      "loss": 0.8008,
      "num_input_tokens_seen": 568266088,
      "step": 4499
    },
    {
      "epoch": 1.154107612390175,
      "loss": 0.7812924981117249,
      "loss_ce": 0.00028664572164416313,
      "loss_iou": 0.365234375,
      "loss_num": 0.0103759765625,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 568266088,
      "step": 4499
    },
    {
      "epoch": 1.1543641377541205,
      "grad_norm": 34.144317626953125,
      "learning_rate": 5e-06,
      "loss": 0.8615,
      "num_input_tokens_seen": 568392016,
      "step": 4500
    },
    {
      "epoch": 1.1543641377541205,
      "eval_icons_CIoU": 0.31648050248622894,
      "eval_icons_GIoU": 0.2780092731118202,
      "eval_icons_IoU": 0.4821384400129318,
      "eval_icons_MAE_all": 0.020150872878730297,
      "eval_icons_MAE_h": 0.028211926110088825,
      "eval_icons_MAE_w": 0.04127909615635872,
      "eval_icons_MAE_x_boxes": 0.04051684029400349,
      "eval_icons_MAE_y_boxes": 0.028979620896279812,
      "eval_icons_NUM_probability": 0.999811053276062,
      "eval_icons_inside_bbox": 0.7395833432674408,
      "eval_icons_loss": 1.5006988048553467,
      "eval_icons_loss_ce": 6.302247493294999e-05,
      "eval_icons_loss_iou": 0.68603515625,
      "eval_icons_loss_num": 0.020051956176757812,
      "eval_icons_loss_xval": 1.47265625,
      "eval_icons_runtime": 45.347,
      "eval_icons_samples_per_second": 1.103,
      "eval_icons_steps_per_second": 0.044,
      "num_input_tokens_seen": 568392016,
      "step": 4500
    },
    {
      "epoch": 1.1543641377541205,
      "eval_screenspot_CIoU": 0.121437502404054,
      "eval_screenspot_GIoU": 0.10200619076689084,
      "eval_screenspot_IoU": 0.2918974955876668,
      "eval_screenspot_MAE_all": 0.07808919499317805,
      "eval_screenspot_MAE_h": 0.06975071256359418,
      "eval_screenspot_MAE_w": 0.1278847207625707,
      "eval_screenspot_MAE_x_boxes": 0.10676705092191696,
      "eval_screenspot_MAE_y_boxes": 0.0545857734978199,
      "eval_screenspot_NUM_probability": 0.99995090564092,
      "eval_screenspot_inside_bbox": 0.6016666690508524,
      "eval_screenspot_loss": 2.2424089908599854,
      "eval_screenspot_loss_ce": 0.004168823594227433,
      "eval_screenspot_loss_iou": 0.9310709635416666,
      "eval_screenspot_loss_num": 0.08284505208333333,
      "eval_screenspot_loss_xval": 2.2770182291666665,
      "eval_screenspot_runtime": 77.8125,
      "eval_screenspot_samples_per_second": 1.144,
      "eval_screenspot_steps_per_second": 0.039,
      "num_input_tokens_seen": 568392016,
      "step": 4500
    },
    {
      "epoch": 1.1543641377541205,
      "loss": 2.2521250247955322,
      "loss_ce": 0.002125152852386236,
      "loss_iou": 0.94140625,
      "loss_num": 0.07373046875,
      "loss_xval": 2.25,
      "num_input_tokens_seen": 568392016,
      "step": 4500
    },
    {
      "epoch": 1.1546206631180658,
      "grad_norm": 37.628116607666016,
      "learning_rate": 5e-06,
      "loss": 0.9212,
      "num_input_tokens_seen": 568518948,
      "step": 4501
    },
    {
      "epoch": 1.1546206631180658,
      "loss": 0.9438918232917786,
      "loss_ce": 0.001997299026697874,
      "loss_iou": 0.43359375,
      "loss_num": 0.015380859375,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 568518948,
      "step": 4501
    },
    {
      "epoch": 1.1548771884820113,
      "grad_norm": 47.65564727783203,
      "learning_rate": 5e-06,
      "loss": 0.9246,
      "num_input_tokens_seen": 568645208,
      "step": 4502
    },
    {
      "epoch": 1.1548771884820113,
      "loss": 0.8269538879394531,
      "loss_ce": 0.00419996352866292,
      "loss_iou": 0.369140625,
      "loss_num": 0.0169677734375,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 568645208,
      "step": 4502
    },
    {
      "epoch": 1.1551337138459565,
      "grad_norm": 52.776676177978516,
      "learning_rate": 5e-06,
      "loss": 0.8837,
      "num_input_tokens_seen": 568772776,
      "step": 4503
    },
    {
      "epoch": 1.1551337138459565,
      "loss": 0.978903591632843,
      "loss_ce": 0.00038796901935711503,
      "loss_iou": 0.4609375,
      "loss_num": 0.01141357421875,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 568772776,
      "step": 4503
    },
    {
      "epoch": 1.1553902392099018,
      "grad_norm": 57.221492767333984,
      "learning_rate": 5e-06,
      "loss": 0.9338,
      "num_input_tokens_seen": 568898528,
      "step": 4504
    },
    {
      "epoch": 1.1553902392099018,
      "loss": 1.0634046792984009,
      "loss_ce": 0.0009046964696608484,
      "loss_iou": 0.470703125,
      "loss_num": 0.0242919921875,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 568898528,
      "step": 4504
    },
    {
      "epoch": 1.1556467645738473,
      "grad_norm": 48.78168869018555,
      "learning_rate": 5e-06,
      "loss": 0.8847,
      "num_input_tokens_seen": 569025400,
      "step": 4505
    },
    {
      "epoch": 1.1556467645738473,
      "loss": 0.9872300624847412,
      "loss_ce": 0.00041369517566636205,
      "loss_iou": 0.4453125,
      "loss_num": 0.0196533203125,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 569025400,
      "step": 4505
    },
    {
      "epoch": 1.1559032899377926,
      "grad_norm": 49.437461853027344,
      "learning_rate": 5e-06,
      "loss": 0.9292,
      "num_input_tokens_seen": 569151676,
      "step": 4506
    },
    {
      "epoch": 1.1559032899377926,
      "loss": 0.8975967168807983,
      "loss_ce": 0.00013573843170888722,
      "loss_iou": 0.4140625,
      "loss_num": 0.013916015625,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 569151676,
      "step": 4506
    },
    {
      "epoch": 1.1561598153017378,
      "grad_norm": 48.490631103515625,
      "learning_rate": 5e-06,
      "loss": 0.8247,
      "num_input_tokens_seen": 569277772,
      "step": 4507
    },
    {
      "epoch": 1.1561598153017378,
      "loss": 0.7595241069793701,
      "loss_ce": 0.0007350355153903365,
      "loss_iou": 0.36328125,
      "loss_num": 0.0062255859375,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 569277772,
      "step": 4507
    },
    {
      "epoch": 1.1564163406656833,
      "grad_norm": 29.831327438354492,
      "learning_rate": 5e-06,
      "loss": 0.8537,
      "num_input_tokens_seen": 569403812,
      "step": 4508
    },
    {
      "epoch": 1.1564163406656833,
      "loss": 1.1168478727340698,
      "loss_ce": 0.0025901086628437042,
      "loss_iou": 0.49609375,
      "loss_num": 0.02490234375,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 569403812,
      "step": 4508
    },
    {
      "epoch": 1.1566728660296286,
      "grad_norm": 28.618806838989258,
      "learning_rate": 5e-06,
      "loss": 0.919,
      "num_input_tokens_seen": 569529644,
      "step": 4509
    },
    {
      "epoch": 1.1566728660296286,
      "loss": 0.7928444147109985,
      "loss_ce": 0.00036399037344381213,
      "loss_iou": 0.376953125,
      "loss_num": 0.007720947265625,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 569529644,
      "step": 4509
    },
    {
      "epoch": 1.156929391393574,
      "grad_norm": 23.060558319091797,
      "learning_rate": 5e-06,
      "loss": 0.8329,
      "num_input_tokens_seen": 569655064,
      "step": 4510
    },
    {
      "epoch": 1.156929391393574,
      "loss": 0.6823216676712036,
      "loss_ce": 0.0006810561753809452,
      "loss_iou": 0.330078125,
      "loss_num": 0.00421142578125,
      "loss_xval": 0.6796875,
      "num_input_tokens_seen": 569655064,
      "step": 4510
    },
    {
      "epoch": 1.1571859167575194,
      "grad_norm": 34.519962310791016,
      "learning_rate": 5e-06,
      "loss": 0.8859,
      "num_input_tokens_seen": 569780348,
      "step": 4511
    },
    {
      "epoch": 1.1571859167575194,
      "loss": 0.9675500392913818,
      "loss_ce": 0.0024621710181236267,
      "loss_iou": 0.435546875,
      "loss_num": 0.019287109375,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 569780348,
      "step": 4511
    },
    {
      "epoch": 1.1574424421214649,
      "grad_norm": 37.16963195800781,
      "learning_rate": 5e-06,
      "loss": 0.8462,
      "num_input_tokens_seen": 569906252,
      "step": 4512
    },
    {
      "epoch": 1.1574424421214649,
      "loss": 0.8693113327026367,
      "loss_ce": 0.0001707051123958081,
      "loss_iou": 0.40625,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 569906252,
      "step": 4512
    },
    {
      "epoch": 1.1576989674854101,
      "grad_norm": 51.7944221496582,
      "learning_rate": 5e-06,
      "loss": 0.8765,
      "num_input_tokens_seen": 570032548,
      "step": 4513
    },
    {
      "epoch": 1.1576989674854101,
      "loss": 0.6732085943222046,
      "loss_ce": 0.0006011518416926265,
      "loss_iou": 0.322265625,
      "loss_num": 0.00592041015625,
      "loss_xval": 0.671875,
      "num_input_tokens_seen": 570032548,
      "step": 4513
    },
    {
      "epoch": 1.1579554928493554,
      "grad_norm": 56.30427169799805,
      "learning_rate": 5e-06,
      "loss": 0.9273,
      "num_input_tokens_seen": 570159364,
      "step": 4514
    },
    {
      "epoch": 1.1579554928493554,
      "loss": 0.9967440366744995,
      "loss_ce": 0.00016202114056795835,
      "loss_iou": 0.453125,
      "loss_num": 0.0181884765625,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 570159364,
      "step": 4514
    },
    {
      "epoch": 1.1582120182133009,
      "grad_norm": 19.279375076293945,
      "learning_rate": 5e-06,
      "loss": 0.8959,
      "num_input_tokens_seen": 570284772,
      "step": 4515
    },
    {
      "epoch": 1.1582120182133009,
      "loss": 0.8812190294265747,
      "loss_ce": 0.0013362191384658217,
      "loss_iou": 0.40625,
      "loss_num": 0.01348876953125,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 570284772,
      "step": 4515
    },
    {
      "epoch": 1.1584685435772462,
      "grad_norm": 14.974258422851562,
      "learning_rate": 5e-06,
      "loss": 0.8063,
      "num_input_tokens_seen": 570410576,
      "step": 4516
    },
    {
      "epoch": 1.1584685435772462,
      "loss": 0.9165507555007935,
      "loss_ce": 0.0002909849863499403,
      "loss_iou": 0.421875,
      "loss_num": 0.01470947265625,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 570410576,
      "step": 4516
    },
    {
      "epoch": 1.1587250689411916,
      "grad_norm": 19.54275894165039,
      "learning_rate": 5e-06,
      "loss": 0.8425,
      "num_input_tokens_seen": 570537124,
      "step": 4517
    },
    {
      "epoch": 1.1587250689411916,
      "loss": 0.7510870695114136,
      "loss_ce": 0.0015753908082842827,
      "loss_iou": 0.341796875,
      "loss_num": 0.01361083984375,
      "loss_xval": 0.75,
      "num_input_tokens_seen": 570537124,
      "step": 4517
    },
    {
      "epoch": 1.158981594305137,
      "grad_norm": 23.062849044799805,
      "learning_rate": 5e-06,
      "loss": 0.8793,
      "num_input_tokens_seen": 570662992,
      "step": 4518
    },
    {
      "epoch": 1.158981594305137,
      "loss": 0.8020868301391602,
      "loss_ce": 0.0005731126293540001,
      "loss_iou": 0.369140625,
      "loss_num": 0.01300048828125,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 570662992,
      "step": 4518
    },
    {
      "epoch": 1.1592381196690822,
      "grad_norm": 22.309118270874023,
      "learning_rate": 5e-06,
      "loss": 0.9284,
      "num_input_tokens_seen": 570789376,
      "step": 4519
    },
    {
      "epoch": 1.1592381196690822,
      "loss": 0.7335063815116882,
      "loss_ce": 0.0010845317738130689,
      "loss_iou": 0.345703125,
      "loss_num": 0.00799560546875,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 570789376,
      "step": 4519
    },
    {
      "epoch": 1.1594946450330277,
      "grad_norm": 34.2843017578125,
      "learning_rate": 5e-06,
      "loss": 0.8957,
      "num_input_tokens_seen": 570915372,
      "step": 4520
    },
    {
      "epoch": 1.1594946450330277,
      "loss": 0.945745050907135,
      "loss_ce": 0.002873985795304179,
      "loss_iou": 0.435546875,
      "loss_num": 0.01446533203125,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 570915372,
      "step": 4520
    },
    {
      "epoch": 1.159751170396973,
      "grad_norm": 25.52448272705078,
      "learning_rate": 5e-06,
      "loss": 0.8369,
      "num_input_tokens_seen": 571041460,
      "step": 4521
    },
    {
      "epoch": 1.159751170396973,
      "loss": 0.8421894907951355,
      "loss_ce": 0.0003926500503439456,
      "loss_iou": 0.392578125,
      "loss_num": 0.010986328125,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 571041460,
      "step": 4521
    },
    {
      "epoch": 1.1600076957609184,
      "grad_norm": 35.809532165527344,
      "learning_rate": 5e-06,
      "loss": 0.8165,
      "num_input_tokens_seen": 571168200,
      "step": 4522
    },
    {
      "epoch": 1.1600076957609184,
      "loss": 0.9303097724914551,
      "loss_ce": 0.003551972098648548,
      "loss_iou": 0.421875,
      "loss_num": 0.01708984375,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 571168200,
      "step": 4522
    },
    {
      "epoch": 1.1602642211248637,
      "grad_norm": 57.80194854736328,
      "learning_rate": 5e-06,
      "loss": 0.8622,
      "num_input_tokens_seen": 571294844,
      "step": 4523
    },
    {
      "epoch": 1.1602642211248637,
      "loss": 0.8874683380126953,
      "loss_ce": 0.0002613542601466179,
      "loss_iou": 0.40625,
      "loss_num": 0.01483154296875,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 571294844,
      "step": 4523
    },
    {
      "epoch": 1.160520746488809,
      "grad_norm": 35.87123489379883,
      "learning_rate": 5e-06,
      "loss": 0.8668,
      "num_input_tokens_seen": 571420404,
      "step": 4524
    },
    {
      "epoch": 1.160520746488809,
      "loss": 0.9866613149642944,
      "loss_ce": 0.0005773517768830061,
      "loss_iou": 0.435546875,
      "loss_num": 0.0230712890625,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 571420404,
      "step": 4524
    },
    {
      "epoch": 1.1607772718527545,
      "grad_norm": 40.02013397216797,
      "learning_rate": 5e-06,
      "loss": 0.8504,
      "num_input_tokens_seen": 571547224,
      "step": 4525
    },
    {
      "epoch": 1.1607772718527545,
      "loss": 0.8007362484931946,
      "loss_ce": 7.708168413955718e-05,
      "loss_iou": 0.373046875,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 571547224,
      "step": 4525
    },
    {
      "epoch": 1.1610337972166997,
      "grad_norm": 34.42779541015625,
      "learning_rate": 5e-06,
      "loss": 0.8155,
      "num_input_tokens_seen": 571673760,
      "step": 4526
    },
    {
      "epoch": 1.1610337972166997,
      "loss": 0.7085493803024292,
      "loss_ce": 5.33264537807554e-05,
      "loss_iou": 0.33984375,
      "loss_num": 0.00555419921875,
      "loss_xval": 0.70703125,
      "num_input_tokens_seen": 571673760,
      "step": 4526
    },
    {
      "epoch": 1.1612903225806452,
      "grad_norm": 42.717498779296875,
      "learning_rate": 5e-06,
      "loss": 0.808,
      "num_input_tokens_seen": 571798876,
      "step": 4527
    },
    {
      "epoch": 1.1612903225806452,
      "loss": 0.7098283767700195,
      "loss_ce": 0.00011160923895658925,
      "loss_iou": 0.3359375,
      "loss_num": 0.007598876953125,
      "loss_xval": 0.7109375,
      "num_input_tokens_seen": 571798876,
      "step": 4527
    },
    {
      "epoch": 1.1615468479445905,
      "grad_norm": 36.57347106933594,
      "learning_rate": 5e-06,
      "loss": 0.9772,
      "num_input_tokens_seen": 571925472,
      "step": 4528
    },
    {
      "epoch": 1.1615468479445905,
      "loss": 1.2090398073196411,
      "loss_ce": 0.001032043481245637,
      "loss_iou": 0.55078125,
      "loss_num": 0.02099609375,
      "loss_xval": 1.2109375,
      "num_input_tokens_seen": 571925472,
      "step": 4528
    },
    {
      "epoch": 1.161803373308536,
      "grad_norm": 32.93621826171875,
      "learning_rate": 5e-06,
      "loss": 0.8169,
      "num_input_tokens_seen": 572051744,
      "step": 4529
    },
    {
      "epoch": 1.161803373308536,
      "loss": 0.8676299452781677,
      "loss_ce": 0.0011748457327485085,
      "loss_iou": 0.3984375,
      "loss_num": 0.01397705078125,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 572051744,
      "step": 4529
    },
    {
      "epoch": 1.1620598986724813,
      "grad_norm": 42.37870788574219,
      "learning_rate": 5e-06,
      "loss": 0.8322,
      "num_input_tokens_seen": 572178576,
      "step": 4530
    },
    {
      "epoch": 1.1620598986724813,
      "loss": 0.7946346998214722,
      "loss_ce": 0.001665959949605167,
      "loss_iou": 0.359375,
      "loss_num": 0.01513671875,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 572178576,
      "step": 4530
    },
    {
      "epoch": 1.1623164240364265,
      "grad_norm": 41.35211181640625,
      "learning_rate": 5e-06,
      "loss": 0.8361,
      "num_input_tokens_seen": 572305588,
      "step": 4531
    },
    {
      "epoch": 1.1623164240364265,
      "loss": 0.8207412958145142,
      "loss_ce": 0.0009170278790406883,
      "loss_iou": 0.38671875,
      "loss_num": 0.00933837890625,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 572305588,
      "step": 4531
    },
    {
      "epoch": 1.162572949400372,
      "grad_norm": 36.05964660644531,
      "learning_rate": 5e-06,
      "loss": 0.9522,
      "num_input_tokens_seen": 572431724,
      "step": 4532
    },
    {
      "epoch": 1.162572949400372,
      "loss": 1.2159754037857056,
      "loss_ce": 0.000643333769403398,
      "loss_iou": 0.54296875,
      "loss_num": 0.025634765625,
      "loss_xval": 1.21875,
      "num_input_tokens_seen": 572431724,
      "step": 4532
    },
    {
      "epoch": 1.1628294747643173,
      "grad_norm": 47.059852600097656,
      "learning_rate": 5e-06,
      "loss": 0.8094,
      "num_input_tokens_seen": 572557224,
      "step": 4533
    },
    {
      "epoch": 1.1628294747643173,
      "loss": 0.720871090888977,
      "loss_ce": 0.0006562181515619159,
      "loss_iou": 0.328125,
      "loss_num": 0.01324462890625,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 572557224,
      "step": 4533
    },
    {
      "epoch": 1.1630860001282626,
      "grad_norm": 50.49955749511719,
      "learning_rate": 5e-06,
      "loss": 0.943,
      "num_input_tokens_seen": 572683320,
      "step": 4534
    },
    {
      "epoch": 1.1630860001282626,
      "loss": 0.9858728647232056,
      "loss_ce": 0.0005212597898207605,
      "loss_iou": 0.44921875,
      "loss_num": 0.0174560546875,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 572683320,
      "step": 4534
    },
    {
      "epoch": 1.163342525492208,
      "grad_norm": 43.80109786987305,
      "learning_rate": 5e-06,
      "loss": 0.8189,
      "num_input_tokens_seen": 572809836,
      "step": 4535
    },
    {
      "epoch": 1.163342525492208,
      "loss": 0.811183750629425,
      "loss_ce": 0.0018575791036710143,
      "loss_iou": 0.37109375,
      "loss_num": 0.01318359375,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 572809836,
      "step": 4535
    },
    {
      "epoch": 1.1635990508561533,
      "grad_norm": 45.51151657104492,
      "learning_rate": 5e-06,
      "loss": 0.8344,
      "num_input_tokens_seen": 572936640,
      "step": 4536
    },
    {
      "epoch": 1.1635990508561533,
      "loss": 0.867432177066803,
      "loss_ce": 0.00610403111204505,
      "loss_iou": 0.404296875,
      "loss_num": 0.0106201171875,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 572936640,
      "step": 4536
    },
    {
      "epoch": 1.1638555762200988,
      "grad_norm": 47.10224151611328,
      "learning_rate": 5e-06,
      "loss": 0.7307,
      "num_input_tokens_seen": 573063588,
      "step": 4537
    },
    {
      "epoch": 1.1638555762200988,
      "loss": 0.7160865068435669,
      "loss_ce": 0.0012427003821358085,
      "loss_iou": 0.333984375,
      "loss_num": 0.0096435546875,
      "loss_xval": 0.71484375,
      "num_input_tokens_seen": 573063588,
      "step": 4537
    },
    {
      "epoch": 1.164112101584044,
      "grad_norm": 58.58885192871094,
      "learning_rate": 5e-06,
      "loss": 0.9121,
      "num_input_tokens_seen": 573190352,
      "step": 4538
    },
    {
      "epoch": 1.164112101584044,
      "loss": 0.9367368221282959,
      "loss_ce": 0.0007016891613602638,
      "loss_iou": 0.439453125,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 573190352,
      "step": 4538
    },
    {
      "epoch": 1.1643686269479896,
      "grad_norm": 60.32862854003906,
      "learning_rate": 5e-06,
      "loss": 0.8151,
      "num_input_tokens_seen": 573316952,
      "step": 4539
    },
    {
      "epoch": 1.1643686269479896,
      "loss": 0.8755601644515991,
      "loss_ce": 0.0005602054297924042,
      "loss_iou": 0.3984375,
      "loss_num": 0.015869140625,
      "loss_xval": 0.875,
      "num_input_tokens_seen": 573316952,
      "step": 4539
    },
    {
      "epoch": 1.1646251523119349,
      "grad_norm": 46.5384635925293,
      "learning_rate": 5e-06,
      "loss": 0.8108,
      "num_input_tokens_seen": 573442716,
      "step": 4540
    },
    {
      "epoch": 1.1646251523119349,
      "loss": 1.064786434173584,
      "loss_ce": 0.0017981571145355701,
      "loss_iou": 0.47265625,
      "loss_num": 0.0238037109375,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 573442716,
      "step": 4540
    },
    {
      "epoch": 1.1648816776758801,
      "grad_norm": 39.41315841674805,
      "learning_rate": 5e-06,
      "loss": 0.7988,
      "num_input_tokens_seen": 573567552,
      "step": 4541
    },
    {
      "epoch": 1.1648816776758801,
      "loss": 0.8795688152313232,
      "loss_ce": 0.00017425825353711843,
      "loss_iou": 0.4140625,
      "loss_num": 0.01068115234375,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 573567552,
      "step": 4541
    },
    {
      "epoch": 1.1651382030398256,
      "grad_norm": 46.57070541381836,
      "learning_rate": 5e-06,
      "loss": 0.9397,
      "num_input_tokens_seen": 573694140,
      "step": 4542
    },
    {
      "epoch": 1.1651382030398256,
      "loss": 1.1182448863983154,
      "loss_ce": 0.0025222119875252247,
      "loss_iou": 0.494140625,
      "loss_num": 0.025390625,
      "loss_xval": 1.1171875,
      "num_input_tokens_seen": 573694140,
      "step": 4542
    },
    {
      "epoch": 1.165394728403771,
      "grad_norm": 43.3175163269043,
      "learning_rate": 5e-06,
      "loss": 0.7067,
      "num_input_tokens_seen": 573819864,
      "step": 4543
    },
    {
      "epoch": 1.165394728403771,
      "loss": 0.6012135744094849,
      "loss_ce": 0.0001393805432599038,
      "loss_iou": 0.291015625,
      "loss_num": 0.0038909912109375,
      "loss_xval": 0.6015625,
      "num_input_tokens_seen": 573819864,
      "step": 4543
    },
    {
      "epoch": 1.1656512537677162,
      "grad_norm": 49.64727783203125,
      "learning_rate": 5e-06,
      "loss": 0.8328,
      "num_input_tokens_seen": 573946140,
      "step": 4544
    },
    {
      "epoch": 1.1656512537677162,
      "loss": 0.7432665824890137,
      "loss_ce": 0.0049853576347231865,
      "loss_iou": 0.34375,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 573946140,
      "step": 4544
    },
    {
      "epoch": 1.1659077791316617,
      "grad_norm": 50.002723693847656,
      "learning_rate": 5e-06,
      "loss": 0.7813,
      "num_input_tokens_seen": 574072236,
      "step": 4545
    },
    {
      "epoch": 1.1659077791316617,
      "loss": 0.8294141292572021,
      "loss_ce": 0.0003125669318251312,
      "loss_iou": 0.3828125,
      "loss_num": 0.012451171875,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 574072236,
      "step": 4545
    },
    {
      "epoch": 1.166164304495607,
      "grad_norm": 40.95685577392578,
      "learning_rate": 5e-06,
      "loss": 0.7915,
      "num_input_tokens_seen": 574197848,
      "step": 4546
    },
    {
      "epoch": 1.166164304495607,
      "loss": 0.7200202345848083,
      "loss_ce": 0.0037116569001227617,
      "loss_iou": 0.330078125,
      "loss_num": 0.0113525390625,
      "loss_xval": 0.71484375,
      "num_input_tokens_seen": 574197848,
      "step": 4546
    },
    {
      "epoch": 1.1664208298595524,
      "grad_norm": 44.59059143066406,
      "learning_rate": 5e-06,
      "loss": 0.8058,
      "num_input_tokens_seen": 574323768,
      "step": 4547
    },
    {
      "epoch": 1.1664208298595524,
      "loss": 0.8200675249099731,
      "loss_ce": 0.00878816470503807,
      "loss_iou": 0.37890625,
      "loss_num": 0.0107421875,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 574323768,
      "step": 4547
    },
    {
      "epoch": 1.1666773552234977,
      "grad_norm": 42.14200210571289,
      "learning_rate": 5e-06,
      "loss": 0.8343,
      "num_input_tokens_seen": 574450004,
      "step": 4548
    },
    {
      "epoch": 1.1666773552234977,
      "loss": 0.8473623991012573,
      "loss_ce": 0.00019438084564171731,
      "loss_iou": 0.3984375,
      "loss_num": 0.00946044921875,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 574450004,
      "step": 4548
    },
    {
      "epoch": 1.1669338805874432,
      "grad_norm": 52.06083679199219,
      "learning_rate": 5e-06,
      "loss": 0.8506,
      "num_input_tokens_seen": 574576272,
      "step": 4549
    },
    {
      "epoch": 1.1669338805874432,
      "loss": 0.8010478019714355,
      "loss_ce": 0.0002665590145625174,
      "loss_iou": 0.3828125,
      "loss_num": 0.006988525390625,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 574576272,
      "step": 4549
    },
    {
      "epoch": 1.1671904059513885,
      "grad_norm": 45.91111755371094,
      "learning_rate": 5e-06,
      "loss": 0.9084,
      "num_input_tokens_seen": 574702896,
      "step": 4550
    },
    {
      "epoch": 1.1671904059513885,
      "loss": 0.820820152759552,
      "loss_ce": 0.000995949492789805,
      "loss_iou": 0.37890625,
      "loss_num": 0.01226806640625,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 574702896,
      "step": 4550
    },
    {
      "epoch": 1.1674469313153337,
      "grad_norm": 32.767738342285156,
      "learning_rate": 5e-06,
      "loss": 0.7923,
      "num_input_tokens_seen": 574829968,
      "step": 4551
    },
    {
      "epoch": 1.1674469313153337,
      "loss": 0.7263056039810181,
      "loss_ce": 0.0004755000118166208,
      "loss_iou": 0.34765625,
      "loss_num": 0.005706787109375,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 574829968,
      "step": 4551
    },
    {
      "epoch": 1.1677034566792792,
      "grad_norm": 42.859649658203125,
      "learning_rate": 5e-06,
      "loss": 0.9388,
      "num_input_tokens_seen": 574956216,
      "step": 4552
    },
    {
      "epoch": 1.1677034566792792,
      "loss": 0.9670284986495972,
      "loss_ce": 0.0007198589737527072,
      "loss_iou": 0.43359375,
      "loss_num": 0.01953125,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 574956216,
      "step": 4552
    },
    {
      "epoch": 1.1679599820432245,
      "grad_norm": 46.200130462646484,
      "learning_rate": 5e-06,
      "loss": 0.8389,
      "num_input_tokens_seen": 575083716,
      "step": 4553
    },
    {
      "epoch": 1.1679599820432245,
      "loss": 0.8094574213027954,
      "loss_ce": 0.00013122055679559708,
      "loss_iou": 0.390625,
      "loss_num": 0.0052490234375,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 575083716,
      "step": 4553
    },
    {
      "epoch": 1.16821650740717,
      "grad_norm": 53.43812561035156,
      "learning_rate": 5e-06,
      "loss": 0.8887,
      "num_input_tokens_seen": 575210240,
      "step": 4554
    },
    {
      "epoch": 1.16821650740717,
      "loss": 0.8060768842697144,
      "loss_ce": 0.00041285352199338377,
      "loss_iou": 0.36328125,
      "loss_num": 0.015869140625,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 575210240,
      "step": 4554
    },
    {
      "epoch": 1.1684730327711152,
      "grad_norm": 57.51784133911133,
      "learning_rate": 5e-06,
      "loss": 0.8559,
      "num_input_tokens_seen": 575336440,
      "step": 4555
    },
    {
      "epoch": 1.1684730327711152,
      "loss": 0.7801345586776733,
      "loss_ce": 0.00034936339943669736,
      "loss_iou": 0.353515625,
      "loss_num": 0.0145263671875,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 575336440,
      "step": 4555
    },
    {
      "epoch": 1.1687295581350605,
      "grad_norm": 36.79499435424805,
      "learning_rate": 5e-06,
      "loss": 0.9429,
      "num_input_tokens_seen": 575462568,
      "step": 4556
    },
    {
      "epoch": 1.1687295581350605,
      "loss": 0.9999934434890747,
      "loss_ce": 0.00048168140347115695,
      "loss_iou": 0.453125,
      "loss_num": 0.0186767578125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 575462568,
      "step": 4556
    },
    {
      "epoch": 1.168986083499006,
      "grad_norm": 21.925382614135742,
      "learning_rate": 5e-06,
      "loss": 0.7533,
      "num_input_tokens_seen": 575589196,
      "step": 4557
    },
    {
      "epoch": 1.168986083499006,
      "loss": 0.6767134070396423,
      "loss_ce": 0.00044386257650330663,
      "loss_iou": 0.32421875,
      "loss_num": 0.00518798828125,
      "loss_xval": 0.67578125,
      "num_input_tokens_seen": 575589196,
      "step": 4557
    },
    {
      "epoch": 1.1692426088629513,
      "grad_norm": 17.59357261657715,
      "learning_rate": 5e-06,
      "loss": 0.9078,
      "num_input_tokens_seen": 575716232,
      "step": 4558
    },
    {
      "epoch": 1.1692426088629513,
      "loss": 0.8279498815536499,
      "loss_ce": 0.0008014380000531673,
      "loss_iou": 0.384765625,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 575716232,
      "step": 4558
    },
    {
      "epoch": 1.1694991342268968,
      "grad_norm": 31.002777099609375,
      "learning_rate": 5e-06,
      "loss": 0.8861,
      "num_input_tokens_seen": 575842296,
      "step": 4559
    },
    {
      "epoch": 1.1694991342268968,
      "loss": 0.9588915109634399,
      "loss_ce": 0.0023485212586820126,
      "loss_iou": 0.443359375,
      "loss_num": 0.013671875,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 575842296,
      "step": 4559
    },
    {
      "epoch": 1.169755659590842,
      "grad_norm": 33.45065689086914,
      "learning_rate": 5e-06,
      "loss": 0.7569,
      "num_input_tokens_seen": 575967748,
      "step": 4560
    },
    {
      "epoch": 1.169755659590842,
      "loss": 0.7655437588691711,
      "loss_ce": 0.0048016030341386795,
      "loss_iou": 0.34375,
      "loss_num": 0.01446533203125,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 575967748,
      "step": 4560
    },
    {
      "epoch": 1.1700121849547873,
      "grad_norm": 54.65034866333008,
      "learning_rate": 5e-06,
      "loss": 0.9685,
      "num_input_tokens_seen": 576094476,
      "step": 4561
    },
    {
      "epoch": 1.1700121849547873,
      "loss": 1.0133445262908936,
      "loss_ce": 0.00309053435921669,
      "loss_iou": 0.466796875,
      "loss_num": 0.0155029296875,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 576094476,
      "step": 4561
    },
    {
      "epoch": 1.1702687103187328,
      "grad_norm": 51.731483459472656,
      "learning_rate": 5e-06,
      "loss": 0.9526,
      "num_input_tokens_seen": 576221036,
      "step": 4562
    },
    {
      "epoch": 1.1702687103187328,
      "loss": 0.9475976824760437,
      "loss_ce": 0.0013086418621242046,
      "loss_iou": 0.431640625,
      "loss_num": 0.01611328125,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 576221036,
      "step": 4562
    },
    {
      "epoch": 1.170525235682678,
      "grad_norm": 35.754478454589844,
      "learning_rate": 5e-06,
      "loss": 0.909,
      "num_input_tokens_seen": 576347696,
      "step": 4563
    },
    {
      "epoch": 1.170525235682678,
      "loss": 0.8464227914810181,
      "loss_ce": 0.005114208906888962,
      "loss_iou": 0.390625,
      "loss_num": 0.012451171875,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 576347696,
      "step": 4563
    },
    {
      "epoch": 1.1707817610466236,
      "grad_norm": 43.96115493774414,
      "learning_rate": 5e-06,
      "loss": 0.9723,
      "num_input_tokens_seen": 576474332,
      "step": 4564
    },
    {
      "epoch": 1.1707817610466236,
      "loss": 1.0251595973968506,
      "loss_ce": 0.0002572696830611676,
      "loss_iou": 0.470703125,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 576474332,
      "step": 4564
    },
    {
      "epoch": 1.1710382864105688,
      "grad_norm": 49.177467346191406,
      "learning_rate": 5e-06,
      "loss": 0.921,
      "num_input_tokens_seen": 576600856,
      "step": 4565
    },
    {
      "epoch": 1.1710382864105688,
      "loss": 0.9086631536483765,
      "loss_ce": 0.0004599944222718477,
      "loss_iou": 0.41796875,
      "loss_num": 0.01416015625,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 576600856,
      "step": 4565
    },
    {
      "epoch": 1.171294811774514,
      "grad_norm": 33.261417388916016,
      "learning_rate": 5e-06,
      "loss": 0.8403,
      "num_input_tokens_seen": 576725860,
      "step": 4566
    },
    {
      "epoch": 1.171294811774514,
      "loss": 0.7302703857421875,
      "loss_ce": 0.000778151792474091,
      "loss_iou": 0.341796875,
      "loss_num": 0.0091552734375,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 576725860,
      "step": 4566
    },
    {
      "epoch": 1.1715513371384596,
      "grad_norm": 34.12145233154297,
      "learning_rate": 5e-06,
      "loss": 0.9388,
      "num_input_tokens_seen": 576852060,
      "step": 4567
    },
    {
      "epoch": 1.1715513371384596,
      "loss": 0.9952550530433655,
      "loss_ce": 0.0008702880586497486,
      "loss_iou": 0.45703125,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 576852060,
      "step": 4567
    },
    {
      "epoch": 1.1718078625024049,
      "grad_norm": 34.77125549316406,
      "learning_rate": 5e-06,
      "loss": 0.8991,
      "num_input_tokens_seen": 576977584,
      "step": 4568
    },
    {
      "epoch": 1.1718078625024049,
      "loss": 0.806506872177124,
      "loss_ce": 0.00108696601819247,
      "loss_iou": 0.37109375,
      "loss_num": 0.01287841796875,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 576977584,
      "step": 4568
    },
    {
      "epoch": 1.1720643878663504,
      "grad_norm": 29.107471466064453,
      "learning_rate": 5e-06,
      "loss": 0.802,
      "num_input_tokens_seen": 577105088,
      "step": 4569
    },
    {
      "epoch": 1.1720643878663504,
      "loss": 0.7420886158943176,
      "loss_ce": 0.0011218349682167172,
      "loss_iou": 0.349609375,
      "loss_num": 0.00860595703125,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 577105088,
      "step": 4569
    },
    {
      "epoch": 1.1723209132302956,
      "grad_norm": 32.19477844238281,
      "learning_rate": 5e-06,
      "loss": 0.8479,
      "num_input_tokens_seen": 577231752,
      "step": 4570
    },
    {
      "epoch": 1.1723209132302956,
      "loss": 0.6239475011825562,
      "loss_ce": 0.0009006330510601401,
      "loss_iou": 0.294921875,
      "loss_num": 0.006561279296875,
      "loss_xval": 0.625,
      "num_input_tokens_seen": 577231752,
      "step": 4570
    },
    {
      "epoch": 1.172577438594241,
      "grad_norm": 47.64165115356445,
      "learning_rate": 5e-06,
      "loss": 0.8753,
      "num_input_tokens_seen": 577358380,
      "step": 4571
    },
    {
      "epoch": 1.172577438594241,
      "loss": 0.9160193800926208,
      "loss_ce": 0.0009803138673305511,
      "loss_iou": 0.40625,
      "loss_num": 0.020751953125,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 577358380,
      "step": 4571
    },
    {
      "epoch": 1.1728339639581864,
      "grad_norm": 44.90454864501953,
      "learning_rate": 5e-06,
      "loss": 0.8594,
      "num_input_tokens_seen": 577484748,
      "step": 4572
    },
    {
      "epoch": 1.1728339639581864,
      "loss": 0.8819500803947449,
      "loss_ce": 0.0025555454194545746,
      "loss_iou": 0.41015625,
      "loss_num": 0.01153564453125,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 577484748,
      "step": 4572
    },
    {
      "epoch": 1.1730904893221317,
      "grad_norm": 42.69655990600586,
      "learning_rate": 5e-06,
      "loss": 0.7585,
      "num_input_tokens_seen": 577611792,
      "step": 4573
    },
    {
      "epoch": 1.1730904893221317,
      "loss": 0.8984812498092651,
      "loss_ce": 0.001020363182760775,
      "loss_iou": 0.40625,
      "loss_num": 0.0167236328125,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 577611792,
      "step": 4573
    },
    {
      "epoch": 1.1733470146860772,
      "grad_norm": 44.36417770385742,
      "learning_rate": 5e-06,
      "loss": 0.7653,
      "num_input_tokens_seen": 577738892,
      "step": 4574
    },
    {
      "epoch": 1.1733470146860772,
      "loss": 0.788877010345459,
      "loss_ce": 0.0007910501444712281,
      "loss_iou": 0.3671875,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 577738892,
      "step": 4574
    },
    {
      "epoch": 1.1736035400500224,
      "grad_norm": 41.73553466796875,
      "learning_rate": 5e-06,
      "loss": 0.782,
      "num_input_tokens_seen": 577864348,
      "step": 4575
    },
    {
      "epoch": 1.1736035400500224,
      "loss": 0.9593762159347534,
      "loss_ce": 0.003809826448559761,
      "loss_iou": 0.43359375,
      "loss_num": 0.017822265625,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 577864348,
      "step": 4575
    },
    {
      "epoch": 1.173860065413968,
      "grad_norm": 54.07448196411133,
      "learning_rate": 5e-06,
      "loss": 0.9085,
      "num_input_tokens_seen": 577990676,
      "step": 4576
    },
    {
      "epoch": 1.173860065413968,
      "loss": 0.9043574929237366,
      "loss_ce": 0.003966839052736759,
      "loss_iou": 0.408203125,
      "loss_num": 0.016845703125,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 577990676,
      "step": 4576
    },
    {
      "epoch": 1.1741165907779132,
      "grad_norm": 67.6137466430664,
      "learning_rate": 5e-06,
      "loss": 0.8764,
      "num_input_tokens_seen": 578118024,
      "step": 4577
    },
    {
      "epoch": 1.1741165907779132,
      "loss": 0.8529617190361023,
      "loss_ce": 0.0018875104142352939,
      "loss_iou": 0.40234375,
      "loss_num": 0.00933837890625,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 578118024,
      "step": 4577
    },
    {
      "epoch": 1.1743731161418585,
      "grad_norm": 46.12276840209961,
      "learning_rate": 5e-06,
      "loss": 0.9218,
      "num_input_tokens_seen": 578243884,
      "step": 4578
    },
    {
      "epoch": 1.1743731161418585,
      "loss": 0.9537265300750732,
      "loss_ce": 0.00011331253335811198,
      "loss_iou": 0.431640625,
      "loss_num": 0.0181884765625,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 578243884,
      "step": 4578
    },
    {
      "epoch": 1.174629641505804,
      "grad_norm": 20.67555809020996,
      "learning_rate": 5e-06,
      "loss": 0.8074,
      "num_input_tokens_seen": 578370012,
      "step": 4579
    },
    {
      "epoch": 1.174629641505804,
      "loss": 0.7617918252944946,
      "loss_ce": 7.310444198083133e-05,
      "loss_iou": 0.3515625,
      "loss_num": 0.01190185546875,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 578370012,
      "step": 4579
    },
    {
      "epoch": 1.1748861668697492,
      "grad_norm": 21.953819274902344,
      "learning_rate": 5e-06,
      "loss": 0.9685,
      "num_input_tokens_seen": 578495492,
      "step": 4580
    },
    {
      "epoch": 1.1748861668697492,
      "loss": 0.8596168756484985,
      "loss_ce": 0.0002418872609268874,
      "loss_iou": 0.40625,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 578495492,
      "step": 4580
    },
    {
      "epoch": 1.1751426922336945,
      "grad_norm": 40.53633117675781,
      "learning_rate": 5e-06,
      "loss": 0.8835,
      "num_input_tokens_seen": 578622524,
      "step": 4581
    },
    {
      "epoch": 1.1751426922336945,
      "loss": 1.051048755645752,
      "loss_ce": 0.0017324090003967285,
      "loss_iou": 0.470703125,
      "loss_num": 0.021728515625,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 578622524,
      "step": 4581
    },
    {
      "epoch": 1.17539921759764,
      "grad_norm": 30.6467227935791,
      "learning_rate": 5e-06,
      "loss": 0.8191,
      "num_input_tokens_seen": 578749152,
      "step": 4582
    },
    {
      "epoch": 1.17539921759764,
      "loss": 0.811220645904541,
      "loss_ce": 0.003359347814694047,
      "loss_iou": 0.380859375,
      "loss_num": 0.00927734375,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 578749152,
      "step": 4582
    },
    {
      "epoch": 1.1756557429615853,
      "grad_norm": 45.24897384643555,
      "learning_rate": 5e-06,
      "loss": 0.8285,
      "num_input_tokens_seen": 578875744,
      "step": 4583
    },
    {
      "epoch": 1.1756557429615853,
      "loss": 0.7563344240188599,
      "loss_ce": 0.0009633263107389212,
      "loss_iou": 0.3515625,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.75390625,
      "num_input_tokens_seen": 578875744,
      "step": 4583
    },
    {
      "epoch": 1.1759122683255308,
      "grad_norm": 37.89247131347656,
      "learning_rate": 5e-06,
      "loss": 0.894,
      "num_input_tokens_seen": 579000688,
      "step": 4584
    },
    {
      "epoch": 1.1759122683255308,
      "loss": 0.8557764291763306,
      "loss_ce": 0.007631906308233738,
      "loss_iou": 0.40234375,
      "loss_num": 0.00836181640625,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 579000688,
      "step": 4584
    },
    {
      "epoch": 1.176168793689476,
      "grad_norm": 36.54160690307617,
      "learning_rate": 5e-06,
      "loss": 0.7979,
      "num_input_tokens_seen": 579126688,
      "step": 4585
    },
    {
      "epoch": 1.176168793689476,
      "loss": 0.843592643737793,
      "loss_ce": 0.0005750389536842704,
      "loss_iou": 0.384765625,
      "loss_num": 0.014892578125,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 579126688,
      "step": 4585
    },
    {
      "epoch": 1.1764253190534215,
      "grad_norm": 40.365177154541016,
      "learning_rate": 5e-06,
      "loss": 0.7892,
      "num_input_tokens_seen": 579253388,
      "step": 4586
    },
    {
      "epoch": 1.1764253190534215,
      "loss": 0.7280598282814026,
      "loss_ce": 0.00027660897467285395,
      "loss_iou": 0.34765625,
      "loss_num": 0.00653076171875,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 579253388,
      "step": 4586
    },
    {
      "epoch": 1.1766818444173668,
      "grad_norm": 55.537620544433594,
      "learning_rate": 5e-06,
      "loss": 0.8995,
      "num_input_tokens_seen": 579380672,
      "step": 4587
    },
    {
      "epoch": 1.1766818444173668,
      "loss": 0.7508025169372559,
      "loss_ce": 0.0015349689638242126,
      "loss_iou": 0.34765625,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.75,
      "num_input_tokens_seen": 579380672,
      "step": 4587
    },
    {
      "epoch": 1.176938369781312,
      "grad_norm": 50.71245193481445,
      "learning_rate": 5e-06,
      "loss": 0.8281,
      "num_input_tokens_seen": 579507812,
      "step": 4588
    },
    {
      "epoch": 1.176938369781312,
      "loss": 0.7760930061340332,
      "loss_ce": 0.0007023385260254145,
      "loss_iou": 0.369140625,
      "loss_num": 0.007049560546875,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 579507812,
      "step": 4588
    },
    {
      "epoch": 1.1771948951452575,
      "grad_norm": 45.852439880371094,
      "learning_rate": 5e-06,
      "loss": 0.8337,
      "num_input_tokens_seen": 579634284,
      "step": 4589
    },
    {
      "epoch": 1.1771948951452575,
      "loss": 0.8098774552345276,
      "loss_ce": 0.0017719878815114498,
      "loss_iou": 0.365234375,
      "loss_num": 0.01556396484375,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 579634284,
      "step": 4589
    },
    {
      "epoch": 1.1774514205092028,
      "grad_norm": 47.360347747802734,
      "learning_rate": 5e-06,
      "loss": 0.9107,
      "num_input_tokens_seen": 579760808,
      "step": 4590
    },
    {
      "epoch": 1.1774514205092028,
      "loss": 0.8430802226066589,
      "loss_ce": 0.001283317687921226,
      "loss_iou": 0.404296875,
      "loss_num": 0.0064697265625,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 579760808,
      "step": 4590
    },
    {
      "epoch": 1.177707945873148,
      "grad_norm": 52.954647064208984,
      "learning_rate": 5e-06,
      "loss": 0.8496,
      "num_input_tokens_seen": 579885896,
      "step": 4591
    },
    {
      "epoch": 1.177707945873148,
      "loss": 0.7786237001419067,
      "loss_ce": 0.0005475407233461738,
      "loss_iou": 0.359375,
      "loss_num": 0.01171875,
      "loss_xval": 0.77734375,
      "num_input_tokens_seen": 579885896,
      "step": 4591
    },
    {
      "epoch": 1.1779644712370936,
      "grad_norm": 33.68499755859375,
      "learning_rate": 5e-06,
      "loss": 0.8974,
      "num_input_tokens_seen": 580011784,
      "step": 4592
    },
    {
      "epoch": 1.1779644712370936,
      "loss": 0.8921992778778076,
      "loss_ce": 0.0008418389479629695,
      "loss_iou": 0.404296875,
      "loss_num": 0.016357421875,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 580011784,
      "step": 4592
    },
    {
      "epoch": 1.1782209966010389,
      "grad_norm": 20.487777709960938,
      "learning_rate": 5e-06,
      "loss": 0.8923,
      "num_input_tokens_seen": 580137836,
      "step": 4593
    },
    {
      "epoch": 1.1782209966010389,
      "loss": 1.0280570983886719,
      "loss_ce": 0.000469218532089144,
      "loss_iou": 0.46484375,
      "loss_num": 0.0196533203125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 580137836,
      "step": 4593
    },
    {
      "epoch": 1.1784775219649843,
      "grad_norm": 42.857479095458984,
      "learning_rate": 5e-06,
      "loss": 0.8056,
      "num_input_tokens_seen": 580263624,
      "step": 4594
    },
    {
      "epoch": 1.1784775219649843,
      "loss": 0.7145461440086365,
      "loss_ce": 0.001411376055330038,
      "loss_iou": 0.341796875,
      "loss_num": 0.006072998046875,
      "loss_xval": 0.71484375,
      "num_input_tokens_seen": 580263624,
      "step": 4594
    },
    {
      "epoch": 1.1787340473289296,
      "grad_norm": 42.474464416503906,
      "learning_rate": 5e-06,
      "loss": 0.8184,
      "num_input_tokens_seen": 580389184,
      "step": 4595
    },
    {
      "epoch": 1.1787340473289296,
      "loss": 0.8914209604263306,
      "loss_ce": 0.00030769355362281203,
      "loss_iou": 0.412109375,
      "loss_num": 0.01324462890625,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 580389184,
      "step": 4595
    },
    {
      "epoch": 1.178990572692875,
      "grad_norm": 60.3443489074707,
      "learning_rate": 5e-06,
      "loss": 0.7957,
      "num_input_tokens_seen": 580515988,
      "step": 4596
    },
    {
      "epoch": 1.178990572692875,
      "loss": 0.8500913381576538,
      "loss_ce": 0.0019468243699520826,
      "loss_iou": 0.400390625,
      "loss_num": 0.0096435546875,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 580515988,
      "step": 4596
    },
    {
      "epoch": 1.1792470980568204,
      "grad_norm": 47.67316436767578,
      "learning_rate": 5e-06,
      "loss": 0.8917,
      "num_input_tokens_seen": 580643564,
      "step": 4597
    },
    {
      "epoch": 1.1792470980568204,
      "loss": 0.7808536291122437,
      "loss_ce": 9.19197773328051e-05,
      "loss_iou": 0.3671875,
      "loss_num": 0.00927734375,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 580643564,
      "step": 4597
    },
    {
      "epoch": 1.1795036234207656,
      "grad_norm": 32.87125015258789,
      "learning_rate": 5e-06,
      "loss": 0.7381,
      "num_input_tokens_seen": 580769108,
      "step": 4598
    },
    {
      "epoch": 1.1795036234207656,
      "loss": 0.8275707960128784,
      "loss_ce": 0.0013989085564389825,
      "loss_iou": 0.380859375,
      "loss_num": 0.01275634765625,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 580769108,
      "step": 4598
    },
    {
      "epoch": 1.1797601487847111,
      "grad_norm": 32.77552032470703,
      "learning_rate": 5e-06,
      "loss": 0.7536,
      "num_input_tokens_seen": 580895112,
      "step": 4599
    },
    {
      "epoch": 1.1797601487847111,
      "loss": 0.6803081035614014,
      "loss_ce": 0.0006205724785104394,
      "loss_iou": 0.328125,
      "loss_num": 0.004547119140625,
      "loss_xval": 0.6796875,
      "num_input_tokens_seen": 580895112,
      "step": 4599
    },
    {
      "epoch": 1.1800166741486564,
      "grad_norm": 40.71432876586914,
      "learning_rate": 5e-06,
      "loss": 0.8341,
      "num_input_tokens_seen": 581020656,
      "step": 4600
    },
    {
      "epoch": 1.1800166741486564,
      "loss": 0.8069639205932617,
      "loss_ce": 0.0012998477322980762,
      "loss_iou": 0.37890625,
      "loss_num": 0.010009765625,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 581020656,
      "step": 4600
    },
    {
      "epoch": 1.180273199512602,
      "grad_norm": 45.228065490722656,
      "learning_rate": 5e-06,
      "loss": 0.7992,
      "num_input_tokens_seen": 581147680,
      "step": 4601
    },
    {
      "epoch": 1.180273199512602,
      "loss": 0.9379592537879944,
      "loss_ce": 0.0009475365513935685,
      "loss_iou": 0.431640625,
      "loss_num": 0.01495361328125,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 581147680,
      "step": 4601
    },
    {
      "epoch": 1.1805297248765472,
      "grad_norm": 59.00119400024414,
      "learning_rate": 5e-06,
      "loss": 0.8358,
      "num_input_tokens_seen": 581275000,
      "step": 4602
    },
    {
      "epoch": 1.1805297248765472,
      "loss": 1.0336050987243652,
      "loss_ce": 0.0018668161937966943,
      "loss_iou": 0.466796875,
      "loss_num": 0.0201416015625,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 581275000,
      "step": 4602
    },
    {
      "epoch": 1.1807862502404924,
      "grad_norm": 52.54079055786133,
      "learning_rate": 5e-06,
      "loss": 0.806,
      "num_input_tokens_seen": 581400828,
      "step": 4603
    },
    {
      "epoch": 1.1807862502404924,
      "loss": 0.6920989155769348,
      "loss_ce": 0.0011809266870841384,
      "loss_iou": 0.32421875,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.69140625,
      "num_input_tokens_seen": 581400828,
      "step": 4603
    },
    {
      "epoch": 1.181042775604438,
      "grad_norm": 30.077484130859375,
      "learning_rate": 5e-06,
      "loss": 0.8948,
      "num_input_tokens_seen": 581526864,
      "step": 4604
    },
    {
      "epoch": 1.181042775604438,
      "loss": 0.7204556465148926,
      "loss_ce": 0.0031705095898360014,
      "loss_iou": 0.330078125,
      "loss_num": 0.010986328125,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 581526864,
      "step": 4604
    },
    {
      "epoch": 1.1812993009683832,
      "grad_norm": 30.17238426208496,
      "learning_rate": 5e-06,
      "loss": 0.7961,
      "num_input_tokens_seen": 581653804,
      "step": 4605
    },
    {
      "epoch": 1.1812993009683832,
      "loss": 0.7269279956817627,
      "loss_ce": 0.00012132945994380862,
      "loss_iou": 0.34765625,
      "loss_num": 0.00634765625,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 581653804,
      "step": 4605
    },
    {
      "epoch": 1.1815558263323287,
      "grad_norm": 36.594268798828125,
      "learning_rate": 5e-06,
      "loss": 0.8876,
      "num_input_tokens_seen": 581779988,
      "step": 4606
    },
    {
      "epoch": 1.1815558263323287,
      "loss": 0.9021351337432861,
      "loss_ce": 0.002721048891544342,
      "loss_iou": 0.4140625,
      "loss_num": 0.0145263671875,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 581779988,
      "step": 4606
    },
    {
      "epoch": 1.181812351696274,
      "grad_norm": 32.78271484375,
      "learning_rate": 5e-06,
      "loss": 0.8611,
      "num_input_tokens_seen": 581905292,
      "step": 4607
    },
    {
      "epoch": 1.181812351696274,
      "loss": 0.8906292915344238,
      "loss_ce": 0.0019573902245610952,
      "loss_iou": 0.41796875,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 581905292,
      "step": 4607
    },
    {
      "epoch": 1.1820688770602192,
      "grad_norm": 27.876537322998047,
      "learning_rate": 5e-06,
      "loss": 0.8281,
      "num_input_tokens_seen": 582031600,
      "step": 4608
    },
    {
      "epoch": 1.1820688770602192,
      "loss": 0.772733211517334,
      "loss_ce": 0.00027225870871916413,
      "loss_iou": 0.359375,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 582031600,
      "step": 4608
    },
    {
      "epoch": 1.1823254024241647,
      "grad_norm": 30.16394805908203,
      "learning_rate": 5e-06,
      "loss": 0.7993,
      "num_input_tokens_seen": 582158456,
      "step": 4609
    },
    {
      "epoch": 1.1823254024241647,
      "loss": 0.7312488555908203,
      "loss_ce": 0.003709780750796199,
      "loss_iou": 0.34765625,
      "loss_num": 0.006256103515625,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 582158456,
      "step": 4609
    },
    {
      "epoch": 1.18258192778811,
      "grad_norm": 33.31243133544922,
      "learning_rate": 5e-06,
      "loss": 0.9087,
      "num_input_tokens_seen": 582283644,
      "step": 4610
    },
    {
      "epoch": 1.18258192778811,
      "loss": 0.6896200180053711,
      "loss_ce": 0.0016317334957420826,
      "loss_iou": 0.326171875,
      "loss_num": 0.007080078125,
      "loss_xval": 0.6875,
      "num_input_tokens_seen": 582283644,
      "step": 4610
    },
    {
      "epoch": 1.1828384531520555,
      "grad_norm": 37.25088882446289,
      "learning_rate": 5e-06,
      "loss": 0.8791,
      "num_input_tokens_seen": 582410640,
      "step": 4611
    },
    {
      "epoch": 1.1828384531520555,
      "loss": 0.7652536630630493,
      "loss_ce": 0.00011700352479238063,
      "loss_iou": 0.359375,
      "loss_num": 0.0091552734375,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 582410640,
      "step": 4611
    },
    {
      "epoch": 1.1830949785160008,
      "grad_norm": 61.7139892578125,
      "learning_rate": 5e-06,
      "loss": 0.8195,
      "num_input_tokens_seen": 582537020,
      "step": 4612
    },
    {
      "epoch": 1.1830949785160008,
      "loss": 0.9085956811904907,
      "loss_ce": 0.0028339552227407694,
      "loss_iou": 0.390625,
      "loss_num": 0.0245361328125,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 582537020,
      "step": 4612
    },
    {
      "epoch": 1.1833515038799463,
      "grad_norm": 41.286529541015625,
      "learning_rate": 5e-06,
      "loss": 0.923,
      "num_input_tokens_seen": 582663688,
      "step": 4613
    },
    {
      "epoch": 1.1833515038799463,
      "loss": 0.9782660007476807,
      "loss_ce": 0.002191841369494796,
      "loss_iou": 0.45703125,
      "loss_num": 0.0125732421875,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 582663688,
      "step": 4613
    },
    {
      "epoch": 1.1836080292438915,
      "grad_norm": 40.64524841308594,
      "learning_rate": 5e-06,
      "loss": 0.8724,
      "num_input_tokens_seen": 582790044,
      "step": 4614
    },
    {
      "epoch": 1.1836080292438915,
      "loss": 0.832642674446106,
      "loss_ce": 0.0001231193746207282,
      "loss_iou": 0.376953125,
      "loss_num": 0.0155029296875,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 582790044,
      "step": 4614
    },
    {
      "epoch": 1.1838645546078368,
      "grad_norm": 34.41304397583008,
      "learning_rate": 5e-06,
      "loss": 0.7558,
      "num_input_tokens_seen": 582916008,
      "step": 4615
    },
    {
      "epoch": 1.1838645546078368,
      "loss": 0.7711011171340942,
      "loss_ce": 0.00010501577344257385,
      "loss_iou": 0.37109375,
      "loss_num": 0.0059814453125,
      "loss_xval": 0.76953125,
      "num_input_tokens_seen": 582916008,
      "step": 4615
    },
    {
      "epoch": 1.1841210799717823,
      "grad_norm": 35.31270980834961,
      "learning_rate": 5e-06,
      "loss": 0.9353,
      "num_input_tokens_seen": 583043020,
      "step": 4616
    },
    {
      "epoch": 1.1841210799717823,
      "loss": 0.93311607837677,
      "loss_ce": 0.0004988645669072866,
      "loss_iou": 0.42578125,
      "loss_num": 0.0164794921875,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 583043020,
      "step": 4616
    },
    {
      "epoch": 1.1843776053357276,
      "grad_norm": 33.067588806152344,
      "learning_rate": 5e-06,
      "loss": 0.9322,
      "num_input_tokens_seen": 583169340,
      "step": 4617
    },
    {
      "epoch": 1.1843776053357276,
      "loss": 1.1281083822250366,
      "loss_ce": 0.0031083454377949238,
      "loss_iou": 0.49609375,
      "loss_num": 0.0264892578125,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 583169340,
      "step": 4617
    },
    {
      "epoch": 1.1846341306996728,
      "grad_norm": 30.148147583007812,
      "learning_rate": 5e-06,
      "loss": 0.7761,
      "num_input_tokens_seen": 583297076,
      "step": 4618
    },
    {
      "epoch": 1.1846341306996728,
      "loss": 0.6387446522712708,
      "loss_ce": 0.00031693995697423816,
      "loss_iou": 0.30859375,
      "loss_num": 0.0040283203125,
      "loss_xval": 0.63671875,
      "num_input_tokens_seen": 583297076,
      "step": 4618
    },
    {
      "epoch": 1.1848906560636183,
      "grad_norm": 51.00368118286133,
      "learning_rate": 5e-06,
      "loss": 0.783,
      "num_input_tokens_seen": 583423480,
      "step": 4619
    },
    {
      "epoch": 1.1848906560636183,
      "loss": 0.7757353782653809,
      "loss_ce": 0.00010061202920041978,
      "loss_iou": 0.359375,
      "loss_num": 0.01141357421875,
      "loss_xval": 0.77734375,
      "num_input_tokens_seen": 583423480,
      "step": 4619
    },
    {
      "epoch": 1.1851471814275636,
      "grad_norm": 48.44395065307617,
      "learning_rate": 5e-06,
      "loss": 0.9544,
      "num_input_tokens_seen": 583548696,
      "step": 4620
    },
    {
      "epoch": 1.1851471814275636,
      "loss": 0.9057371616363525,
      "loss_ce": 0.006811385042965412,
      "loss_iou": 0.4140625,
      "loss_num": 0.01397705078125,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 583548696,
      "step": 4620
    },
    {
      "epoch": 1.185403706791509,
      "grad_norm": 32.206302642822266,
      "learning_rate": 5e-06,
      "loss": 0.8646,
      "num_input_tokens_seen": 583674944,
      "step": 4621
    },
    {
      "epoch": 1.185403706791509,
      "loss": 0.8563874959945679,
      "loss_ce": 0.0004304995818529278,
      "loss_iou": 0.3984375,
      "loss_num": 0.0113525390625,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 583674944,
      "step": 4621
    },
    {
      "epoch": 1.1856602321554544,
      "grad_norm": 43.31064224243164,
      "learning_rate": 5e-06,
      "loss": 0.8818,
      "num_input_tokens_seen": 583801380,
      "step": 4622
    },
    {
      "epoch": 1.1856602321554544,
      "loss": 0.8135311603546143,
      "loss_ce": 0.0005429055308923125,
      "loss_iou": 0.384765625,
      "loss_num": 0.0087890625,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 583801380,
      "step": 4622
    },
    {
      "epoch": 1.1859167575193998,
      "grad_norm": 54.82998275756836,
      "learning_rate": 5e-06,
      "loss": 0.8837,
      "num_input_tokens_seen": 583928528,
      "step": 4623
    },
    {
      "epoch": 1.1859167575193998,
      "loss": 0.9326336979866028,
      "loss_ce": 0.00026066412101499736,
      "loss_iou": 0.439453125,
      "loss_num": 0.0107421875,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 583928528,
      "step": 4623
    },
    {
      "epoch": 1.1861732828833451,
      "grad_norm": 37.38352584838867,
      "learning_rate": 5e-06,
      "loss": 0.8573,
      "num_input_tokens_seen": 584054056,
      "step": 4624
    },
    {
      "epoch": 1.1861732828833451,
      "loss": 0.9269771575927734,
      "loss_ce": 0.0031490386463701725,
      "loss_iou": 0.427734375,
      "loss_num": 0.013671875,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 584054056,
      "step": 4624
    },
    {
      "epoch": 1.1864298082472904,
      "grad_norm": 19.562702178955078,
      "learning_rate": 5e-06,
      "loss": 0.7126,
      "num_input_tokens_seen": 584180084,
      "step": 4625
    },
    {
      "epoch": 1.1864298082472904,
      "loss": 0.8939405083656311,
      "loss_ce": 0.003803753526881337,
      "loss_iou": 0.4140625,
      "loss_num": 0.01275634765625,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 584180084,
      "step": 4625
    },
    {
      "epoch": 1.1866863336112359,
      "grad_norm": 21.646366119384766,
      "learning_rate": 5e-06,
      "loss": 0.8128,
      "num_input_tokens_seen": 584306440,
      "step": 4626
    },
    {
      "epoch": 1.1866863336112359,
      "loss": 0.7637436985969543,
      "loss_ce": 7.181673572631553e-05,
      "loss_iou": 0.357421875,
      "loss_num": 0.01007080078125,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 584306440,
      "step": 4626
    },
    {
      "epoch": 1.1869428589751811,
      "grad_norm": 180.05006408691406,
      "learning_rate": 5e-06,
      "loss": 0.8308,
      "num_input_tokens_seen": 584433496,
      "step": 4627
    },
    {
      "epoch": 1.1869428589751811,
      "loss": 0.7550105452537537,
      "loss_ce": 0.000616027566138655,
      "loss_iou": 0.357421875,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.75390625,
      "num_input_tokens_seen": 584433496,
      "step": 4627
    },
    {
      "epoch": 1.1871993843391264,
      "grad_norm": 25.550289154052734,
      "learning_rate": 5e-06,
      "loss": 0.8847,
      "num_input_tokens_seen": 584558644,
      "step": 4628
    },
    {
      "epoch": 1.1871993843391264,
      "loss": 0.7627483606338501,
      "loss_ce": 0.0034710506442934275,
      "loss_iou": 0.35546875,
      "loss_num": 0.00994873046875,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 584558644,
      "step": 4628
    },
    {
      "epoch": 1.187455909703072,
      "grad_norm": 20.698692321777344,
      "learning_rate": 5e-06,
      "loss": 0.8437,
      "num_input_tokens_seen": 584684228,
      "step": 4629
    },
    {
      "epoch": 1.187455909703072,
      "loss": 0.8831948041915894,
      "loss_ce": 0.0020912904292345047,
      "loss_iou": 0.404296875,
      "loss_num": 0.014404296875,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 584684228,
      "step": 4629
    },
    {
      "epoch": 1.1877124350670172,
      "grad_norm": 19.390216827392578,
      "learning_rate": 5e-06,
      "loss": 0.9155,
      "num_input_tokens_seen": 584810148,
      "step": 4630
    },
    {
      "epoch": 1.1877124350670172,
      "loss": 0.7660215497016907,
      "loss_ce": 0.0001524364051874727,
      "loss_iou": 0.357421875,
      "loss_num": 0.010498046875,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 584810148,
      "step": 4630
    },
    {
      "epoch": 1.1879689604309627,
      "grad_norm": 27.87102699279785,
      "learning_rate": 5e-06,
      "loss": 0.7749,
      "num_input_tokens_seen": 584936832,
      "step": 4631
    },
    {
      "epoch": 1.1879689604309627,
      "loss": 0.7608210444450378,
      "loss_ce": 0.0005671288236044347,
      "loss_iou": 0.357421875,
      "loss_num": 0.009033203125,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 584936832,
      "step": 4631
    },
    {
      "epoch": 1.188225485794908,
      "grad_norm": 37.91584396362305,
      "learning_rate": 5e-06,
      "loss": 0.8992,
      "num_input_tokens_seen": 585062680,
      "step": 4632
    },
    {
      "epoch": 1.188225485794908,
      "loss": 0.9365710020065308,
      "loss_ce": 0.0007800552411936224,
      "loss_iou": 0.41796875,
      "loss_num": 0.019775390625,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 585062680,
      "step": 4632
    },
    {
      "epoch": 1.1884820111588534,
      "grad_norm": 29.9906005859375,
      "learning_rate": 5e-06,
      "loss": 0.8634,
      "num_input_tokens_seen": 585188408,
      "step": 4633
    },
    {
      "epoch": 1.1884820111588534,
      "loss": 0.8817934393882751,
      "loss_ce": 0.004352046176791191,
      "loss_iou": 0.39453125,
      "loss_num": 0.017822265625,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 585188408,
      "step": 4633
    },
    {
      "epoch": 1.1887385365227987,
      "grad_norm": 23.26939582824707,
      "learning_rate": 5e-06,
      "loss": 0.8781,
      "num_input_tokens_seen": 585314268,
      "step": 4634
    },
    {
      "epoch": 1.1887385365227987,
      "loss": 0.8205181360244751,
      "loss_ce": 0.0006939330487512052,
      "loss_iou": 0.388671875,
      "loss_num": 0.00885009765625,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 585314268,
      "step": 4634
    },
    {
      "epoch": 1.188995061886744,
      "grad_norm": 20.155792236328125,
      "learning_rate": 5e-06,
      "loss": 0.915,
      "num_input_tokens_seen": 585440676,
      "step": 4635
    },
    {
      "epoch": 1.188995061886744,
      "loss": 0.8193739652633667,
      "loss_ce": 0.003211826318874955,
      "loss_iou": 0.380859375,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 585440676,
      "step": 4635
    },
    {
      "epoch": 1.1892515872506895,
      "grad_norm": 46.44293975830078,
      "learning_rate": 5e-06,
      "loss": 0.8219,
      "num_input_tokens_seen": 585567300,
      "step": 4636
    },
    {
      "epoch": 1.1892515872506895,
      "loss": 0.858420193195343,
      "loss_ce": 0.001486591063439846,
      "loss_iou": 0.3984375,
      "loss_num": 0.011962890625,
      "loss_xval": 0.85546875,
      "num_input_tokens_seen": 585567300,
      "step": 4636
    },
    {
      "epoch": 1.1895081126146347,
      "grad_norm": 43.82530212402344,
      "learning_rate": 5e-06,
      "loss": 0.9696,
      "num_input_tokens_seen": 585693812,
      "step": 4637
    },
    {
      "epoch": 1.1895081126146347,
      "loss": 0.8724066019058228,
      "loss_ce": 0.0018010998610407114,
      "loss_iou": 0.40625,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 585693812,
      "step": 4637
    },
    {
      "epoch": 1.18976463797858,
      "grad_norm": 40.798789978027344,
      "learning_rate": 5e-06,
      "loss": 0.7907,
      "num_input_tokens_seen": 585821420,
      "step": 4638
    },
    {
      "epoch": 1.18976463797858,
      "loss": 0.8947895765304565,
      "loss_ce": 0.0012349168537184596,
      "loss_iou": 0.41796875,
      "loss_num": 0.01141357421875,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 585821420,
      "step": 4638
    },
    {
      "epoch": 1.1900211633425255,
      "grad_norm": 28.10952377319336,
      "learning_rate": 5e-06,
      "loss": 0.8183,
      "num_input_tokens_seen": 585946748,
      "step": 4639
    },
    {
      "epoch": 1.1900211633425255,
      "loss": 0.9362611770629883,
      "loss_ce": 0.00022602431999985129,
      "loss_iou": 0.423828125,
      "loss_num": 0.017822265625,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 585946748,
      "step": 4639
    },
    {
      "epoch": 1.1902776887064708,
      "grad_norm": 28.255464553833008,
      "learning_rate": 5e-06,
      "loss": 0.717,
      "num_input_tokens_seen": 586073576,
      "step": 4640
    },
    {
      "epoch": 1.1902776887064708,
      "loss": 0.7875838279724121,
      "loss_ce": 0.0007185916765592992,
      "loss_iou": 0.375,
      "loss_num": 0.007354736328125,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 586073576,
      "step": 4640
    },
    {
      "epoch": 1.1905342140704163,
      "grad_norm": 35.1292724609375,
      "learning_rate": 5e-06,
      "loss": 0.786,
      "num_input_tokens_seen": 586199916,
      "step": 4641
    },
    {
      "epoch": 1.1905342140704163,
      "loss": 0.7188585996627808,
      "loss_ce": 0.0003527055087033659,
      "loss_iou": 0.34375,
      "loss_num": 0.00616455078125,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 586199916,
      "step": 4641
    },
    {
      "epoch": 1.1907907394343615,
      "grad_norm": 37.372161865234375,
      "learning_rate": 5e-06,
      "loss": 0.8346,
      "num_input_tokens_seen": 586325908,
      "step": 4642
    },
    {
      "epoch": 1.1907907394343615,
      "loss": 0.9119275808334351,
      "loss_ce": 0.0029919964727014303,
      "loss_iou": 0.40234375,
      "loss_num": 0.020751953125,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 586325908,
      "step": 4642
    },
    {
      "epoch": 1.191047264798307,
      "grad_norm": 42.02035140991211,
      "learning_rate": 5e-06,
      "loss": 0.9261,
      "num_input_tokens_seen": 586451756,
      "step": 4643
    },
    {
      "epoch": 1.191047264798307,
      "loss": 0.9088037610054016,
      "loss_ce": 0.003042031079530716,
      "loss_iou": 0.423828125,
      "loss_num": 0.01214599609375,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 586451756,
      "step": 4643
    },
    {
      "epoch": 1.1913037901622523,
      "grad_norm": 44.763221740722656,
      "learning_rate": 5e-06,
      "loss": 0.8615,
      "num_input_tokens_seen": 586577904,
      "step": 4644
    },
    {
      "epoch": 1.1913037901622523,
      "loss": 1.0128493309020996,
      "loss_ce": 0.0016188411973416805,
      "loss_iou": 0.45703125,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 586577904,
      "step": 4644
    },
    {
      "epoch": 1.1915603155261976,
      "grad_norm": 47.281131744384766,
      "learning_rate": 5e-06,
      "loss": 0.9077,
      "num_input_tokens_seen": 586703092,
      "step": 4645
    },
    {
      "epoch": 1.1915603155261976,
      "loss": 0.9772860407829285,
      "loss_ce": 0.0007235530647449195,
      "loss_iou": 0.451171875,
      "loss_num": 0.01507568359375,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 586703092,
      "step": 4645
    },
    {
      "epoch": 1.191816840890143,
      "grad_norm": 62.982173919677734,
      "learning_rate": 5e-06,
      "loss": 0.8827,
      "num_input_tokens_seen": 586829540,
      "step": 4646
    },
    {
      "epoch": 1.191816840890143,
      "loss": 0.7612956166267395,
      "loss_ce": 0.00201825937256217,
      "loss_iou": 0.361328125,
      "loss_num": 0.007171630859375,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 586829540,
      "step": 4646
    },
    {
      "epoch": 1.1920733662540883,
      "grad_norm": 46.269813537597656,
      "learning_rate": 5e-06,
      "loss": 0.8701,
      "num_input_tokens_seen": 586955200,
      "step": 4647
    },
    {
      "epoch": 1.1920733662540883,
      "loss": 0.9587010145187378,
      "loss_ce": 0.0045994040556252,
      "loss_iou": 0.43359375,
      "loss_num": 0.0174560546875,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 586955200,
      "step": 4647
    },
    {
      "epoch": 1.1923298916180338,
      "grad_norm": 37.0291748046875,
      "learning_rate": 5e-06,
      "loss": 0.9306,
      "num_input_tokens_seen": 587080492,
      "step": 4648
    },
    {
      "epoch": 1.1923298916180338,
      "loss": 0.9467495679855347,
      "loss_ce": 0.0029018791392445564,
      "loss_iou": 0.44140625,
      "loss_num": 0.012451171875,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 587080492,
      "step": 4648
    },
    {
      "epoch": 1.192586416981979,
      "grad_norm": 29.64719581604004,
      "learning_rate": 5e-06,
      "loss": 0.8031,
      "num_input_tokens_seen": 587207360,
      "step": 4649
    },
    {
      "epoch": 1.192586416981979,
      "loss": 0.7520864009857178,
      "loss_ce": 0.002086362801492214,
      "loss_iou": 0.349609375,
      "loss_num": 0.01007080078125,
      "loss_xval": 0.75,
      "num_input_tokens_seen": 587207360,
      "step": 4649
    },
    {
      "epoch": 1.1928429423459244,
      "grad_norm": 63.815574645996094,
      "learning_rate": 5e-06,
      "loss": 0.81,
      "num_input_tokens_seen": 587334036,
      "step": 4650
    },
    {
      "epoch": 1.1928429423459244,
      "loss": 0.6849693655967712,
      "loss_ce": 0.00015494032413698733,
      "loss_iou": 0.33203125,
      "loss_num": 0.00457763671875,
      "loss_xval": 0.68359375,
      "num_input_tokens_seen": 587334036,
      "step": 4650
    },
    {
      "epoch": 1.1930994677098699,
      "grad_norm": 45.678016662597656,
      "learning_rate": 5e-06,
      "loss": 0.9446,
      "num_input_tokens_seen": 587460460,
      "step": 4651
    },
    {
      "epoch": 1.1930994677098699,
      "loss": 0.8459632396697998,
      "loss_ce": 0.0005042395205236971,
      "loss_iou": 0.396484375,
      "loss_num": 0.0106201171875,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 587460460,
      "step": 4651
    },
    {
      "epoch": 1.1933559930738151,
      "grad_norm": 32.6883430480957,
      "learning_rate": 5e-06,
      "loss": 0.7839,
      "num_input_tokens_seen": 587586348,
      "step": 4652
    },
    {
      "epoch": 1.1933559930738151,
      "loss": 0.7450886368751526,
      "loss_ce": 0.0011921708937734365,
      "loss_iou": 0.3515625,
      "loss_num": 0.00799560546875,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 587586348,
      "step": 4652
    },
    {
      "epoch": 1.1936125184377606,
      "grad_norm": 32.99615478515625,
      "learning_rate": 5e-06,
      "loss": 0.773,
      "num_input_tokens_seen": 587713368,
      "step": 4653
    },
    {
      "epoch": 1.1936125184377606,
      "loss": 0.6471946835517883,
      "loss_ce": 0.0004662003193516284,
      "loss_iou": 0.298828125,
      "loss_num": 0.009521484375,
      "loss_xval": 0.6484375,
      "num_input_tokens_seen": 587713368,
      "step": 4653
    },
    {
      "epoch": 1.1938690438017059,
      "grad_norm": 42.93080139160156,
      "learning_rate": 5e-06,
      "loss": 0.8121,
      "num_input_tokens_seen": 587839336,
      "step": 4654
    },
    {
      "epoch": 1.1938690438017059,
      "loss": 0.8673266768455505,
      "loss_ce": 0.0025805868208408356,
      "loss_iou": 0.408203125,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 587839336,
      "step": 4654
    },
    {
      "epoch": 1.1941255691656512,
      "grad_norm": 41.869651794433594,
      "learning_rate": 5e-06,
      "loss": 0.8742,
      "num_input_tokens_seen": 587965604,
      "step": 4655
    },
    {
      "epoch": 1.1941255691656512,
      "loss": 0.7224563360214233,
      "loss_ce": 4.4179825636092573e-05,
      "loss_iou": 0.34375,
      "loss_num": 0.006805419921875,
      "loss_xval": 0.72265625,
      "num_input_tokens_seen": 587965604,
      "step": 4655
    },
    {
      "epoch": 1.1943820945295966,
      "grad_norm": 46.68687438964844,
      "learning_rate": 5e-06,
      "loss": 0.7552,
      "num_input_tokens_seen": 588091468,
      "step": 4656
    },
    {
      "epoch": 1.1943820945295966,
      "loss": 0.7505638599395752,
      "loss_ce": 0.0015404063742607832,
      "loss_iou": 0.35546875,
      "loss_num": 0.007598876953125,
      "loss_xval": 0.75,
      "num_input_tokens_seen": 588091468,
      "step": 4656
    },
    {
      "epoch": 1.194638619893542,
      "grad_norm": 28.525163650512695,
      "learning_rate": 5e-06,
      "loss": 0.7095,
      "num_input_tokens_seen": 588217952,
      "step": 4657
    },
    {
      "epoch": 1.194638619893542,
      "loss": 0.6797398328781128,
      "loss_ce": 0.002005430171266198,
      "loss_iou": 0.318359375,
      "loss_num": 0.00787353515625,
      "loss_xval": 0.6796875,
      "num_input_tokens_seen": 588217952,
      "step": 4657
    },
    {
      "epoch": 1.1948951452574874,
      "grad_norm": 37.533973693847656,
      "learning_rate": 5e-06,
      "loss": 0.8981,
      "num_input_tokens_seen": 588344016,
      "step": 4658
    },
    {
      "epoch": 1.1948951452574874,
      "loss": 0.8146689534187317,
      "loss_ce": 0.001192423515021801,
      "loss_iou": 0.35546875,
      "loss_num": 0.020751953125,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 588344016,
      "step": 4658
    },
    {
      "epoch": 1.1951516706214327,
      "grad_norm": 43.70058059692383,
      "learning_rate": 5e-06,
      "loss": 0.9962,
      "num_input_tokens_seen": 588470048,
      "step": 4659
    },
    {
      "epoch": 1.1951516706214327,
      "loss": 1.0541913509368896,
      "loss_ce": 0.0007244782173074782,
      "loss_iou": 0.484375,
      "loss_num": 0.0164794921875,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 588470048,
      "step": 4659
    },
    {
      "epoch": 1.1954081959853782,
      "grad_norm": 32.383033752441406,
      "learning_rate": 5e-06,
      "loss": 0.8366,
      "num_input_tokens_seen": 588595336,
      "step": 4660
    },
    {
      "epoch": 1.1954081959853782,
      "loss": 0.8854362964630127,
      "loss_ce": 0.0011589444475248456,
      "loss_iou": 0.419921875,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 588595336,
      "step": 4660
    },
    {
      "epoch": 1.1956647213493234,
      "grad_norm": 34.587921142578125,
      "learning_rate": 5e-06,
      "loss": 0.792,
      "num_input_tokens_seen": 588721424,
      "step": 4661
    },
    {
      "epoch": 1.1956647213493234,
      "loss": 0.7776632905006409,
      "loss_ce": 0.003005099017173052,
      "loss_iou": 0.365234375,
      "loss_num": 0.0089111328125,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 588721424,
      "step": 4661
    },
    {
      "epoch": 1.1959212467132687,
      "grad_norm": 37.1828498840332,
      "learning_rate": 5e-06,
      "loss": 0.8489,
      "num_input_tokens_seen": 588848088,
      "step": 4662
    },
    {
      "epoch": 1.1959212467132687,
      "loss": 0.9117839336395264,
      "loss_ce": 0.007975384593009949,
      "loss_iou": 0.40234375,
      "loss_num": 0.019775390625,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 588848088,
      "step": 4662
    },
    {
      "epoch": 1.1961777720772142,
      "grad_norm": 61.79922103881836,
      "learning_rate": 5e-06,
      "loss": 0.8886,
      "num_input_tokens_seen": 588973964,
      "step": 4663
    },
    {
      "epoch": 1.1961777720772142,
      "loss": 0.7372597455978394,
      "loss_ce": 0.0001992380857700482,
      "loss_iou": 0.35546875,
      "loss_num": 0.005523681640625,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 588973964,
      "step": 4663
    },
    {
      "epoch": 1.1964342974411595,
      "grad_norm": 49.77708435058594,
      "learning_rate": 5e-06,
      "loss": 0.8532,
      "num_input_tokens_seen": 589099520,
      "step": 4664
    },
    {
      "epoch": 1.1964342974411595,
      "loss": 0.726718544960022,
      "loss_ce": 0.0013767345808446407,
      "loss_iou": 0.337890625,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 589099520,
      "step": 4664
    },
    {
      "epoch": 1.1966908228051047,
      "grad_norm": 80.20882415771484,
      "learning_rate": 5e-06,
      "loss": 0.8696,
      "num_input_tokens_seen": 589225108,
      "step": 4665
    },
    {
      "epoch": 1.1966908228051047,
      "loss": 0.8056936264038086,
      "loss_ce": 0.00027368406881578267,
      "loss_iou": 0.37890625,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 589225108,
      "step": 4665
    },
    {
      "epoch": 1.1969473481690502,
      "grad_norm": 65.33061981201172,
      "learning_rate": 5e-06,
      "loss": 0.8635,
      "num_input_tokens_seen": 589351400,
      "step": 4666
    },
    {
      "epoch": 1.1969473481690502,
      "loss": 0.8832459449768066,
      "loss_ce": 0.0006775836809538305,
      "loss_iou": 0.41015625,
      "loss_num": 0.0125732421875,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 589351400,
      "step": 4666
    },
    {
      "epoch": 1.1972038735329955,
      "grad_norm": 51.592071533203125,
      "learning_rate": 5e-06,
      "loss": 0.8721,
      "num_input_tokens_seen": 589478016,
      "step": 4667
    },
    {
      "epoch": 1.1972038735329955,
      "loss": 1.0552279949188232,
      "loss_ce": 0.005423299036920071,
      "loss_iou": 0.482421875,
      "loss_num": 0.01708984375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 589478016,
      "step": 4667
    },
    {
      "epoch": 1.197460398896941,
      "grad_norm": 38.68691635131836,
      "learning_rate": 5e-06,
      "loss": 0.7754,
      "num_input_tokens_seen": 589602952,
      "step": 4668
    },
    {
      "epoch": 1.197460398896941,
      "loss": 0.8097430467605591,
      "loss_ce": 0.0006609877455048263,
      "loss_iou": 0.384765625,
      "loss_num": 0.008056640625,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 589602952,
      "step": 4668
    },
    {
      "epoch": 1.1977169242608863,
      "grad_norm": 40.648616790771484,
      "learning_rate": 5e-06,
      "loss": 0.8856,
      "num_input_tokens_seen": 589729420,
      "step": 4669
    },
    {
      "epoch": 1.1977169242608863,
      "loss": 0.9962791204452515,
      "loss_ce": 0.0026267440989613533,
      "loss_iou": 0.44921875,
      "loss_num": 0.01904296875,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 589729420,
      "step": 4669
    },
    {
      "epoch": 1.1979734496248318,
      "grad_norm": 44.97248077392578,
      "learning_rate": 5e-06,
      "loss": 0.8745,
      "num_input_tokens_seen": 589854972,
      "step": 4670
    },
    {
      "epoch": 1.1979734496248318,
      "loss": 0.7775657773017883,
      "loss_ce": 0.0002219800662714988,
      "loss_iou": 0.36328125,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.77734375,
      "num_input_tokens_seen": 589854972,
      "step": 4670
    },
    {
      "epoch": 1.198229974988777,
      "grad_norm": 46.984134674072266,
      "learning_rate": 5e-06,
      "loss": 0.8511,
      "num_input_tokens_seen": 589982252,
      "step": 4671
    },
    {
      "epoch": 1.198229974988777,
      "loss": 0.7204253673553467,
      "loss_ce": 0.0011870871530845761,
      "loss_iou": 0.337890625,
      "loss_num": 0.008544921875,
      "loss_xval": 0.71875,
      "num_input_tokens_seen": 589982252,
      "step": 4671
    },
    {
      "epoch": 1.1984865003527223,
      "grad_norm": 50.54662322998047,
      "learning_rate": 5e-06,
      "loss": 0.7082,
      "num_input_tokens_seen": 590109300,
      "step": 4672
    },
    {
      "epoch": 1.1984865003527223,
      "loss": 0.7641041278839111,
      "loss_ce": 0.0006764218560419977,
      "loss_iou": 0.3671875,
      "loss_num": 0.005767822265625,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 590109300,
      "step": 4672
    },
    {
      "epoch": 1.1987430257166678,
      "grad_norm": 40.06825637817383,
      "learning_rate": 5e-06,
      "loss": 0.9101,
      "num_input_tokens_seen": 590235124,
      "step": 4673
    },
    {
      "epoch": 1.1987430257166678,
      "loss": 0.8182198405265808,
      "loss_ce": 0.0015694622416049242,
      "loss_iou": 0.380859375,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 590235124,
      "step": 4673
    },
    {
      "epoch": 1.198999551080613,
      "grad_norm": 26.824068069458008,
      "learning_rate": 5e-06,
      "loss": 0.8488,
      "num_input_tokens_seen": 590360964,
      "step": 4674
    },
    {
      "epoch": 1.198999551080613,
      "loss": 0.7574440836906433,
      "loss_ce": 0.000608118949458003,
      "loss_iou": 0.35546875,
      "loss_num": 0.00927734375,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 590360964,
      "step": 4674
    },
    {
      "epoch": 1.1992560764445583,
      "grad_norm": 25.719064712524414,
      "learning_rate": 5e-06,
      "loss": 0.8165,
      "num_input_tokens_seen": 590485804,
      "step": 4675
    },
    {
      "epoch": 1.1992560764445583,
      "loss": 0.6556724309921265,
      "loss_ce": 0.0001547814317746088,
      "loss_iou": 0.31640625,
      "loss_num": 0.004425048828125,
      "loss_xval": 0.65625,
      "num_input_tokens_seen": 590485804,
      "step": 4675
    },
    {
      "epoch": 1.1995126018085038,
      "grad_norm": 29.55878257751465,
      "learning_rate": 5e-06,
      "loss": 0.8612,
      "num_input_tokens_seen": 590611888,
      "step": 4676
    },
    {
      "epoch": 1.1995126018085038,
      "loss": 0.7521672248840332,
      "loss_ce": 0.00021405494771897793,
      "loss_iou": 0.359375,
      "loss_num": 0.00665283203125,
      "loss_xval": 0.75,
      "num_input_tokens_seen": 590611888,
      "step": 4676
    },
    {
      "epoch": 1.199769127172449,
      "grad_norm": 32.51898193359375,
      "learning_rate": 5e-06,
      "loss": 0.8105,
      "num_input_tokens_seen": 590739996,
      "step": 4677
    },
    {
      "epoch": 1.199769127172449,
      "loss": 0.7716602087020874,
      "loss_ce": 0.0006641586660407484,
      "loss_iou": 0.349609375,
      "loss_num": 0.0142822265625,
      "loss_xval": 0.76953125,
      "num_input_tokens_seen": 590739996,
      "step": 4677
    },
    {
      "epoch": 1.2000256525363946,
      "grad_norm": 40.99172592163086,
      "learning_rate": 5e-06,
      "loss": 0.8235,
      "num_input_tokens_seen": 590866092,
      "step": 4678
    },
    {
      "epoch": 1.2000256525363946,
      "loss": 0.8204472064971924,
      "loss_ce": 0.001599551527760923,
      "loss_iou": 0.38671875,
      "loss_num": 0.00885009765625,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 590866092,
      "step": 4678
    },
    {
      "epoch": 1.2002821779003399,
      "grad_norm": 53.06911087036133,
      "learning_rate": 5e-06,
      "loss": 0.8242,
      "num_input_tokens_seen": 590992320,
      "step": 4679
    },
    {
      "epoch": 1.2002821779003399,
      "loss": 0.9096395969390869,
      "loss_ce": 0.0014364407397806644,
      "loss_iou": 0.41796875,
      "loss_num": 0.0147705078125,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 590992320,
      "step": 4679
    },
    {
      "epoch": 1.2005387032642854,
      "grad_norm": 58.42938995361328,
      "learning_rate": 5e-06,
      "loss": 0.8196,
      "num_input_tokens_seen": 591118196,
      "step": 4680
    },
    {
      "epoch": 1.2005387032642854,
      "loss": 0.727676510810852,
      "loss_ce": 0.00013741104339715093,
      "loss_iou": 0.34375,
      "loss_num": 0.007659912109375,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 591118196,
      "step": 4680
    },
    {
      "epoch": 1.2007952286282306,
      "grad_norm": 43.89720153808594,
      "learning_rate": 5e-06,
      "loss": 0.9585,
      "num_input_tokens_seen": 591243120,
      "step": 4681
    },
    {
      "epoch": 1.2007952286282306,
      "loss": 1.17656672000885,
      "loss_ce": 0.006156535353511572,
      "loss_iou": 0.51953125,
      "loss_num": 0.0257568359375,
      "loss_xval": 1.171875,
      "num_input_tokens_seen": 591243120,
      "step": 4681
    },
    {
      "epoch": 1.201051753992176,
      "grad_norm": 33.516448974609375,
      "learning_rate": 5e-06,
      "loss": 0.9157,
      "num_input_tokens_seen": 591369620,
      "step": 4682
    },
    {
      "epoch": 1.201051753992176,
      "loss": 0.7308672666549683,
      "loss_ce": 0.003328250488266349,
      "loss_iou": 0.3359375,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 591369620,
      "step": 4682
    },
    {
      "epoch": 1.2013082793561214,
      "grad_norm": 27.665977478027344,
      "learning_rate": 5e-06,
      "loss": 0.8149,
      "num_input_tokens_seen": 591494692,
      "step": 4683
    },
    {
      "epoch": 1.2013082793561214,
      "loss": 0.7366397380828857,
      "loss_ce": 0.0005556833930313587,
      "loss_iou": 0.349609375,
      "loss_num": 0.00750732421875,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 591494692,
      "step": 4683
    },
    {
      "epoch": 1.2015648047200667,
      "grad_norm": 36.0884895324707,
      "learning_rate": 5e-06,
      "loss": 0.7865,
      "num_input_tokens_seen": 591620884,
      "step": 4684
    },
    {
      "epoch": 1.2015648047200667,
      "loss": 0.8894338607788086,
      "loss_ce": 0.0034474984277039766,
      "loss_iou": 0.404296875,
      "loss_num": 0.01513671875,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 591620884,
      "step": 4684
    },
    {
      "epoch": 1.2018213300840122,
      "grad_norm": 42.307884216308594,
      "learning_rate": 5e-06,
      "loss": 0.9956,
      "num_input_tokens_seen": 591747560,
      "step": 4685
    },
    {
      "epoch": 1.2018213300840122,
      "loss": 0.7300618886947632,
      "loss_ce": 0.0010579730151221156,
      "loss_iou": 0.3515625,
      "loss_num": 0.005340576171875,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 591747560,
      "step": 4685
    },
    {
      "epoch": 1.2020778554479574,
      "grad_norm": 35.45066833496094,
      "learning_rate": 5e-06,
      "loss": 0.8416,
      "num_input_tokens_seen": 591873828,
      "step": 4686
    },
    {
      "epoch": 1.2020778554479574,
      "loss": 0.8106290102005005,
      "loss_ce": 8.211834210669622e-05,
      "loss_iou": 0.3671875,
      "loss_num": 0.01513671875,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 591873828,
      "step": 4686
    },
    {
      "epoch": 1.2023343808119027,
      "grad_norm": 44.37169647216797,
      "learning_rate": 5e-06,
      "loss": 0.8405,
      "num_input_tokens_seen": 592001320,
      "step": 4687
    },
    {
      "epoch": 1.2023343808119027,
      "loss": 0.7759294509887695,
      "loss_ce": 0.0010270995553582907,
      "loss_iou": 0.3671875,
      "loss_num": 0.008544921875,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 592001320,
      "step": 4687
    },
    {
      "epoch": 1.2025909061758482,
      "grad_norm": 50.855751037597656,
      "learning_rate": 5e-06,
      "loss": 0.9399,
      "num_input_tokens_seen": 592127072,
      "step": 4688
    },
    {
      "epoch": 1.2025909061758482,
      "loss": 0.8274017572402954,
      "loss_ce": 0.0007415386498905718,
      "loss_iou": 0.380859375,
      "loss_num": 0.01275634765625,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 592127072,
      "step": 4688
    },
    {
      "epoch": 1.2028474315397935,
      "grad_norm": 46.25652313232422,
      "learning_rate": 5e-06,
      "loss": 0.86,
      "num_input_tokens_seen": 592253156,
      "step": 4689
    },
    {
      "epoch": 1.2028474315397935,
      "loss": 0.6704822778701782,
      "loss_ce": 0.0003162251668982208,
      "loss_iou": 0.32421875,
      "loss_num": 0.00482177734375,
      "loss_xval": 0.671875,
      "num_input_tokens_seen": 592253156,
      "step": 4689
    },
    {
      "epoch": 1.203103956903739,
      "grad_norm": 57.259883880615234,
      "learning_rate": 5e-06,
      "loss": 0.812,
      "num_input_tokens_seen": 592379368,
      "step": 4690
    },
    {
      "epoch": 1.203103956903739,
      "loss": 0.7929420471191406,
      "loss_ce": 0.00046154114534147084,
      "loss_iou": 0.375,
      "loss_num": 0.0084228515625,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 592379368,
      "step": 4690
    },
    {
      "epoch": 1.2033604822676842,
      "grad_norm": 54.14265823364258,
      "learning_rate": 5e-06,
      "loss": 0.9507,
      "num_input_tokens_seen": 592506932,
      "step": 4691
    },
    {
      "epoch": 1.2033604822676842,
      "loss": 0.8070868253707886,
      "loss_ce": 0.000690333778038621,
      "loss_iou": 0.3828125,
      "loss_num": 0.0079345703125,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 592506932,
      "step": 4691
    },
    {
      "epoch": 1.2036170076316295,
      "grad_norm": 43.23212432861328,
      "learning_rate": 5e-06,
      "loss": 0.7854,
      "num_input_tokens_seen": 592632196,
      "step": 4692
    },
    {
      "epoch": 1.2036170076316295,
      "loss": 0.7121663093566895,
      "loss_ce": 0.004646782297641039,
      "loss_iou": 0.3359375,
      "loss_num": 0.007659912109375,
      "loss_xval": 0.70703125,
      "num_input_tokens_seen": 592632196,
      "step": 4692
    },
    {
      "epoch": 1.203873532995575,
      "grad_norm": 44.388511657714844,
      "learning_rate": 5e-06,
      "loss": 0.8255,
      "num_input_tokens_seen": 592758824,
      "step": 4693
    },
    {
      "epoch": 1.203873532995575,
      "loss": 0.7963682413101196,
      "loss_ce": 0.00095805135788396,
      "loss_iou": 0.373046875,
      "loss_num": 0.0098876953125,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 592758824,
      "step": 4693
    },
    {
      "epoch": 1.2041300583595203,
      "grad_norm": 50.6263542175293,
      "learning_rate": 5e-06,
      "loss": 0.7885,
      "num_input_tokens_seen": 592886724,
      "step": 4694
    },
    {
      "epoch": 1.2041300583595203,
      "loss": 0.8460016250610352,
      "loss_ce": 0.0002984994789585471,
      "loss_iou": 0.3828125,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 592886724,
      "step": 4694
    },
    {
      "epoch": 1.2043865837234657,
      "grad_norm": 51.91606903076172,
      "learning_rate": 5e-06,
      "loss": 0.8392,
      "num_input_tokens_seen": 593014008,
      "step": 4695
    },
    {
      "epoch": 1.2043865837234657,
      "loss": 0.7696671485900879,
      "loss_ce": 0.004042173735797405,
      "loss_iou": 0.36328125,
      "loss_num": 0.00799560546875,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 593014008,
      "step": 4695
    },
    {
      "epoch": 1.204643109087411,
      "grad_norm": 34.18097686767578,
      "learning_rate": 5e-06,
      "loss": 0.809,
      "num_input_tokens_seen": 593140656,
      "step": 4696
    },
    {
      "epoch": 1.204643109087411,
      "loss": 1.1126710176467896,
      "loss_ce": 0.003051897045224905,
      "loss_iou": 0.5,
      "loss_num": 0.021484375,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 593140656,
      "step": 4696
    },
    {
      "epoch": 1.2048996344513563,
      "grad_norm": 41.32080841064453,
      "learning_rate": 5e-06,
      "loss": 0.8997,
      "num_input_tokens_seen": 593266568,
      "step": 4697
    },
    {
      "epoch": 1.2048996344513563,
      "loss": 0.9508911371231079,
      "loss_ce": 0.0002075146185234189,
      "loss_iou": 0.447265625,
      "loss_num": 0.011474609375,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 593266568,
      "step": 4697
    },
    {
      "epoch": 1.2051561598153018,
      "grad_norm": 58.58139419555664,
      "learning_rate": 5e-06,
      "loss": 1.037,
      "num_input_tokens_seen": 593392528,
      "step": 4698
    },
    {
      "epoch": 1.2051561598153018,
      "loss": 1.200282096862793,
      "loss_ce": 8.675708522787318e-05,
      "loss_iou": 0.546875,
      "loss_num": 0.021240234375,
      "loss_xval": 1.203125,
      "num_input_tokens_seen": 593392528,
      "step": 4698
    },
    {
      "epoch": 1.205412685179247,
      "grad_norm": 48.242225646972656,
      "learning_rate": 5e-06,
      "loss": 0.9947,
      "num_input_tokens_seen": 593518856,
      "step": 4699
    },
    {
      "epoch": 1.205412685179247,
      "loss": 0.9958717226982117,
      "loss_ce": 0.0012427996844053268,
      "loss_iou": 0.447265625,
      "loss_num": 0.019775390625,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 593518856,
      "step": 4699
    },
    {
      "epoch": 1.2056692105431925,
      "grad_norm": 43.049560546875,
      "learning_rate": 5e-06,
      "loss": 0.8336,
      "num_input_tokens_seen": 593647216,
      "step": 4700
    },
    {
      "epoch": 1.2056692105431925,
      "loss": 0.9743956923484802,
      "loss_ce": 0.003204255597665906,
      "loss_iou": 0.44921875,
      "loss_num": 0.01458740234375,
      "loss_xval": 0.97265625,
      "num_input_tokens_seen": 593647216,
      "step": 4700
    },
    {
      "epoch": 1.2059257359071378,
      "grad_norm": 41.529476165771484,
      "learning_rate": 5e-06,
      "loss": 0.9216,
      "num_input_tokens_seen": 593772556,
      "step": 4701
    },
    {
      "epoch": 1.2059257359071378,
      "loss": 1.0307214260101318,
      "loss_ce": 0.00044800550676882267,
      "loss_iou": 0.46484375,
      "loss_num": 0.020263671875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 593772556,
      "step": 4701
    },
    {
      "epoch": 1.206182261271083,
      "grad_norm": 25.759618759155273,
      "learning_rate": 5e-06,
      "loss": 0.8499,
      "num_input_tokens_seen": 593899296,
      "step": 4702
    },
    {
      "epoch": 1.206182261271083,
      "loss": 0.6942624449729919,
      "loss_ce": 0.0009030892979353666,
      "loss_iou": 0.328125,
      "loss_num": 0.00775146484375,
      "loss_xval": 0.6953125,
      "num_input_tokens_seen": 593899296,
      "step": 4702
    },
    {
      "epoch": 1.2064387866350286,
      "grad_norm": 37.496524810791016,
      "learning_rate": 5e-06,
      "loss": 0.7809,
      "num_input_tokens_seen": 594026272,
      "step": 4703
    },
    {
      "epoch": 1.2064387866350286,
      "loss": 0.5275313854217529,
      "loss_ce": 0.00018757552606984973,
      "loss_iou": 0.2451171875,
      "loss_num": 0.007415771484375,
      "loss_xval": 0.52734375,
      "num_input_tokens_seen": 594026272,
      "step": 4703
    },
    {
      "epoch": 1.2066953119989738,
      "grad_norm": 51.5787467956543,
      "learning_rate": 5e-06,
      "loss": 0.9175,
      "num_input_tokens_seen": 594152548,
      "step": 4704
    },
    {
      "epoch": 1.2066953119989738,
      "loss": 0.8986421823501587,
      "loss_ce": 0.002401982666924596,
      "loss_iou": 0.412109375,
      "loss_num": 0.014892578125,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 594152548,
      "step": 4704
    },
    {
      "epoch": 1.2069518373629193,
      "grad_norm": 39.744468688964844,
      "learning_rate": 5e-06,
      "loss": 0.8277,
      "num_input_tokens_seen": 594279676,
      "step": 4705
    },
    {
      "epoch": 1.2069518373629193,
      "loss": 0.7738808393478394,
      "loss_ce": 0.0004432910354807973,
      "loss_iou": 0.369140625,
      "loss_num": 0.0069580078125,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 594279676,
      "step": 4705
    },
    {
      "epoch": 1.2072083627268646,
      "grad_norm": 48.41879653930664,
      "learning_rate": 5e-06,
      "loss": 0.6979,
      "num_input_tokens_seen": 594405168,
      "step": 4706
    },
    {
      "epoch": 1.2072083627268646,
      "loss": 0.729809582233429,
      "loss_ce": 0.0003174064331687987,
      "loss_iou": 0.3359375,
      "loss_num": 0.0113525390625,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 594405168,
      "step": 4706
    },
    {
      "epoch": 1.20746488809081,
      "grad_norm": 44.24345397949219,
      "learning_rate": 5e-06,
      "loss": 0.8684,
      "num_input_tokens_seen": 594531668,
      "step": 4707
    },
    {
      "epoch": 1.20746488809081,
      "loss": 0.9710237979888916,
      "loss_ce": 0.002273819874972105,
      "loss_iou": 0.431640625,
      "loss_num": 0.021240234375,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 594531668,
      "step": 4707
    },
    {
      "epoch": 1.2077214134547554,
      "grad_norm": 55.02375030517578,
      "learning_rate": 5e-06,
      "loss": 0.9193,
      "num_input_tokens_seen": 594657896,
      "step": 4708
    },
    {
      "epoch": 1.2077214134547554,
      "loss": 0.8670024871826172,
      "loss_ce": 5.9162463003303856e-05,
      "loss_iou": 0.400390625,
      "loss_num": 0.01300048828125,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 594657896,
      "step": 4708
    },
    {
      "epoch": 1.2079779388187006,
      "grad_norm": 49.19040298461914,
      "learning_rate": 5e-06,
      "loss": 0.8989,
      "num_input_tokens_seen": 594784424,
      "step": 4709
    },
    {
      "epoch": 1.2079779388187006,
      "loss": 0.9079356789588928,
      "loss_ce": 0.00022084417287260294,
      "loss_iou": 0.42578125,
      "loss_num": 0.011474609375,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 594784424,
      "step": 4709
    },
    {
      "epoch": 1.2082344641826461,
      "grad_norm": 58.43973159790039,
      "learning_rate": 5e-06,
      "loss": 0.8249,
      "num_input_tokens_seen": 594910360,
      "step": 4710
    },
    {
      "epoch": 1.2082344641826461,
      "loss": 0.9275294542312622,
      "loss_ce": 0.0007716322434134781,
      "loss_iou": 0.41015625,
      "loss_num": 0.02099609375,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 594910360,
      "step": 4710
    },
    {
      "epoch": 1.2084909895465914,
      "grad_norm": 42.231502532958984,
      "learning_rate": 5e-06,
      "loss": 0.8436,
      "num_input_tokens_seen": 595036116,
      "step": 4711
    },
    {
      "epoch": 1.2084909895465914,
      "loss": 0.7870713472366333,
      "loss_ce": 0.0004502838710322976,
      "loss_iou": 0.37109375,
      "loss_num": 0.00927734375,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 595036116,
      "step": 4711
    },
    {
      "epoch": 1.2087475149105367,
      "grad_norm": 55.52021026611328,
      "learning_rate": 5e-06,
      "loss": 0.8415,
      "num_input_tokens_seen": 595162776,
      "step": 4712
    },
    {
      "epoch": 1.2087475149105367,
      "loss": 0.8281638622283936,
      "loss_ce": 0.00028300462872721255,
      "loss_iou": 0.380859375,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 595162776,
      "step": 4712
    },
    {
      "epoch": 1.2090040402744822,
      "grad_norm": 50.521060943603516,
      "learning_rate": 5e-06,
      "loss": 0.8375,
      "num_input_tokens_seen": 595289248,
      "step": 4713
    },
    {
      "epoch": 1.2090040402744822,
      "loss": 0.8469698429107666,
      "loss_ce": 0.00029014816391281784,
      "loss_iou": 0.396484375,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 595289248,
      "step": 4713
    },
    {
      "epoch": 1.2092605656384274,
      "grad_norm": 47.39387512207031,
      "learning_rate": 5e-06,
      "loss": 0.8124,
      "num_input_tokens_seen": 595415540,
      "step": 4714
    },
    {
      "epoch": 1.2092605656384274,
      "loss": 0.962232768535614,
      "loss_ce": 0.0008070093463174999,
      "loss_iou": 0.43359375,
      "loss_num": 0.01904296875,
      "loss_xval": 0.9609375,
      "num_input_tokens_seen": 595415540,
      "step": 4714
    },
    {
      "epoch": 1.209517091002373,
      "grad_norm": 46.55170822143555,
      "learning_rate": 5e-06,
      "loss": 0.9283,
      "num_input_tokens_seen": 595540568,
      "step": 4715
    },
    {
      "epoch": 1.209517091002373,
      "loss": 1.0562406778335571,
      "loss_ce": 0.0030179526656866074,
      "loss_iou": 0.48046875,
      "loss_num": 0.0189208984375,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 595540568,
      "step": 4715
    },
    {
      "epoch": 1.2097736163663182,
      "grad_norm": 37.793880462646484,
      "learning_rate": 5e-06,
      "loss": 0.8776,
      "num_input_tokens_seen": 595668460,
      "step": 4716
    },
    {
      "epoch": 1.2097736163663182,
      "loss": 0.9116119146347046,
      "loss_ce": 0.002920536557212472,
      "loss_iou": 0.419921875,
      "loss_num": 0.01385498046875,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 595668460,
      "step": 4716
    },
    {
      "epoch": 1.2100301417302637,
      "grad_norm": 41.18879699707031,
      "learning_rate": 5e-06,
      "loss": 0.871,
      "num_input_tokens_seen": 595795168,
      "step": 4717
    },
    {
      "epoch": 1.2100301417302637,
      "loss": 0.8438723683357239,
      "loss_ce": 0.00012240752403158695,
      "loss_iou": 0.384765625,
      "loss_num": 0.01458740234375,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 595795168,
      "step": 4717
    },
    {
      "epoch": 1.210286667094209,
      "grad_norm": 52.59662628173828,
      "learning_rate": 5e-06,
      "loss": 0.8327,
      "num_input_tokens_seen": 595922504,
      "step": 4718
    },
    {
      "epoch": 1.210286667094209,
      "loss": 0.8634018301963806,
      "loss_ce": 0.0006088363588787615,
      "loss_iou": 0.392578125,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 595922504,
      "step": 4718
    },
    {
      "epoch": 1.2105431924581542,
      "grad_norm": 45.294189453125,
      "learning_rate": 5e-06,
      "loss": 0.8803,
      "num_input_tokens_seen": 596048832,
      "step": 4719
    },
    {
      "epoch": 1.2105431924581542,
      "loss": 0.831594705581665,
      "loss_ce": 0.0010282954899594188,
      "loss_iou": 0.375,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 596048832,
      "step": 4719
    },
    {
      "epoch": 1.2107997178220997,
      "grad_norm": 34.26205062866211,
      "learning_rate": 5e-06,
      "loss": 0.867,
      "num_input_tokens_seen": 596174688,
      "step": 4720
    },
    {
      "epoch": 1.2107997178220997,
      "loss": 0.8505825400352478,
      "loss_ce": 0.00048486419836990535,
      "loss_iou": 0.3828125,
      "loss_num": 0.0166015625,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 596174688,
      "step": 4720
    },
    {
      "epoch": 1.211056243186045,
      "grad_norm": 38.8514518737793,
      "learning_rate": 5e-06,
      "loss": 0.7907,
      "num_input_tokens_seen": 596301536,
      "step": 4721
    },
    {
      "epoch": 1.211056243186045,
      "loss": 0.7327573299407959,
      "loss_ce": 0.0015561676118522882,
      "loss_iou": 0.33984375,
      "loss_num": 0.010009765625,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 596301536,
      "step": 4721
    },
    {
      "epoch": 1.2113127685499903,
      "grad_norm": 36.626094818115234,
      "learning_rate": 5e-06,
      "loss": 0.8735,
      "num_input_tokens_seen": 596428200,
      "step": 4722
    },
    {
      "epoch": 1.2113127685499903,
      "loss": 0.8627752065658569,
      "loss_ce": 0.0004705711326096207,
      "loss_iou": 0.404296875,
      "loss_num": 0.01092529296875,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 596428200,
      "step": 4722
    },
    {
      "epoch": 1.2115692939139358,
      "grad_norm": 28.392742156982422,
      "learning_rate": 5e-06,
      "loss": 0.8799,
      "num_input_tokens_seen": 596554592,
      "step": 4723
    },
    {
      "epoch": 1.2115692939139358,
      "loss": 0.9282349348068237,
      "loss_ce": 0.001233050599694252,
      "loss_iou": 0.423828125,
      "loss_num": 0.0162353515625,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 596554592,
      "step": 4723
    },
    {
      "epoch": 1.211825819277881,
      "grad_norm": 32.649383544921875,
      "learning_rate": 5e-06,
      "loss": 0.7871,
      "num_input_tokens_seen": 596679992,
      "step": 4724
    },
    {
      "epoch": 1.211825819277881,
      "loss": 0.8892539739608765,
      "loss_ce": 0.0015586887020617723,
      "loss_iou": 0.404296875,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 596679992,
      "step": 4724
    },
    {
      "epoch": 1.2120823446418265,
      "grad_norm": 37.918731689453125,
      "learning_rate": 5e-06,
      "loss": 0.9147,
      "num_input_tokens_seen": 596806712,
      "step": 4725
    },
    {
      "epoch": 1.2120823446418265,
      "loss": 0.8720120191574097,
      "loss_ce": 0.0009182070498354733,
      "loss_iou": 0.388671875,
      "loss_num": 0.0186767578125,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 596806712,
      "step": 4725
    },
    {
      "epoch": 1.2123388700057718,
      "grad_norm": 51.11736297607422,
      "learning_rate": 5e-06,
      "loss": 0.8821,
      "num_input_tokens_seen": 596933472,
      "step": 4726
    },
    {
      "epoch": 1.2123388700057718,
      "loss": 1.1661514043807983,
      "loss_ce": 0.0006240421207621694,
      "loss_iou": 0.51171875,
      "loss_num": 0.028076171875,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 596933472,
      "step": 4726
    },
    {
      "epoch": 1.2125953953697173,
      "grad_norm": 38.51396179199219,
      "learning_rate": 5e-06,
      "loss": 0.9462,
      "num_input_tokens_seen": 597059868,
      "step": 4727
    },
    {
      "epoch": 1.2125953953697173,
      "loss": 0.938277542591095,
      "loss_ce": 0.00028925033984705806,
      "loss_iou": 0.435546875,
      "loss_num": 0.01348876953125,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 597059868,
      "step": 4727
    },
    {
      "epoch": 1.2128519207336625,
      "grad_norm": 41.25739288330078,
      "learning_rate": 5e-06,
      "loss": 0.7516,
      "num_input_tokens_seen": 597187112,
      "step": 4728
    },
    {
      "epoch": 1.2128519207336625,
      "loss": 0.8274070024490356,
      "loss_ce": 0.00025855566491372883,
      "loss_iou": 0.38671875,
      "loss_num": 0.01104736328125,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 597187112,
      "step": 4728
    },
    {
      "epoch": 1.2131084460976078,
      "grad_norm": 42.66353988647461,
      "learning_rate": 5e-06,
      "loss": 0.8497,
      "num_input_tokens_seen": 597313128,
      "step": 4729
    },
    {
      "epoch": 1.2131084460976078,
      "loss": 0.8456262946128845,
      "loss_ce": 0.00016732528456486762,
      "loss_iou": 0.400390625,
      "loss_num": 0.00909423828125,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 597313128,
      "step": 4729
    },
    {
      "epoch": 1.2133649714615533,
      "grad_norm": 36.667144775390625,
      "learning_rate": 5e-06,
      "loss": 0.8145,
      "num_input_tokens_seen": 597439488,
      "step": 4730
    },
    {
      "epoch": 1.2133649714615533,
      "loss": 0.7247690558433533,
      "loss_ce": 0.00015968694060575217,
      "loss_iou": 0.34375,
      "loss_num": 0.007415771484375,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 597439488,
      "step": 4730
    },
    {
      "epoch": 1.2136214968254986,
      "grad_norm": 45.589229583740234,
      "learning_rate": 5e-06,
      "loss": 0.8933,
      "num_input_tokens_seen": 597565624,
      "step": 4731
    },
    {
      "epoch": 1.2136214968254986,
      "loss": 0.9644152522087097,
      "loss_ce": 5.979950219625607e-05,
      "loss_iou": 0.4375,
      "loss_num": 0.017822265625,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 597565624,
      "step": 4731
    },
    {
      "epoch": 1.213878022189444,
      "grad_norm": 48.893035888671875,
      "learning_rate": 5e-06,
      "loss": 0.8049,
      "num_input_tokens_seen": 597691996,
      "step": 4732
    },
    {
      "epoch": 1.213878022189444,
      "loss": 0.8864907026290894,
      "loss_ce": 0.00026023300597444177,
      "loss_iou": 0.419921875,
      "loss_num": 0.00885009765625,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 597691996,
      "step": 4732
    },
    {
      "epoch": 1.2141345475533893,
      "grad_norm": 176.50762939453125,
      "learning_rate": 5e-06,
      "loss": 0.9639,
      "num_input_tokens_seen": 597818200,
      "step": 4733
    },
    {
      "epoch": 1.2141345475533893,
      "loss": 0.7966897487640381,
      "loss_ce": 0.0003029863000847399,
      "loss_iou": 0.37890625,
      "loss_num": 0.00738525390625,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 597818200,
      "step": 4733
    },
    {
      "epoch": 1.2143910729173346,
      "grad_norm": 49.131900787353516,
      "learning_rate": 5e-06,
      "loss": 0.8888,
      "num_input_tokens_seen": 597943708,
      "step": 4734
    },
    {
      "epoch": 1.2143910729173346,
      "loss": 0.978903591632843,
      "loss_ce": 0.0028293898794800043,
      "loss_iou": 0.44921875,
      "loss_num": 0.01556396484375,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 597943708,
      "step": 4734
    },
    {
      "epoch": 1.21464759828128,
      "grad_norm": 36.95499801635742,
      "learning_rate": 5e-06,
      "loss": 0.8273,
      "num_input_tokens_seen": 598069568,
      "step": 4735
    },
    {
      "epoch": 1.21464759828128,
      "loss": 0.8185850381851196,
      "loss_ce": 0.0012022381415590644,
      "loss_iou": 0.392578125,
      "loss_num": 0.00665283203125,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 598069568,
      "step": 4735
    },
    {
      "epoch": 1.2149041236452254,
      "grad_norm": 57.81605529785156,
      "learning_rate": 5e-06,
      "loss": 0.6808,
      "num_input_tokens_seen": 598196980,
      "step": 4736
    },
    {
      "epoch": 1.2149041236452254,
      "loss": 0.5676996111869812,
      "loss_ce": 7.267329783644527e-05,
      "loss_iou": 0.2734375,
      "loss_num": 0.004241943359375,
      "loss_xval": 0.56640625,
      "num_input_tokens_seen": 598196980,
      "step": 4736
    },
    {
      "epoch": 1.2151606490091709,
      "grad_norm": 50.31293869018555,
      "learning_rate": 5e-06,
      "loss": 0.8144,
      "num_input_tokens_seen": 598321728,
      "step": 4737
    },
    {
      "epoch": 1.2151606490091709,
      "loss": 0.8509231805801392,
      "loss_ce": 0.003755206009373069,
      "loss_iou": 0.384765625,
      "loss_num": 0.01544189453125,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 598321728,
      "step": 4737
    },
    {
      "epoch": 1.2154171743731161,
      "grad_norm": 23.222808837890625,
      "learning_rate": 5e-06,
      "loss": 0.6401,
      "num_input_tokens_seen": 598448204,
      "step": 4738
    },
    {
      "epoch": 1.2154171743731161,
      "loss": 0.6502104997634888,
      "loss_ce": 0.0005522611318156123,
      "loss_iou": 0.3125,
      "loss_num": 0.00482177734375,
      "loss_xval": 0.6484375,
      "num_input_tokens_seen": 598448204,
      "step": 4738
    },
    {
      "epoch": 1.2156736997370614,
      "grad_norm": 41.279415130615234,
      "learning_rate": 5e-06,
      "loss": 0.7521,
      "num_input_tokens_seen": 598574212,
      "step": 4739
    },
    {
      "epoch": 1.2156736997370614,
      "loss": 0.8236714601516724,
      "loss_ce": 0.0004292973899282515,
      "loss_iou": 0.37890625,
      "loss_num": 0.01318359375,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 598574212,
      "step": 4739
    },
    {
      "epoch": 1.215930225101007,
      "grad_norm": 55.85179901123047,
      "learning_rate": 5e-06,
      "loss": 0.782,
      "num_input_tokens_seen": 598701844,
      "step": 4740
    },
    {
      "epoch": 1.215930225101007,
      "loss": 0.7880877256393433,
      "loss_ce": 0.00024598141317255795,
      "loss_iou": 0.365234375,
      "loss_num": 0.01171875,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 598701844,
      "step": 4740
    },
    {
      "epoch": 1.2161867504649522,
      "grad_norm": 43.085426330566406,
      "learning_rate": 5e-06,
      "loss": 0.7564,
      "num_input_tokens_seen": 598829208,
      "step": 4741
    },
    {
      "epoch": 1.2161867504649522,
      "loss": 0.8001439571380615,
      "loss_ce": 0.0005834367475472391,
      "loss_iou": 0.369140625,
      "loss_num": 0.01171875,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 598829208,
      "step": 4741
    },
    {
      "epoch": 1.2164432758288977,
      "grad_norm": 41.24732208251953,
      "learning_rate": 5e-06,
      "loss": 0.7991,
      "num_input_tokens_seen": 598956344,
      "step": 4742
    },
    {
      "epoch": 1.2164432758288977,
      "loss": 0.6961536407470703,
      "loss_ce": 0.00035286351339891553,
      "loss_iou": 0.330078125,
      "loss_num": 0.007232666015625,
      "loss_xval": 0.6953125,
      "num_input_tokens_seen": 598956344,
      "step": 4742
    },
    {
      "epoch": 1.216699801192843,
      "grad_norm": 46.96685791015625,
      "learning_rate": 5e-06,
      "loss": 0.8431,
      "num_input_tokens_seen": 599082512,
      "step": 4743
    },
    {
      "epoch": 1.216699801192843,
      "loss": 0.7952233552932739,
      "loss_ce": 0.0003014913818333298,
      "loss_iou": 0.373046875,
      "loss_num": 0.010009765625,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 599082512,
      "step": 4743
    },
    {
      "epoch": 1.2169563265567884,
      "grad_norm": 45.461204528808594,
      "learning_rate": 5e-06,
      "loss": 0.7601,
      "num_input_tokens_seen": 599208056,
      "step": 4744
    },
    {
      "epoch": 1.2169563265567884,
      "loss": 0.6853104829788208,
      "loss_ce": 0.0004960055812261999,
      "loss_iou": 0.3125,
      "loss_num": 0.0120849609375,
      "loss_xval": 0.68359375,
      "num_input_tokens_seen": 599208056,
      "step": 4744
    },
    {
      "epoch": 1.2172128519207337,
      "grad_norm": 43.953514099121094,
      "learning_rate": 5e-06,
      "loss": 0.8238,
      "num_input_tokens_seen": 599334128,
      "step": 4745
    },
    {
      "epoch": 1.2172128519207337,
      "loss": 0.9511550068855286,
      "loss_ce": 0.003156960243359208,
      "loss_iou": 0.421875,
      "loss_num": 0.0205078125,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 599334128,
      "step": 4745
    },
    {
      "epoch": 1.217469377284679,
      "grad_norm": 42.079185485839844,
      "learning_rate": 5e-06,
      "loss": 0.8139,
      "num_input_tokens_seen": 599458564,
      "step": 4746
    },
    {
      "epoch": 1.217469377284679,
      "loss": 0.8978749513626099,
      "loss_ce": 0.0013904988300055265,
      "loss_iou": 0.3984375,
      "loss_num": 0.0198974609375,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 599458564,
      "step": 4746
    },
    {
      "epoch": 1.2177259026486245,
      "grad_norm": 54.93452835083008,
      "learning_rate": 5e-06,
      "loss": 0.938,
      "num_input_tokens_seen": 599585072,
      "step": 4747
    },
    {
      "epoch": 1.2177259026486245,
      "loss": 0.9298986196517944,
      "loss_ce": 0.0016759387217462063,
      "loss_iou": 0.4296875,
      "loss_num": 0.01409912109375,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 599585072,
      "step": 4747
    },
    {
      "epoch": 1.2179824280125697,
      "grad_norm": 75.22891998291016,
      "learning_rate": 5e-06,
      "loss": 0.8622,
      "num_input_tokens_seen": 599711832,
      "step": 4748
    },
    {
      "epoch": 1.2179824280125697,
      "loss": 0.9479256868362427,
      "loss_ce": 0.0028573786839842796,
      "loss_iou": 0.419921875,
      "loss_num": 0.0213623046875,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 599711832,
      "step": 4748
    },
    {
      "epoch": 1.218238953376515,
      "grad_norm": 50.59974670410156,
      "learning_rate": 5e-06,
      "loss": 0.7991,
      "num_input_tokens_seen": 599838056,
      "step": 4749
    },
    {
      "epoch": 1.218238953376515,
      "loss": 0.7107808589935303,
      "loss_ce": 0.003017193404957652,
      "loss_iou": 0.33984375,
      "loss_num": 0.00555419921875,
      "loss_xval": 0.70703125,
      "num_input_tokens_seen": 599838056,
      "step": 4749
    },
    {
      "epoch": 1.2184954787404605,
      "grad_norm": 39.92596435546875,
      "learning_rate": 5e-06,
      "loss": 0.8353,
      "num_input_tokens_seen": 599964680,
      "step": 4750
    },
    {
      "epoch": 1.2184954787404605,
      "eval_icons_CIoU": 0.32718271017074585,
      "eval_icons_GIoU": 0.2887353301048279,
      "eval_icons_IoU": 0.49273164570331573,
      "eval_icons_MAE_all": 0.021599503234028816,
      "eval_icons_MAE_h": 0.03046303056180477,
      "eval_icons_MAE_w": 0.04236280918121338,
      "eval_icons_MAE_x_boxes": 0.04186774976551533,
      "eval_icons_MAE_y_boxes": 0.028956228867173195,
      "eval_icons_NUM_probability": 0.9998744428157806,
      "eval_icons_inside_bbox": 0.7239583432674408,
      "eval_icons_loss": 1.52036714553833,
      "eval_icons_loss_ce": 4.73630952910753e-05,
      "eval_icons_loss_iou": 0.6951904296875,
      "eval_icons_loss_num": 0.02354717254638672,
      "eval_icons_loss_xval": 1.50927734375,
      "eval_icons_runtime": 57.6167,
      "eval_icons_samples_per_second": 0.868,
      "eval_icons_steps_per_second": 0.035,
      "num_input_tokens_seen": 599964680,
      "step": 4750
    },
    {
      "epoch": 1.2184954787404605,
      "eval_screenspot_CIoU": 0.12035692979892094,
      "eval_screenspot_GIoU": 0.10336928938825925,
      "eval_screenspot_IoU": 0.2940397957960765,
      "eval_screenspot_MAE_all": 0.07984606424967448,
      "eval_screenspot_MAE_h": 0.07090425118803978,
      "eval_screenspot_MAE_w": 0.12556160738070807,
      "eval_screenspot_MAE_x_boxes": 0.1191558043162028,
      "eval_screenspot_MAE_y_boxes": 0.05418539543946584,
      "eval_screenspot_NUM_probability": 0.9999515811602274,
      "eval_screenspot_inside_bbox": 0.6195833285649618,
      "eval_screenspot_loss": 2.236574649810791,
      "eval_screenspot_loss_ce": 0.006025688101847966,
      "eval_screenspot_loss_iou": 0.9197591145833334,
      "eval_screenspot_loss_num": 0.0849151611328125,
      "eval_screenspot_loss_xval": 2.2652994791666665,
      "eval_screenspot_runtime": 93.5297,
      "eval_screenspot_samples_per_second": 0.952,
      "eval_screenspot_steps_per_second": 0.032,
      "num_input_tokens_seen": 599964680,
      "step": 4750
    },
    {
      "epoch": 1.2184954787404605,
      "loss": 2.2678704261779785,
      "loss_ce": 0.003222143277525902,
      "loss_iou": 0.9375,
      "loss_num": 0.0771484375,
      "loss_xval": 2.265625,
      "num_input_tokens_seen": 599964680,
      "step": 4750
    },
    {
      "epoch": 1.2187520041044058,
      "grad_norm": 19.07582664489746,
      "learning_rate": 5e-06,
      "loss": 0.8808,
      "num_input_tokens_seen": 600090504,
      "step": 4751
    },
    {
      "epoch": 1.2187520041044058,
      "loss": 0.948464035987854,
      "loss_ce": 0.00510466517880559,
      "loss_iou": 0.443359375,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 600090504,
      "step": 4751
    },
    {
      "epoch": 1.2190085294683513,
      "grad_norm": 50.30540466308594,
      "learning_rate": 5e-06,
      "loss": 0.8978,
      "num_input_tokens_seen": 600216836,
      "step": 4752
    },
    {
      "epoch": 1.2190085294683513,
      "loss": 0.8345413208007812,
      "loss_ce": 0.00031285439035855234,
      "loss_iou": 0.376953125,
      "loss_num": 0.01611328125,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 600216836,
      "step": 4752
    },
    {
      "epoch": 1.2192650548322965,
      "grad_norm": 22.537038803100586,
      "learning_rate": 5e-06,
      "loss": 0.9082,
      "num_input_tokens_seen": 600343580,
      "step": 4753
    },
    {
      "epoch": 1.2192650548322965,
      "loss": 0.8719031810760498,
      "loss_ce": 0.0020301304757595062,
      "loss_iou": 0.404296875,
      "loss_num": 0.0118408203125,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 600343580,
      "step": 4753
    },
    {
      "epoch": 1.219521580196242,
      "grad_norm": 23.62120246887207,
      "learning_rate": 5e-06,
      "loss": 0.8108,
      "num_input_tokens_seen": 600469504,
      "step": 4754
    },
    {
      "epoch": 1.219521580196242,
      "loss": 0.8330411314964294,
      "loss_ce": 0.0007657122332602739,
      "loss_iou": 0.388671875,
      "loss_num": 0.01068115234375,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 600469504,
      "step": 4754
    },
    {
      "epoch": 1.2197781055601873,
      "grad_norm": 26.64427375793457,
      "learning_rate": 5e-06,
      "loss": 0.8665,
      "num_input_tokens_seen": 600596768,
      "step": 4755
    },
    {
      "epoch": 1.2197781055601873,
      "loss": 0.7889052629470825,
      "loss_ce": 0.0008193481480702758,
      "loss_iou": 0.361328125,
      "loss_num": 0.0126953125,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 600596768,
      "step": 4755
    },
    {
      "epoch": 1.2200346309241326,
      "grad_norm": 44.88630676269531,
      "learning_rate": 5e-06,
      "loss": 0.8487,
      "num_input_tokens_seen": 600723824,
      "step": 4756
    },
    {
      "epoch": 1.2200346309241326,
      "loss": 0.9842228293418884,
      "loss_ce": 0.0008243804331868887,
      "loss_iou": 0.462890625,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.984375,
      "num_input_tokens_seen": 600723824,
      "step": 4756
    },
    {
      "epoch": 1.220291156288078,
      "grad_norm": 28.47319793701172,
      "learning_rate": 5e-06,
      "loss": 0.7949,
      "num_input_tokens_seen": 600849744,
      "step": 4757
    },
    {
      "epoch": 1.220291156288078,
      "loss": 0.8828399181365967,
      "loss_ce": 0.0014922046102583408,
      "loss_iou": 0.400390625,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 600849744,
      "step": 4757
    },
    {
      "epoch": 1.2205476816520233,
      "grad_norm": 33.03736877441406,
      "learning_rate": 5e-06,
      "loss": 0.8982,
      "num_input_tokens_seen": 600976260,
      "step": 4758
    },
    {
      "epoch": 1.2205476816520233,
      "loss": 0.892457902431488,
      "loss_ce": 0.00036802445538342,
      "loss_iou": 0.412109375,
      "loss_num": 0.01385498046875,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 600976260,
      "step": 4758
    },
    {
      "epoch": 1.2208042070159686,
      "grad_norm": 31.39913558959961,
      "learning_rate": 5e-06,
      "loss": 0.9025,
      "num_input_tokens_seen": 601101028,
      "step": 4759
    },
    {
      "epoch": 1.2208042070159686,
      "loss": 0.8718372583389282,
      "loss_ce": 0.002452526707202196,
      "loss_iou": 0.390625,
      "loss_num": 0.017578125,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 601101028,
      "step": 4759
    },
    {
      "epoch": 1.221060732379914,
      "grad_norm": 27.543079376220703,
      "learning_rate": 5e-06,
      "loss": 0.824,
      "num_input_tokens_seen": 601226648,
      "step": 4760
    },
    {
      "epoch": 1.221060732379914,
      "loss": 0.8160004615783691,
      "loss_ce": 0.0013032081769779325,
      "loss_iou": 0.384765625,
      "loss_num": 0.00921630859375,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 601226648,
      "step": 4760
    },
    {
      "epoch": 1.2213172577438594,
      "grad_norm": 35.303218841552734,
      "learning_rate": 5e-06,
      "loss": 0.8795,
      "num_input_tokens_seen": 601353616,
      "step": 4761
    },
    {
      "epoch": 1.2213172577438594,
      "loss": 0.8158635497093201,
      "loss_ce": 0.00043385877506807446,
      "loss_iou": 0.373046875,
      "loss_num": 0.01373291015625,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 601353616,
      "step": 4761
    },
    {
      "epoch": 1.2215737831078048,
      "grad_norm": 29.56807518005371,
      "learning_rate": 5e-06,
      "loss": 0.8547,
      "num_input_tokens_seen": 601479948,
      "step": 4762
    },
    {
      "epoch": 1.2215737831078048,
      "loss": 0.946003794670105,
      "loss_ce": 0.0009353643981739879,
      "loss_iou": 0.423828125,
      "loss_num": 0.01953125,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 601479948,
      "step": 4762
    },
    {
      "epoch": 1.2218303084717501,
      "grad_norm": 28.149768829345703,
      "learning_rate": 5e-06,
      "loss": 0.7609,
      "num_input_tokens_seen": 601607136,
      "step": 4763
    },
    {
      "epoch": 1.2218303084717501,
      "loss": 0.7574147582054138,
      "loss_ce": 0.0025319445412606,
      "loss_iou": 0.349609375,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.75390625,
      "num_input_tokens_seen": 601607136,
      "step": 4763
    },
    {
      "epoch": 1.2220868338356956,
      "grad_norm": 32.912193298339844,
      "learning_rate": 5e-06,
      "loss": 0.8737,
      "num_input_tokens_seen": 601732460,
      "step": 4764
    },
    {
      "epoch": 1.2220868338356956,
      "loss": 0.7749499082565308,
      "loss_ce": 0.0005358686903491616,
      "loss_iou": 0.357421875,
      "loss_num": 0.01220703125,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 601732460,
      "step": 4764
    },
    {
      "epoch": 1.2223433591996409,
      "grad_norm": 51.268104553222656,
      "learning_rate": 5e-06,
      "loss": 0.9608,
      "num_input_tokens_seen": 601858828,
      "step": 4765
    },
    {
      "epoch": 1.2223433591996409,
      "loss": 0.7851808667182922,
      "loss_ce": 0.00026872724993154407,
      "loss_iou": 0.3671875,
      "loss_num": 0.010009765625,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 601858828,
      "step": 4765
    },
    {
      "epoch": 1.2225998845635861,
      "grad_norm": 49.083675384521484,
      "learning_rate": 5e-06,
      "loss": 0.8196,
      "num_input_tokens_seen": 601985756,
      "step": 4766
    },
    {
      "epoch": 1.2225998845635861,
      "loss": 0.7626669406890869,
      "loss_ce": 0.0016805990599095821,
      "loss_iou": 0.33984375,
      "loss_num": 0.0166015625,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 601985756,
      "step": 4766
    },
    {
      "epoch": 1.2228564099275316,
      "grad_norm": 47.85071563720703,
      "learning_rate": 5e-06,
      "loss": 0.8149,
      "num_input_tokens_seen": 602112568,
      "step": 4767
    },
    {
      "epoch": 1.2228564099275316,
      "loss": 0.6594139337539673,
      "loss_ce": 0.0004783686308655888,
      "loss_iou": 0.31640625,
      "loss_num": 0.005218505859375,
      "loss_xval": 0.66015625,
      "num_input_tokens_seen": 602112568,
      "step": 4767
    },
    {
      "epoch": 1.223112935291477,
      "grad_norm": 56.944252014160156,
      "learning_rate": 5e-06,
      "loss": 0.7413,
      "num_input_tokens_seen": 602240072,
      "step": 4768
    },
    {
      "epoch": 1.223112935291477,
      "loss": 0.7971140146255493,
      "loss_ce": 0.00023901810345705599,
      "loss_iou": 0.376953125,
      "loss_num": 0.008544921875,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 602240072,
      "step": 4768
    },
    {
      "epoch": 1.2233694606554222,
      "grad_norm": 37.38105010986328,
      "learning_rate": 5e-06,
      "loss": 0.9469,
      "num_input_tokens_seen": 602365636,
      "step": 4769
    },
    {
      "epoch": 1.2233694606554222,
      "loss": 1.0167577266693115,
      "loss_ce": 0.00015614864241797477,
      "loss_iou": 0.466796875,
      "loss_num": 0.0166015625,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 602365636,
      "step": 4769
    },
    {
      "epoch": 1.2236259860193677,
      "grad_norm": 17.443819046020508,
      "learning_rate": 5e-06,
      "loss": 0.8893,
      "num_input_tokens_seen": 602491180,
      "step": 4770
    },
    {
      "epoch": 1.2236259860193677,
      "loss": 0.7825367450714111,
      "loss_ce": 0.0005543669685721397,
      "loss_iou": 0.365234375,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 602491180,
      "step": 4770
    },
    {
      "epoch": 1.223882511383313,
      "grad_norm": 30.18058967590332,
      "learning_rate": 5e-06,
      "loss": 0.7903,
      "num_input_tokens_seen": 602616860,
      "step": 4771
    },
    {
      "epoch": 1.223882511383313,
      "loss": 0.789797306060791,
      "loss_ce": 0.0004906684625893831,
      "loss_iou": 0.365234375,
      "loss_num": 0.0118408203125,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 602616860,
      "step": 4771
    },
    {
      "epoch": 1.2241390367472584,
      "grad_norm": 36.23856735229492,
      "learning_rate": 5e-06,
      "loss": 0.7848,
      "num_input_tokens_seen": 602744232,
      "step": 4772
    },
    {
      "epoch": 1.2241390367472584,
      "loss": 0.9037405252456665,
      "loss_ce": 0.0004202028503641486,
      "loss_iou": 0.42578125,
      "loss_num": 0.01055908203125,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 602744232,
      "step": 4772
    },
    {
      "epoch": 1.2243955621112037,
      "grad_norm": 32.48878479003906,
      "learning_rate": 5e-06,
      "loss": 0.8816,
      "num_input_tokens_seen": 602870612,
      "step": 4773
    },
    {
      "epoch": 1.2243955621112037,
      "loss": 1.036409616470337,
      "loss_ce": 0.001741634914651513,
      "loss_iou": 0.46875,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 602870612,
      "step": 4773
    },
    {
      "epoch": 1.2246520874751492,
      "grad_norm": 59.387298583984375,
      "learning_rate": 5e-06,
      "loss": 0.9686,
      "num_input_tokens_seen": 602997192,
      "step": 4774
    },
    {
      "epoch": 1.2246520874751492,
      "loss": 1.0598663091659546,
      "loss_ce": 0.0005401476519182324,
      "loss_iou": 0.46484375,
      "loss_num": 0.0264892578125,
      "loss_xval": 1.0625,
      "num_input_tokens_seen": 602997192,
      "step": 4774
    },
    {
      "epoch": 1.2249086128390945,
      "grad_norm": 249.78233337402344,
      "learning_rate": 5e-06,
      "loss": 0.9323,
      "num_input_tokens_seen": 603122928,
      "step": 4775
    },
    {
      "epoch": 1.2249086128390945,
      "loss": 0.9570778608322144,
      "loss_ce": 0.0010231432970613241,
      "loss_iou": 0.451171875,
      "loss_num": 0.0106201171875,
      "loss_xval": 0.95703125,
      "num_input_tokens_seen": 603122928,
      "step": 4775
    },
    {
      "epoch": 1.2251651382030397,
      "grad_norm": 22.128570556640625,
      "learning_rate": 5e-06,
      "loss": 0.8064,
      "num_input_tokens_seen": 603249100,
      "step": 4776
    },
    {
      "epoch": 1.2251651382030397,
      "loss": 0.8527721166610718,
      "loss_ce": 0.00047719833673909307,
      "loss_iou": 0.384765625,
      "loss_num": 0.0166015625,
      "loss_xval": 0.8515625,
      "num_input_tokens_seen": 603249100,
      "step": 4776
    },
    {
      "epoch": 1.2254216635669852,
      "grad_norm": 46.06595993041992,
      "learning_rate": 5e-06,
      "loss": 0.9489,
      "num_input_tokens_seen": 603376368,
      "step": 4777
    },
    {
      "epoch": 1.2254216635669852,
      "loss": 0.8939422369003296,
      "loss_ce": 0.0011199985165148973,
      "loss_iou": 0.41015625,
      "loss_num": 0.0147705078125,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 603376368,
      "step": 4777
    },
    {
      "epoch": 1.2256781889309305,
      "grad_norm": 52.95048141479492,
      "learning_rate": 5e-06,
      "loss": 0.8948,
      "num_input_tokens_seen": 603502644,
      "step": 4778
    },
    {
      "epoch": 1.2256781889309305,
      "loss": 0.8711966276168823,
      "loss_ce": 0.00010290517820976675,
      "loss_iou": 0.412109375,
      "loss_num": 0.009033203125,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 603502644,
      "step": 4778
    },
    {
      "epoch": 1.225934714294876,
      "grad_norm": 35.8829460144043,
      "learning_rate": 5e-06,
      "loss": 0.9167,
      "num_input_tokens_seen": 603627316,
      "step": 4779
    },
    {
      "epoch": 1.225934714294876,
      "loss": 0.9704164862632751,
      "loss_ce": 0.00020169885829091072,
      "loss_iou": 0.44140625,
      "loss_num": 0.0174560546875,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 603627316,
      "step": 4779
    },
    {
      "epoch": 1.2261912396588213,
      "grad_norm": 25.7741756439209,
      "learning_rate": 5e-06,
      "loss": 0.7656,
      "num_input_tokens_seen": 603753852,
      "step": 4780
    },
    {
      "epoch": 1.2261912396588213,
      "loss": 0.686504065990448,
      "loss_ce": 0.0002247951051685959,
      "loss_iou": 0.3203125,
      "loss_num": 0.00897216796875,
      "loss_xval": 0.6875,
      "num_input_tokens_seen": 603753852,
      "step": 4780
    },
    {
      "epoch": 1.2264477650227665,
      "grad_norm": 40.98419189453125,
      "learning_rate": 5e-06,
      "loss": 0.9614,
      "num_input_tokens_seen": 603879504,
      "step": 4781
    },
    {
      "epoch": 1.2264477650227665,
      "loss": 1.0105911493301392,
      "loss_ce": 0.001802072860300541,
      "loss_iou": 0.451171875,
      "loss_num": 0.0211181640625,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 603879504,
      "step": 4781
    },
    {
      "epoch": 1.226704290386712,
      "grad_norm": 55.55708312988281,
      "learning_rate": 5e-06,
      "loss": 0.8129,
      "num_input_tokens_seen": 604005292,
      "step": 4782
    },
    {
      "epoch": 1.226704290386712,
      "loss": 0.8160561919212341,
      "loss_ce": 0.0006265242118388414,
      "loss_iou": 0.38671875,
      "loss_num": 0.0084228515625,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 604005292,
      "step": 4782
    },
    {
      "epoch": 1.2269608157506573,
      "grad_norm": 51.166046142578125,
      "learning_rate": 5e-06,
      "loss": 0.9448,
      "num_input_tokens_seen": 604131444,
      "step": 4783
    },
    {
      "epoch": 1.2269608157506573,
      "loss": 0.828851580619812,
      "loss_ce": 0.0014589702477678657,
      "loss_iou": 0.376953125,
      "loss_num": 0.01434326171875,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 604131444,
      "step": 4783
    },
    {
      "epoch": 1.2272173411146028,
      "grad_norm": 38.290218353271484,
      "learning_rate": 5e-06,
      "loss": 0.959,
      "num_input_tokens_seen": 604254772,
      "step": 4784
    },
    {
      "epoch": 1.2272173411146028,
      "loss": 1.047408938407898,
      "loss_ce": 0.00248708832077682,
      "loss_iou": 0.46875,
      "loss_num": 0.021484375,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 604254772,
      "step": 4784
    },
    {
      "epoch": 1.227473866478548,
      "grad_norm": 49.29533767700195,
      "learning_rate": 5e-06,
      "loss": 0.9122,
      "num_input_tokens_seen": 604380968,
      "step": 4785
    },
    {
      "epoch": 1.227473866478548,
      "loss": 1.0329957008361816,
      "loss_ce": 0.000769149512052536,
      "loss_iou": 0.4765625,
      "loss_num": 0.0157470703125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 604380968,
      "step": 4785
    },
    {
      "epoch": 1.2277303918424933,
      "grad_norm": 55.00996017456055,
      "learning_rate": 5e-06,
      "loss": 0.8781,
      "num_input_tokens_seen": 604506804,
      "step": 4786
    },
    {
      "epoch": 1.2277303918424933,
      "loss": 0.8428975939750671,
      "loss_ce": 0.0006124571664258838,
      "loss_iou": 0.392578125,
      "loss_num": 0.01153564453125,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 604506804,
      "step": 4786
    },
    {
      "epoch": 1.2279869172064388,
      "grad_norm": 49.223751068115234,
      "learning_rate": 5e-06,
      "loss": 0.8161,
      "num_input_tokens_seen": 604632964,
      "step": 4787
    },
    {
      "epoch": 1.2279869172064388,
      "loss": 0.8660851716995239,
      "loss_ce": 0.0013390433741733432,
      "loss_iou": 0.40234375,
      "loss_num": 0.012451171875,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 604632964,
      "step": 4787
    },
    {
      "epoch": 1.228243442570384,
      "grad_norm": 59.02398681640625,
      "learning_rate": 5e-06,
      "loss": 0.7592,
      "num_input_tokens_seen": 604760136,
      "step": 4788
    },
    {
      "epoch": 1.228243442570384,
      "loss": 0.6717700362205505,
      "loss_ce": 0.0020923118572682142,
      "loss_iou": 0.3125,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.66796875,
      "num_input_tokens_seen": 604760136,
      "step": 4788
    },
    {
      "epoch": 1.2284999679343296,
      "grad_norm": 37.43214797973633,
      "learning_rate": 5e-06,
      "loss": 1.0007,
      "num_input_tokens_seen": 604886588,
      "step": 4789
    },
    {
      "epoch": 1.2284999679343296,
      "loss": 1.0299526453018188,
      "loss_ce": 0.0016322660958394408,
      "loss_iou": 0.478515625,
      "loss_num": 0.01434326171875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 604886588,
      "step": 4789
    },
    {
      "epoch": 1.2287564932982749,
      "grad_norm": 19.44113540649414,
      "learning_rate": 5e-06,
      "loss": 0.8509,
      "num_input_tokens_seen": 605011564,
      "step": 4790
    },
    {
      "epoch": 1.2287564932982749,
      "loss": 0.8398631811141968,
      "loss_ce": 0.0029490659944713116,
      "loss_iou": 0.376953125,
      "loss_num": 0.0166015625,
      "loss_xval": 0.8359375,
      "num_input_tokens_seen": 605011564,
      "step": 4790
    },
    {
      "epoch": 1.2290130186622203,
      "grad_norm": 22.47450065612793,
      "learning_rate": 5e-06,
      "loss": 0.7659,
      "num_input_tokens_seen": 605137856,
      "step": 4791
    },
    {
      "epoch": 1.2290130186622203,
      "loss": 0.7634186744689941,
      "loss_ce": 0.00023511916515417397,
      "loss_iou": 0.359375,
      "loss_num": 0.00860595703125,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 605137856,
      "step": 4791
    },
    {
      "epoch": 1.2292695440261656,
      "grad_norm": 41.92300796508789,
      "learning_rate": 5e-06,
      "loss": 0.9322,
      "num_input_tokens_seen": 605262204,
      "step": 4792
    },
    {
      "epoch": 1.2292695440261656,
      "loss": 1.039194107055664,
      "loss_ce": 0.0015964285703375936,
      "loss_iou": 0.458984375,
      "loss_num": 0.02392578125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 605262204,
      "step": 4792
    },
    {
      "epoch": 1.2295260693901109,
      "grad_norm": 39.05963897705078,
      "learning_rate": 5e-06,
      "loss": 0.8749,
      "num_input_tokens_seen": 605388516,
      "step": 4793
    },
    {
      "epoch": 1.2295260693901109,
      "loss": 0.8081142902374268,
      "loss_ce": 0.000985379796475172,
      "loss_iou": 0.373046875,
      "loss_num": 0.01239013671875,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 605388516,
      "step": 4793
    },
    {
      "epoch": 1.2297825947540564,
      "grad_norm": 162.90028381347656,
      "learning_rate": 5e-06,
      "loss": 0.9109,
      "num_input_tokens_seen": 605514728,
      "step": 4794
    },
    {
      "epoch": 1.2297825947540564,
      "loss": 0.79775071144104,
      "loss_ce": 0.00014325222582556307,
      "loss_iou": 0.365234375,
      "loss_num": 0.0130615234375,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 605514728,
      "step": 4794
    },
    {
      "epoch": 1.2300391201180016,
      "grad_norm": 37.66619873046875,
      "learning_rate": 5e-06,
      "loss": 0.7623,
      "num_input_tokens_seen": 605640300,
      "step": 4795
    },
    {
      "epoch": 1.2300391201180016,
      "loss": 0.7027794122695923,
      "loss_ce": 0.0001426686649210751,
      "loss_iou": 0.337890625,
      "loss_num": 0.005218505859375,
      "loss_xval": 0.703125,
      "num_input_tokens_seen": 605640300,
      "step": 4795
    },
    {
      "epoch": 1.230295645481947,
      "grad_norm": 38.53131103515625,
      "learning_rate": 5e-06,
      "loss": 0.8167,
      "num_input_tokens_seen": 605766236,
      "step": 4796
    },
    {
      "epoch": 1.230295645481947,
      "loss": 0.9339948892593384,
      "loss_ce": 0.00040114152943715453,
      "loss_iou": 0.42578125,
      "loss_num": 0.0166015625,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 605766236,
      "step": 4796
    },
    {
      "epoch": 1.2305521708458924,
      "grad_norm": 40.22769546508789,
      "learning_rate": 5e-06,
      "loss": 0.8585,
      "num_input_tokens_seen": 605893152,
      "step": 4797
    },
    {
      "epoch": 1.2305521708458924,
      "loss": 1.1277151107788086,
      "loss_ce": 0.0012503860052675009,
      "loss_iou": 0.5234375,
      "loss_num": 0.0152587890625,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 605893152,
      "step": 4797
    },
    {
      "epoch": 1.2308086962098377,
      "grad_norm": 33.27394104003906,
      "learning_rate": 5e-06,
      "loss": 0.8316,
      "num_input_tokens_seen": 606020620,
      "step": 4798
    },
    {
      "epoch": 1.2308086962098377,
      "loss": 0.7004101276397705,
      "loss_ce": 0.00045895882067270577,
      "loss_iou": 0.330078125,
      "loss_num": 0.00811767578125,
      "loss_xval": 0.69921875,
      "num_input_tokens_seen": 606020620,
      "step": 4798
    },
    {
      "epoch": 1.2310652215737832,
      "grad_norm": 28.13202667236328,
      "learning_rate": 5e-06,
      "loss": 0.9139,
      "num_input_tokens_seen": 606147068,
      "step": 4799
    },
    {
      "epoch": 1.2310652215737832,
      "loss": 0.7489627599716187,
      "loss_ce": 0.0004276205145288259,
      "loss_iou": 0.3515625,
      "loss_num": 0.0091552734375,
      "loss_xval": 0.75,
      "num_input_tokens_seen": 606147068,
      "step": 4799
    },
    {
      "epoch": 1.2313217469377284,
      "grad_norm": 37.590694427490234,
      "learning_rate": 5e-06,
      "loss": 0.8537,
      "num_input_tokens_seen": 606274148,
      "step": 4800
    },
    {
      "epoch": 1.2313217469377284,
      "loss": 0.9435932040214539,
      "loss_ce": 0.00023384805535897613,
      "loss_iou": 0.4453125,
      "loss_num": 0.0108642578125,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 606274148,
      "step": 4800
    },
    {
      "epoch": 1.231578272301674,
      "grad_norm": 26.834115982055664,
      "learning_rate": 5e-06,
      "loss": 0.8367,
      "num_input_tokens_seen": 606400028,
      "step": 4801
    },
    {
      "epoch": 1.231578272301674,
      "loss": 0.6948038935661316,
      "loss_ce": 0.0002238238521385938,
      "loss_iou": 0.33203125,
      "loss_num": 0.006011962890625,
      "loss_xval": 0.6953125,
      "num_input_tokens_seen": 606400028,
      "step": 4801
    },
    {
      "epoch": 1.2318347976656192,
      "grad_norm": 26.551607131958008,
      "learning_rate": 5e-06,
      "loss": 0.8873,
      "num_input_tokens_seen": 606526088,
      "step": 4802
    },
    {
      "epoch": 1.2318347976656192,
      "loss": 0.8339190483093262,
      "loss_ce": 0.0021320083178579807,
      "loss_iou": 0.37890625,
      "loss_num": 0.0152587890625,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 606526088,
      "step": 4802
    },
    {
      "epoch": 1.2320913230295645,
      "grad_norm": 30.444360733032227,
      "learning_rate": 5e-06,
      "loss": 0.7898,
      "num_input_tokens_seen": 606652276,
      "step": 4803
    },
    {
      "epoch": 1.2320913230295645,
      "loss": 0.9319490194320679,
      "loss_ce": 0.0005525393644347787,
      "loss_iou": 0.4375,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 606652276,
      "step": 4803
    },
    {
      "epoch": 1.23234784839351,
      "grad_norm": 43.92644500732422,
      "learning_rate": 5e-06,
      "loss": 0.926,
      "num_input_tokens_seen": 606777968,
      "step": 4804
    },
    {
      "epoch": 1.23234784839351,
      "loss": 0.7606326341629028,
      "loss_ce": 0.0018436069367453456,
      "loss_iou": 0.357421875,
      "loss_num": 0.008544921875,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 606777968,
      "step": 4804
    },
    {
      "epoch": 1.2326043737574552,
      "grad_norm": 25.221158981323242,
      "learning_rate": 5e-06,
      "loss": 0.8324,
      "num_input_tokens_seen": 606902516,
      "step": 4805
    },
    {
      "epoch": 1.2326043737574552,
      "loss": 0.8995772004127502,
      "loss_ce": 0.002360400278121233,
      "loss_iou": 0.4140625,
      "loss_num": 0.01422119140625,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 606902516,
      "step": 4805
    },
    {
      "epoch": 1.2328608991214005,
      "grad_norm": 14.783366203308105,
      "learning_rate": 5e-06,
      "loss": 0.7519,
      "num_input_tokens_seen": 607028760,
      "step": 4806
    },
    {
      "epoch": 1.2328608991214005,
      "loss": 0.7393022775650024,
      "loss_ce": 4.4474872993305326e-05,
      "loss_iou": 0.3515625,
      "loss_num": 0.00738525390625,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 607028760,
      "step": 4806
    },
    {
      "epoch": 1.233117424485346,
      "grad_norm": 148.4822540283203,
      "learning_rate": 5e-06,
      "loss": 0.8242,
      "num_input_tokens_seen": 607154808,
      "step": 4807
    },
    {
      "epoch": 1.233117424485346,
      "loss": 0.8717177510261536,
      "loss_ce": 0.00013574768672697246,
      "loss_iou": 0.392578125,
      "loss_num": 0.01708984375,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 607154808,
      "step": 4807
    },
    {
      "epoch": 1.2333739498492913,
      "grad_norm": 35.75702667236328,
      "learning_rate": 5e-06,
      "loss": 0.8612,
      "num_input_tokens_seen": 607281572,
      "step": 4808
    },
    {
      "epoch": 1.2333739498492913,
      "loss": 0.7554574012756348,
      "loss_ce": 0.0005746155511587858,
      "loss_iou": 0.34765625,
      "loss_num": 0.01214599609375,
      "loss_xval": 0.75390625,
      "num_input_tokens_seen": 607281572,
      "step": 4808
    },
    {
      "epoch": 1.2336304752132368,
      "grad_norm": 32.40003204345703,
      "learning_rate": 5e-06,
      "loss": 0.8833,
      "num_input_tokens_seen": 607407424,
      "step": 4809
    },
    {
      "epoch": 1.2336304752132368,
      "loss": 1.0377521514892578,
      "loss_ce": 0.008699383586645126,
      "loss_iou": 0.48046875,
      "loss_num": 0.01348876953125,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 607407424,
      "step": 4809
    },
    {
      "epoch": 1.233887000577182,
      "grad_norm": 46.07844543457031,
      "learning_rate": 5e-06,
      "loss": 0.837,
      "num_input_tokens_seen": 607533704,
      "step": 4810
    },
    {
      "epoch": 1.233887000577182,
      "loss": 1.2487030029296875,
      "loss_ce": 0.0001677718828432262,
      "loss_iou": 0.55078125,
      "loss_num": 0.030029296875,
      "loss_xval": 1.25,
      "num_input_tokens_seen": 607533704,
      "step": 4810
    },
    {
      "epoch": 1.2341435259411275,
      "grad_norm": 44.47356414794922,
      "learning_rate": 5e-06,
      "loss": 0.8803,
      "num_input_tokens_seen": 607659840,
      "step": 4811
    },
    {
      "epoch": 1.2341435259411275,
      "loss": 0.8940377235412598,
      "loss_ce": 0.0007271752692759037,
      "loss_iou": 0.40625,
      "loss_num": 0.0164794921875,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 607659840,
      "step": 4811
    },
    {
      "epoch": 1.2344000513050728,
      "grad_norm": 42.178070068359375,
      "learning_rate": 5e-06,
      "loss": 0.8101,
      "num_input_tokens_seen": 607787148,
      "step": 4812
    },
    {
      "epoch": 1.2344000513050728,
      "loss": 0.8719956874847412,
      "loss_ce": 0.0018784594722092152,
      "loss_iou": 0.390625,
      "loss_num": 0.017578125,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 607787148,
      "step": 4812
    },
    {
      "epoch": 1.234656576669018,
      "grad_norm": 47.128814697265625,
      "learning_rate": 5e-06,
      "loss": 0.8365,
      "num_input_tokens_seen": 607913340,
      "step": 4813
    },
    {
      "epoch": 1.234656576669018,
      "loss": 0.6522765159606934,
      "loss_ce": 0.0004210706101730466,
      "loss_iou": 0.3125,
      "loss_num": 0.00531005859375,
      "loss_xval": 0.65234375,
      "num_input_tokens_seen": 607913340,
      "step": 4813
    },
    {
      "epoch": 1.2349131020329636,
      "grad_norm": 37.64466094970703,
      "learning_rate": 5e-06,
      "loss": 0.8265,
      "num_input_tokens_seen": 608039124,
      "step": 4814
    },
    {
      "epoch": 1.2349131020329636,
      "loss": 0.8613240718841553,
      "loss_ce": 0.00048426154535263777,
      "loss_iou": 0.40234375,
      "loss_num": 0.01116943359375,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 608039124,
      "step": 4814
    },
    {
      "epoch": 1.2351696273969088,
      "grad_norm": 33.64643096923828,
      "learning_rate": 5e-06,
      "loss": 0.8477,
      "num_input_tokens_seen": 608166200,
      "step": 4815
    },
    {
      "epoch": 1.2351696273969088,
      "loss": 0.8707019090652466,
      "loss_ce": 0.0003406030300538987,
      "loss_iou": 0.38671875,
      "loss_num": 0.019287109375,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 608166200,
      "step": 4815
    },
    {
      "epoch": 1.2354261527608543,
      "grad_norm": 34.57878494262695,
      "learning_rate": 5e-06,
      "loss": 0.8019,
      "num_input_tokens_seen": 608293192,
      "step": 4816
    },
    {
      "epoch": 1.2354261527608543,
      "loss": 0.7439565658569336,
      "loss_ce": 6.011620280332863e-05,
      "loss_iou": 0.349609375,
      "loss_num": 0.00946044921875,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 608293192,
      "step": 4816
    },
    {
      "epoch": 1.2356826781247996,
      "grad_norm": 37.146244049072266,
      "learning_rate": 5e-06,
      "loss": 0.9266,
      "num_input_tokens_seen": 608419644,
      "step": 4817
    },
    {
      "epoch": 1.2356826781247996,
      "loss": 0.9923871755599976,
      "loss_ce": 0.0014203899772837758,
      "loss_iou": 0.451171875,
      "loss_num": 0.017822265625,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 608419644,
      "step": 4817
    },
    {
      "epoch": 1.2359392034887449,
      "grad_norm": 32.34402084350586,
      "learning_rate": 5e-06,
      "loss": 0.7883,
      "num_input_tokens_seen": 608546708,
      "step": 4818
    },
    {
      "epoch": 1.2359392034887449,
      "loss": 0.6896160840988159,
      "loss_ce": 0.0001629363396205008,
      "loss_iou": 0.333984375,
      "loss_num": 0.00439453125,
      "loss_xval": 0.6875,
      "num_input_tokens_seen": 608546708,
      "step": 4818
    },
    {
      "epoch": 1.2361957288526904,
      "grad_norm": 42.71183776855469,
      "learning_rate": 5e-06,
      "loss": 0.8965,
      "num_input_tokens_seen": 608672416,
      "step": 4819
    },
    {
      "epoch": 1.2361957288526904,
      "loss": 1.1670942306518555,
      "loss_ce": 0.002055141143500805,
      "loss_iou": 0.5078125,
      "loss_num": 0.0303955078125,
      "loss_xval": 1.1640625,
      "num_input_tokens_seen": 608672416,
      "step": 4819
    },
    {
      "epoch": 1.2364522542166356,
      "grad_norm": 50.39683532714844,
      "learning_rate": 5e-06,
      "loss": 0.8926,
      "num_input_tokens_seen": 608798828,
      "step": 4820
    },
    {
      "epoch": 1.2364522542166356,
      "loss": 0.9353948831558228,
      "loss_ce": 0.0010687229223549366,
      "loss_iou": 0.427734375,
      "loss_num": 0.0157470703125,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 608798828,
      "step": 4820
    },
    {
      "epoch": 1.2367087795805811,
      "grad_norm": 44.45790481567383,
      "learning_rate": 5e-06,
      "loss": 0.857,
      "num_input_tokens_seen": 608924084,
      "step": 4821
    },
    {
      "epoch": 1.2367087795805811,
      "loss": 0.7591259479522705,
      "loss_ce": 0.00033689866540953517,
      "loss_iou": 0.3671875,
      "loss_num": 0.00494384765625,
      "loss_xval": 0.7578125,
      "num_input_tokens_seen": 608924084,
      "step": 4821
    },
    {
      "epoch": 1.2369653049445264,
      "grad_norm": 40.548561096191406,
      "learning_rate": 5e-06,
      "loss": 0.8512,
      "num_input_tokens_seen": 609050740,
      "step": 4822
    },
    {
      "epoch": 1.2369653049445264,
      "loss": 0.7823129892349243,
      "loss_ce": 0.0005746952374465764,
      "loss_iou": 0.36328125,
      "loss_num": 0.0111083984375,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 609050740,
      "step": 4822
    },
    {
      "epoch": 1.2372218303084717,
      "grad_norm": 46.11857986450195,
      "learning_rate": 5e-06,
      "loss": 0.8331,
      "num_input_tokens_seen": 609176604,
      "step": 4823
    },
    {
      "epoch": 1.2372218303084717,
      "loss": 0.8695831298828125,
      "loss_ce": 0.0009307708824053407,
      "loss_iou": 0.412109375,
      "loss_num": 0.009033203125,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 609176604,
      "step": 4823
    },
    {
      "epoch": 1.2374783556724172,
      "grad_norm": 55.450401306152344,
      "learning_rate": 5e-06,
      "loss": 0.8709,
      "num_input_tokens_seen": 609302436,
      "step": 4824
    },
    {
      "epoch": 1.2374783556724172,
      "loss": 0.8968358039855957,
      "loss_ce": 0.004990077577531338,
      "loss_iou": 0.396484375,
      "loss_num": 0.01953125,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 609302436,
      "step": 4824
    },
    {
      "epoch": 1.2377348810363624,
      "grad_norm": 52.03253173828125,
      "learning_rate": 5e-06,
      "loss": 0.8546,
      "num_input_tokens_seen": 609429244,
      "step": 4825
    },
    {
      "epoch": 1.2377348810363624,
      "loss": 0.8602542877197266,
      "loss_ce": 0.00014686226495541632,
      "loss_iou": 0.40234375,
      "loss_num": 0.01092529296875,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 609429244,
      "step": 4825
    },
    {
      "epoch": 1.237991406400308,
      "grad_norm": 36.153167724609375,
      "learning_rate": 5e-06,
      "loss": 0.8551,
      "num_input_tokens_seen": 609555540,
      "step": 4826
    },
    {
      "epoch": 1.237991406400308,
      "loss": 0.912063479423523,
      "loss_ce": 0.0021513879764825106,
      "loss_iou": 0.41796875,
      "loss_num": 0.01470947265625,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 609555540,
      "step": 4826
    },
    {
      "epoch": 1.2382479317642532,
      "grad_norm": 37.33576965332031,
      "learning_rate": 5e-06,
      "loss": 1.008,
      "num_input_tokens_seen": 609681316,
      "step": 4827
    },
    {
      "epoch": 1.2382479317642532,
      "loss": 1.1826121807098389,
      "loss_ce": 0.0004832570266444236,
      "loss_iou": 0.53515625,
      "loss_num": 0.02294921875,
      "loss_xval": 1.1796875,
      "num_input_tokens_seen": 609681316,
      "step": 4827
    },
    {
      "epoch": 1.2385044571281985,
      "grad_norm": 54.23225402832031,
      "learning_rate": 5e-06,
      "loss": 0.8817,
      "num_input_tokens_seen": 609807580,
      "step": 4828
    },
    {
      "epoch": 1.2385044571281985,
      "loss": 0.7838513851165771,
      "loss_ce": 0.001136545673944056,
      "loss_iou": 0.3671875,
      "loss_num": 0.00927734375,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 609807580,
      "step": 4828
    },
    {
      "epoch": 1.238760982492144,
      "grad_norm": 49.90633773803711,
      "learning_rate": 5e-06,
      "loss": 0.9805,
      "num_input_tokens_seen": 609934092,
      "step": 4829
    },
    {
      "epoch": 1.238760982492144,
      "loss": 0.8007910251617432,
      "loss_ce": 0.001230464898981154,
      "loss_iou": 0.375,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.80078125,
      "num_input_tokens_seen": 609934092,
      "step": 4829
    },
    {
      "epoch": 1.2390175078560892,
      "grad_norm": 31.10322380065918,
      "learning_rate": 5e-06,
      "loss": 0.9372,
      "num_input_tokens_seen": 610059916,
      "step": 4830
    },
    {
      "epoch": 1.2390175078560892,
      "loss": 1.1238504648208618,
      "loss_ce": 0.0017802028451114893,
      "loss_iou": 0.51171875,
      "loss_num": 0.02001953125,
      "loss_xval": 1.125,
      "num_input_tokens_seen": 610059916,
      "step": 4830
    },
    {
      "epoch": 1.2392740332200347,
      "grad_norm": 26.670007705688477,
      "learning_rate": 5e-06,
      "loss": 0.9373,
      "num_input_tokens_seen": 610185820,
      "step": 4831
    },
    {
      "epoch": 1.2392740332200347,
      "loss": 0.888588547706604,
      "loss_ce": 0.00016078323824331164,
      "loss_iou": 0.396484375,
      "loss_num": 0.0194091796875,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 610185820,
      "step": 4831
    },
    {
      "epoch": 1.23953055858398,
      "grad_norm": 24.779130935668945,
      "learning_rate": 5e-06,
      "loss": 0.9063,
      "num_input_tokens_seen": 610311188,
      "step": 4832
    },
    {
      "epoch": 1.23953055858398,
      "loss": 0.9834119081497192,
      "loss_ce": 0.007825959473848343,
      "loss_iou": 0.439453125,
      "loss_num": 0.01953125,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 610311188,
      "step": 4832
    },
    {
      "epoch": 1.2397870839479253,
      "grad_norm": 39.526580810546875,
      "learning_rate": 5e-06,
      "loss": 0.7785,
      "num_input_tokens_seen": 610439012,
      "step": 4833
    },
    {
      "epoch": 1.2397870839479253,
      "loss": 0.7931700944900513,
      "loss_ce": 0.0004455468151718378,
      "loss_iou": 0.380859375,
      "loss_num": 0.006103515625,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 610439012,
      "step": 4833
    },
    {
      "epoch": 1.2400436093118707,
      "grad_norm": 49.415714263916016,
      "learning_rate": 5e-06,
      "loss": 0.9307,
      "num_input_tokens_seen": 610565996,
      "step": 4834
    },
    {
      "epoch": 1.2400436093118707,
      "loss": 0.9404745101928711,
      "loss_ce": 0.0010214148787781596,
      "loss_iou": 0.439453125,
      "loss_num": 0.01226806640625,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 610565996,
      "step": 4834
    },
    {
      "epoch": 1.240300134675816,
      "grad_norm": 39.927276611328125,
      "learning_rate": 5e-06,
      "loss": 0.8959,
      "num_input_tokens_seen": 610692480,
      "step": 4835
    },
    {
      "epoch": 1.240300134675816,
      "loss": 0.9145958423614502,
      "loss_ce": 0.003463053610175848,
      "loss_iou": 0.42578125,
      "loss_num": 0.01165771484375,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 610692480,
      "step": 4835
    },
    {
      "epoch": 1.2405566600397615,
      "grad_norm": 51.902427673339844,
      "learning_rate": 5e-06,
      "loss": 0.852,
      "num_input_tokens_seen": 610818716,
      "step": 4836
    },
    {
      "epoch": 1.2405566600397615,
      "loss": 0.7459242343902588,
      "loss_ce": 7.462648500222713e-05,
      "loss_iou": 0.35546875,
      "loss_num": 0.007293701171875,
      "loss_xval": 0.74609375,
      "num_input_tokens_seen": 610818716,
      "step": 4836
    },
    {
      "epoch": 1.2408131854037068,
      "grad_norm": 52.84894561767578,
      "learning_rate": 5e-06,
      "loss": 0.8721,
      "num_input_tokens_seen": 610943460,
      "step": 4837
    },
    {
      "epoch": 1.2408131854037068,
      "loss": 0.8643629550933838,
      "loss_ce": 0.00010515828034840524,
      "loss_iou": 0.404296875,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.86328125,
      "num_input_tokens_seen": 610943460,
      "step": 4837
    },
    {
      "epoch": 1.2410697107676523,
      "grad_norm": 53.94810104370117,
      "learning_rate": 5e-06,
      "loss": 0.833,
      "num_input_tokens_seen": 611070192,
      "step": 4838
    },
    {
      "epoch": 1.2410697107676523,
      "loss": 0.9315834641456604,
      "loss_ce": 0.0001870039850473404,
      "loss_iou": 0.431640625,
      "loss_num": 0.013427734375,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 611070192,
      "step": 4838
    },
    {
      "epoch": 1.2413262361315975,
      "grad_norm": 54.83344650268555,
      "learning_rate": 5e-06,
      "loss": 0.948,
      "num_input_tokens_seen": 611196436,
      "step": 4839
    },
    {
      "epoch": 1.2413262361315975,
      "loss": 1.3058286905288696,
      "loss_ce": 0.0030942833982408047,
      "loss_iou": 0.5625,
      "loss_num": 0.035400390625,
      "loss_xval": 1.3046875,
      "num_input_tokens_seen": 611196436,
      "step": 4839
    },
    {
      "epoch": 1.2415827614955428,
      "grad_norm": 43.033504486083984,
      "learning_rate": 5e-06,
      "loss": 0.7495,
      "num_input_tokens_seen": 611322388,
      "step": 4840
    },
    {
      "epoch": 1.2415827614955428,
      "loss": 0.6101521253585815,
      "loss_ce": 0.0002888529561460018,
      "loss_iou": 0.29296875,
      "loss_num": 0.004486083984375,
      "loss_xval": 0.609375,
      "num_input_tokens_seen": 611322388,
      "step": 4840
    },
    {
      "epoch": 1.2418392868594883,
      "grad_norm": 81.3130111694336,
      "learning_rate": 5e-06,
      "loss": 1.0601,
      "num_input_tokens_seen": 611448556,
      "step": 4841
    },
    {
      "epoch": 1.2418392868594883,
      "loss": 1.055915355682373,
      "loss_ce": 0.0026925706770271063,
      "loss_iou": 0.478515625,
      "loss_num": 0.019287109375,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 611448556,
      "step": 4841
    },
    {
      "epoch": 1.2420958122234336,
      "grad_norm": 41.133548736572266,
      "learning_rate": 5e-06,
      "loss": 0.7095,
      "num_input_tokens_seen": 611574700,
      "step": 4842
    },
    {
      "epoch": 1.2420958122234336,
      "loss": 0.7274676561355591,
      "loss_ce": 0.0009051474626176059,
      "loss_iou": 0.345703125,
      "loss_num": 0.0068359375,
      "loss_xval": 0.7265625,
      "num_input_tokens_seen": 611574700,
      "step": 4842
    },
    {
      "epoch": 1.2423523375873788,
      "grad_norm": 35.57295227050781,
      "learning_rate": 5e-06,
      "loss": 0.853,
      "num_input_tokens_seen": 611700180,
      "step": 4843
    },
    {
      "epoch": 1.2423523375873788,
      "loss": 1.0150408744812012,
      "loss_ce": 0.0008806661935523152,
      "loss_iou": 0.46484375,
      "loss_num": 0.016845703125,
      "loss_xval": 1.015625,
      "num_input_tokens_seen": 611700180,
      "step": 4843
    },
    {
      "epoch": 1.2426088629513243,
      "grad_norm": 44.566001892089844,
      "learning_rate": 5e-06,
      "loss": 0.7506,
      "num_input_tokens_seen": 611826520,
      "step": 4844
    },
    {
      "epoch": 1.2426088629513243,
      "loss": 0.8877298831939697,
      "loss_ce": 0.0005229068920016289,
      "loss_iou": 0.400390625,
      "loss_num": 0.017578125,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 611826520,
      "step": 4844
    },
    {
      "epoch": 1.2428653883152696,
      "grad_norm": 40.0380973815918,
      "learning_rate": 5e-06,
      "loss": 0.9387,
      "num_input_tokens_seen": 611953436,
      "step": 4845
    },
    {
      "epoch": 1.2428653883152696,
      "loss": 1.0390417575836182,
      "loss_ce": 0.001199960126541555,
      "loss_iou": 0.47265625,
      "loss_num": 0.018798828125,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 611953436,
      "step": 4845
    },
    {
      "epoch": 1.243121913679215,
      "grad_norm": 22.591411590576172,
      "learning_rate": 5e-06,
      "loss": 0.7958,
      "num_input_tokens_seen": 612080148,
      "step": 4846
    },
    {
      "epoch": 1.243121913679215,
      "loss": 0.6195557117462158,
      "loss_ce": 0.0001709434436634183,
      "loss_iou": 0.294921875,
      "loss_num": 0.005767822265625,
      "loss_xval": 0.62109375,
      "num_input_tokens_seen": 612080148,
      "step": 4846
    },
    {
      "epoch": 1.2433784390431604,
      "grad_norm": 32.35323715209961,
      "learning_rate": 5e-06,
      "loss": 0.9023,
      "num_input_tokens_seen": 612206576,
      "step": 4847
    },
    {
      "epoch": 1.2433784390431604,
      "loss": 0.6743068099021912,
      "loss_ce": 0.000722826924175024,
      "loss_iou": 0.318359375,
      "loss_num": 0.0074462890625,
      "loss_xval": 0.671875,
      "num_input_tokens_seen": 612206576,
      "step": 4847
    },
    {
      "epoch": 1.2436349644071059,
      "grad_norm": 36.899967193603516,
      "learning_rate": 5e-06,
      "loss": 0.8852,
      "num_input_tokens_seen": 612333696,
      "step": 4848
    },
    {
      "epoch": 1.2436349644071059,
      "loss": 0.9531025290489197,
      "loss_ce": 0.0004658221441786736,
      "loss_iou": 0.43359375,
      "loss_num": 0.017333984375,
      "loss_xval": 0.953125,
      "num_input_tokens_seen": 612333696,
      "step": 4848
    },
    {
      "epoch": 1.2438914897710511,
      "grad_norm": 35.737945556640625,
      "learning_rate": 5e-06,
      "loss": 0.7892,
      "num_input_tokens_seen": 612459852,
      "step": 4849
    },
    {
      "epoch": 1.2438914897710511,
      "loss": 0.7735589742660522,
      "loss_ce": 0.00012150005204603076,
      "loss_iou": 0.361328125,
      "loss_num": 0.00982666015625,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 612459852,
      "step": 4849
    },
    {
      "epoch": 1.2441480151349964,
      "grad_norm": 65.22116088867188,
      "learning_rate": 5e-06,
      "loss": 0.8864,
      "num_input_tokens_seen": 612586224,
      "step": 4850
    },
    {
      "epoch": 1.2441480151349964,
      "loss": 0.6678242087364197,
      "loss_ce": 9.959124872693792e-05,
      "loss_iou": 0.322265625,
      "loss_num": 0.004669189453125,
      "loss_xval": 0.66796875,
      "num_input_tokens_seen": 612586224,
      "step": 4850
    },
    {
      "epoch": 1.244404540498942,
      "grad_norm": 51.36000061035156,
      "learning_rate": 5e-06,
      "loss": 0.8881,
      "num_input_tokens_seen": 612712628,
      "step": 4851
    },
    {
      "epoch": 1.244404540498942,
      "loss": 0.9431815147399902,
      "loss_ce": 0.00031036691507324576,
      "loss_iou": 0.4296875,
      "loss_num": 0.0167236328125,
      "loss_xval": 0.94140625,
      "num_input_tokens_seen": 612712628,
      "step": 4851
    },
    {
      "epoch": 1.2446610658628872,
      "grad_norm": 39.94193649291992,
      "learning_rate": 5e-06,
      "loss": 0.7954,
      "num_input_tokens_seen": 612839016,
      "step": 4852
    },
    {
      "epoch": 1.2446610658628872,
      "loss": 0.7878487706184387,
      "loss_ce": 0.0014718325110152364,
      "loss_iou": 0.3671875,
      "loss_num": 0.010498046875,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 612839016,
      "step": 4852
    },
    {
      "epoch": 1.2449175912268324,
      "grad_norm": 39.26067352294922,
      "learning_rate": 5e-06,
      "loss": 0.7526,
      "num_input_tokens_seen": 612965524,
      "step": 4853
    },
    {
      "epoch": 1.2449175912268324,
      "loss": 0.732310950756073,
      "loss_ce": 0.002574614016339183,
      "loss_iou": 0.33984375,
      "loss_num": 0.00970458984375,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 612965524,
      "step": 4853
    },
    {
      "epoch": 1.245174116590778,
      "grad_norm": 47.21491241455078,
      "learning_rate": 5e-06,
      "loss": 0.8296,
      "num_input_tokens_seen": 613091732,
      "step": 4854
    },
    {
      "epoch": 1.245174116590778,
      "loss": 0.9390318989753723,
      "loss_ce": 0.0029967008158564568,
      "loss_iou": 0.4140625,
      "loss_num": 0.0216064453125,
      "loss_xval": 0.9375,
      "num_input_tokens_seen": 613091732,
      "step": 4854
    },
    {
      "epoch": 1.2454306419547232,
      "grad_norm": 40.65690994262695,
      "learning_rate": 5e-06,
      "loss": 0.9531,
      "num_input_tokens_seen": 613217776,
      "step": 4855
    },
    {
      "epoch": 1.2454306419547232,
      "loss": 1.0387933254241943,
      "loss_ce": 0.0026605348102748394,
      "loss_iou": 0.45703125,
      "loss_num": 0.0244140625,
      "loss_xval": 1.0390625,
      "num_input_tokens_seen": 613217776,
      "step": 4855
    },
    {
      "epoch": 1.2456871673186687,
      "grad_norm": 37.79996871948242,
      "learning_rate": 5e-06,
      "loss": 0.6888,
      "num_input_tokens_seen": 613344016,
      "step": 4856
    },
    {
      "epoch": 1.2456871673186687,
      "loss": 0.6156086921691895,
      "loss_ce": 0.00013015670992899686,
      "loss_iou": 0.296875,
      "loss_num": 0.004638671875,
      "loss_xval": 0.6171875,
      "num_input_tokens_seen": 613344016,
      "step": 4856
    },
    {
      "epoch": 1.245943692682614,
      "grad_norm": 36.82427978515625,
      "learning_rate": 5e-06,
      "loss": 0.8428,
      "num_input_tokens_seen": 613469564,
      "step": 4857
    },
    {
      "epoch": 1.245943692682614,
      "loss": 0.8867343068122864,
      "loss_ce": 0.0007479985943064094,
      "loss_iou": 0.40625,
      "loss_num": 0.01446533203125,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 613469564,
      "step": 4857
    },
    {
      "epoch": 1.2462002180465594,
      "grad_norm": 37.523399353027344,
      "learning_rate": 5e-06,
      "loss": 0.8933,
      "num_input_tokens_seen": 613595672,
      "step": 4858
    },
    {
      "epoch": 1.2462002180465594,
      "loss": 0.9049521684646606,
      "loss_ce": 0.00016698756371624768,
      "loss_iou": 0.423828125,
      "loss_num": 0.01104736328125,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 613595672,
      "step": 4858
    },
    {
      "epoch": 1.2464567434105047,
      "grad_norm": 42.28435516357422,
      "learning_rate": 5e-06,
      "loss": 0.864,
      "num_input_tokens_seen": 613722532,
      "step": 4859
    },
    {
      "epoch": 1.2464567434105047,
      "loss": 0.9065111875534058,
      "loss_ce": 0.0022143484093248844,
      "loss_iou": 0.423828125,
      "loss_num": 0.011474609375,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 613722532,
      "step": 4859
    },
    {
      "epoch": 1.24671326877445,
      "grad_norm": 41.45710372924805,
      "learning_rate": 5e-06,
      "loss": 0.9046,
      "num_input_tokens_seen": 613848048,
      "step": 4860
    },
    {
      "epoch": 1.24671326877445,
      "loss": 0.9670527577400208,
      "loss_ce": 0.0031855073757469654,
      "loss_iou": 0.421875,
      "loss_num": 0.0238037109375,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 613848048,
      "step": 4860
    },
    {
      "epoch": 1.2469697941383955,
      "grad_norm": 41.393699645996094,
      "learning_rate": 5e-06,
      "loss": 0.9754,
      "num_input_tokens_seen": 613974360,
      "step": 4861
    },
    {
      "epoch": 1.2469697941383955,
      "loss": 0.8590275645256042,
      "loss_ce": 0.0003849620115943253,
      "loss_iou": 0.400390625,
      "loss_num": 0.01153564453125,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 613974360,
      "step": 4861
    },
    {
      "epoch": 1.2472263195023408,
      "grad_norm": 46.90896224975586,
      "learning_rate": 5e-06,
      "loss": 0.8434,
      "num_input_tokens_seen": 614100904,
      "step": 4862
    },
    {
      "epoch": 1.2472263195023408,
      "loss": 0.8090881109237671,
      "loss_ce": 0.0007385116186924279,
      "loss_iou": 0.376953125,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 614100904,
      "step": 4862
    },
    {
      "epoch": 1.2474828448662862,
      "grad_norm": 131.56016540527344,
      "learning_rate": 5e-06,
      "loss": 0.8431,
      "num_input_tokens_seen": 614227544,
      "step": 4863
    },
    {
      "epoch": 1.2474828448662862,
      "loss": 0.7408370971679688,
      "loss_ce": 0.00011441647075116634,
      "loss_iou": 0.34765625,
      "loss_num": 0.00933837890625,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 614227544,
      "step": 4863
    },
    {
      "epoch": 1.2477393702302315,
      "grad_norm": 44.23210906982422,
      "learning_rate": 5e-06,
      "loss": 0.7914,
      "num_input_tokens_seen": 614354336,
      "step": 4864
    },
    {
      "epoch": 1.2477393702302315,
      "loss": 0.934173583984375,
      "loss_ce": 9.159051114693284e-05,
      "loss_iou": 0.4375,
      "loss_num": 0.011474609375,
      "loss_xval": 0.93359375,
      "num_input_tokens_seen": 614354336,
      "step": 4864
    },
    {
      "epoch": 1.2479958955941768,
      "grad_norm": 42.01106262207031,
      "learning_rate": 5e-06,
      "loss": 0.8108,
      "num_input_tokens_seen": 614479916,
      "step": 4865
    },
    {
      "epoch": 1.2479958955941768,
      "loss": 0.8208638429641724,
      "loss_ce": 0.0010396565776318312,
      "loss_iou": 0.38671875,
      "loss_num": 0.00970458984375,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 614479916,
      "step": 4865
    },
    {
      "epoch": 1.2482524209581223,
      "grad_norm": 35.997737884521484,
      "learning_rate": 5e-06,
      "loss": 0.7723,
      "num_input_tokens_seen": 614605824,
      "step": 4866
    },
    {
      "epoch": 1.2482524209581223,
      "loss": 0.8122396469116211,
      "loss_ce": 0.002181046409532428,
      "loss_iou": 0.376953125,
      "loss_num": 0.01104736328125,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 614605824,
      "step": 4866
    },
    {
      "epoch": 1.2485089463220675,
      "grad_norm": 31.633161544799805,
      "learning_rate": 5e-06,
      "loss": 0.7788,
      "num_input_tokens_seen": 614731856,
      "step": 4867
    },
    {
      "epoch": 1.2485089463220675,
      "loss": 0.6209088563919067,
      "loss_ce": 0.0005474760546348989,
      "loss_iou": 0.294921875,
      "loss_num": 0.0059814453125,
      "loss_xval": 0.62109375,
      "num_input_tokens_seen": 614731856,
      "step": 4867
    },
    {
      "epoch": 1.248765471686013,
      "grad_norm": 34.22772216796875,
      "learning_rate": 5e-06,
      "loss": 0.8492,
      "num_input_tokens_seen": 614858756,
      "step": 4868
    },
    {
      "epoch": 1.248765471686013,
      "loss": 0.6008121967315674,
      "loss_ce": 0.0002262425987282768,
      "loss_iou": 0.287109375,
      "loss_num": 0.00506591796875,
      "loss_xval": 0.6015625,
      "num_input_tokens_seen": 614858756,
      "step": 4868
    },
    {
      "epoch": 1.2490219970499583,
      "grad_norm": 58.88716506958008,
      "learning_rate": 5e-06,
      "loss": 0.9442,
      "num_input_tokens_seen": 614985344,
      "step": 4869
    },
    {
      "epoch": 1.2490219970499583,
      "loss": 1.031977653503418,
      "loss_ce": 0.001215929165482521,
      "loss_iou": 0.474609375,
      "loss_num": 0.016357421875,
      "loss_xval": 1.03125,
      "num_input_tokens_seen": 614985344,
      "step": 4869
    },
    {
      "epoch": 1.2492785224139036,
      "grad_norm": 51.10793685913086,
      "learning_rate": 5e-06,
      "loss": 0.8577,
      "num_input_tokens_seen": 615111432,
      "step": 4870
    },
    {
      "epoch": 1.2492785224139036,
      "loss": 0.8859601616859436,
      "loss_ce": 0.00461247842758894,
      "loss_iou": 0.3984375,
      "loss_num": 0.016845703125,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 615111432,
      "step": 4870
    },
    {
      "epoch": 1.249535047777849,
      "grad_norm": 49.4130973815918,
      "learning_rate": 5e-06,
      "loss": 0.8326,
      "num_input_tokens_seen": 615237824,
      "step": 4871
    },
    {
      "epoch": 1.249535047777849,
      "loss": 0.8178707957267761,
      "loss_ce": 0.0014645553892478347,
      "loss_iou": 0.37890625,
      "loss_num": 0.01153564453125,
      "loss_xval": 0.81640625,
      "num_input_tokens_seen": 615237824,
      "step": 4871
    },
    {
      "epoch": 1.2497915731417943,
      "grad_norm": 48.41147994995117,
      "learning_rate": 5e-06,
      "loss": 0.9895,
      "num_input_tokens_seen": 615364084,
      "step": 4872
    },
    {
      "epoch": 1.2497915731417943,
      "loss": 1.0228662490844727,
      "loss_ce": 0.00040528789395466447,
      "loss_iou": 0.462890625,
      "loss_num": 0.0191650390625,
      "loss_xval": 1.0234375,
      "num_input_tokens_seen": 615364084,
      "step": 4872
    },
    {
      "epoch": 1.2500480985057398,
      "grad_norm": 40.475486755371094,
      "learning_rate": 5e-06,
      "loss": 0.8392,
      "num_input_tokens_seen": 615489788,
      "step": 4873
    },
    {
      "epoch": 1.2500480985057398,
      "loss": 0.9155563116073608,
      "loss_ce": 0.0014938146341592073,
      "loss_iou": 0.416015625,
      "loss_num": 0.0162353515625,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 615489788,
      "step": 4873
    },
    {
      "epoch": 1.250304623869685,
      "grad_norm": 58.11557388305664,
      "learning_rate": 5e-06,
      "loss": 0.8285,
      "num_input_tokens_seen": 615616924,
      "step": 4874
    },
    {
      "epoch": 1.250304623869685,
      "loss": 0.8934458494186401,
      "loss_ce": 0.00037946016527712345,
      "loss_iou": 0.419921875,
      "loss_num": 0.0106201171875,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 615616924,
      "step": 4874
    },
    {
      "epoch": 1.2505611492336306,
      "grad_norm": 45.64991760253906,
      "learning_rate": 5e-06,
      "loss": 0.9463,
      "num_input_tokens_seen": 615742712,
      "step": 4875
    },
    {
      "epoch": 1.2505611492336306,
      "loss": 1.0043511390686035,
      "loss_ce": 0.004839432891458273,
      "loss_iou": 0.458984375,
      "loss_num": 0.0167236328125,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 615742712,
      "step": 4875
    },
    {
      "epoch": 1.2508176745975759,
      "grad_norm": 27.524810791015625,
      "learning_rate": 5e-06,
      "loss": 0.7656,
      "num_input_tokens_seen": 615868644,
      "step": 4876
    },
    {
      "epoch": 1.2508176745975759,
      "loss": 0.5897889137268066,
      "loss_ce": 0.0004334656405262649,
      "loss_iou": 0.28125,
      "loss_num": 0.005279541015625,
      "loss_xval": 0.58984375,
      "num_input_tokens_seen": 615868644,
      "step": 4876
    },
    {
      "epoch": 1.2510741999615211,
      "grad_norm": 29.8249568939209,
      "learning_rate": 5e-06,
      "loss": 0.7741,
      "num_input_tokens_seen": 615995076,
      "step": 4877
    },
    {
      "epoch": 1.2510741999615211,
      "loss": 0.8309594988822937,
      "loss_ce": 0.00039308282430283725,
      "loss_iou": 0.38671875,
      "loss_num": 0.0115966796875,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 615995076,
      "step": 4877
    },
    {
      "epoch": 1.2513307253254666,
      "grad_norm": 51.327857971191406,
      "learning_rate": 5e-06,
      "loss": 0.8185,
      "num_input_tokens_seen": 616121512,
      "step": 4878
    },
    {
      "epoch": 1.2513307253254666,
      "loss": 0.7672574520111084,
      "loss_ce": 0.0035855905152857304,
      "loss_iou": 0.369140625,
      "loss_num": 0.005157470703125,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 616121512,
      "step": 4878
    },
    {
      "epoch": 1.251587250689412,
      "grad_norm": 49.58641052246094,
      "learning_rate": 5e-06,
      "loss": 0.9151,
      "num_input_tokens_seen": 616248280,
      "step": 4879
    },
    {
      "epoch": 1.251587250689412,
      "loss": 0.8126684427261353,
      "loss_ce": 0.002609824063256383,
      "loss_iou": 0.380859375,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 616248280,
      "step": 4879
    },
    {
      "epoch": 1.2518437760533572,
      "grad_norm": 50.77007293701172,
      "learning_rate": 5e-06,
      "loss": 0.918,
      "num_input_tokens_seen": 616373940,
      "step": 4880
    },
    {
      "epoch": 1.2518437760533572,
      "loss": 0.8627360463142395,
      "loss_ce": 0.0014079133979976177,
      "loss_iou": 0.39453125,
      "loss_num": 0.014404296875,
      "loss_xval": 0.859375,
      "num_input_tokens_seen": 616373940,
      "step": 4880
    },
    {
      "epoch": 1.2521003014173027,
      "grad_norm": 44.6944694519043,
      "learning_rate": 5e-06,
      "loss": 0.8419,
      "num_input_tokens_seen": 616500028,
      "step": 4881
    },
    {
      "epoch": 1.2521003014173027,
      "loss": 0.97746342420578,
      "loss_ce": 0.001389187527820468,
      "loss_iou": 0.453125,
      "loss_num": 0.0142822265625,
      "loss_xval": 0.9765625,
      "num_input_tokens_seen": 616500028,
      "step": 4881
    },
    {
      "epoch": 1.252356826781248,
      "grad_norm": 41.16373062133789,
      "learning_rate": 5e-06,
      "loss": 0.8961,
      "num_input_tokens_seen": 616626664,
      "step": 4882
    },
    {
      "epoch": 1.252356826781248,
      "loss": 0.9138579964637756,
      "loss_ce": 0.0002837352512869984,
      "loss_iou": 0.42578125,
      "loss_num": 0.012451171875,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 616626664,
      "step": 4882
    },
    {
      "epoch": 1.2526133521451934,
      "grad_norm": 34.452972412109375,
      "learning_rate": 5e-06,
      "loss": 0.8164,
      "num_input_tokens_seen": 616752212,
      "step": 4883
    },
    {
      "epoch": 1.2526133521451934,
      "loss": 0.7162067890167236,
      "loss_ce": 0.00038651403156109154,
      "loss_iou": 0.341796875,
      "loss_num": 0.0064697265625,
      "loss_xval": 0.71484375,
      "num_input_tokens_seen": 616752212,
      "step": 4883
    },
    {
      "epoch": 1.2528698775091387,
      "grad_norm": 32.316307067871094,
      "learning_rate": 5e-06,
      "loss": 0.8049,
      "num_input_tokens_seen": 616879836,
      "step": 4884
    },
    {
      "epoch": 1.2528698775091387,
      "loss": 0.6363385915756226,
      "loss_ce": 0.0001081209848052822,
      "loss_iou": 0.30078125,
      "loss_num": 0.006683349609375,
      "loss_xval": 0.63671875,
      "num_input_tokens_seen": 616879836,
      "step": 4884
    },
    {
      "epoch": 1.2531264028730842,
      "grad_norm": 30.54315757751465,
      "learning_rate": 5e-06,
      "loss": 0.7412,
      "num_input_tokens_seen": 617004768,
      "step": 4885
    },
    {
      "epoch": 1.2531264028730842,
      "loss": 0.7676336169242859,
      "loss_ce": 5.5488242651335895e-05,
      "loss_iou": 0.365234375,
      "loss_num": 0.007232666015625,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 617004768,
      "step": 4885
    },
    {
      "epoch": 1.2533829282370295,
      "grad_norm": 24.224180221557617,
      "learning_rate": 5e-06,
      "loss": 0.8331,
      "num_input_tokens_seen": 617130584,
      "step": 4886
    },
    {
      "epoch": 1.2533829282370295,
      "loss": 0.9251647591590881,
      "loss_ce": 0.0008483612909913063,
      "loss_iou": 0.412109375,
      "loss_num": 0.0196533203125,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 617130584,
      "step": 4886
    },
    {
      "epoch": 1.2536394536009747,
      "grad_norm": 34.50944519042969,
      "learning_rate": 5e-06,
      "loss": 0.856,
      "num_input_tokens_seen": 617257368,
      "step": 4887
    },
    {
      "epoch": 1.2536394536009747,
      "loss": 0.6749765872955322,
      "loss_ce": 0.001636710250750184,
      "loss_iou": 0.318359375,
      "loss_num": 0.00701904296875,
      "loss_xval": 0.671875,
      "num_input_tokens_seen": 617257368,
      "step": 4887
    },
    {
      "epoch": 1.2538959789649202,
      "grad_norm": 33.48082733154297,
      "learning_rate": 5e-06,
      "loss": 0.759,
      "num_input_tokens_seen": 617383100,
      "step": 4888
    },
    {
      "epoch": 1.2538959789649202,
      "loss": 0.8120369911193848,
      "loss_ce": 0.0010018073953688145,
      "loss_iou": 0.37890625,
      "loss_num": 0.0103759765625,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 617383100,
      "step": 4888
    },
    {
      "epoch": 1.2541525043288655,
      "grad_norm": 26.95652198791504,
      "learning_rate": 5e-06,
      "loss": 0.8689,
      "num_input_tokens_seen": 617509416,
      "step": 4889
    },
    {
      "epoch": 1.2541525043288655,
      "loss": 0.9684051275253296,
      "loss_ce": 0.0011809475254267454,
      "loss_iou": 0.4296875,
      "loss_num": 0.0216064453125,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 617509416,
      "step": 4889
    },
    {
      "epoch": 1.2544090296928108,
      "grad_norm": 38.312721252441406,
      "learning_rate": 5e-06,
      "loss": 0.8086,
      "num_input_tokens_seen": 617634628,
      "step": 4890
    },
    {
      "epoch": 1.2544090296928108,
      "loss": 0.9245145320892334,
      "loss_ce": 0.00019810721278190613,
      "loss_iou": 0.41796875,
      "loss_num": 0.0179443359375,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 617634628,
      "step": 4890
    },
    {
      "epoch": 1.2546655550567563,
      "grad_norm": 22.47524070739746,
      "learning_rate": 5e-06,
      "loss": 0.8985,
      "num_input_tokens_seen": 617760612,
      "step": 4891
    },
    {
      "epoch": 1.2546655550567563,
      "loss": 0.8494176864624023,
      "loss_ce": 0.0012731136521324515,
      "loss_iou": 0.3984375,
      "loss_num": 0.010498046875,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 617760612,
      "step": 4891
    },
    {
      "epoch": 1.2549220804207015,
      "grad_norm": 35.46991729736328,
      "learning_rate": 5e-06,
      "loss": 0.8283,
      "num_input_tokens_seen": 617887532,
      "step": 4892
    },
    {
      "epoch": 1.2549220804207015,
      "loss": 0.7959955930709839,
      "loss_ce": 9.717111242935061e-05,
      "loss_iou": 0.373046875,
      "loss_num": 0.01025390625,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 617887532,
      "step": 4892
    },
    {
      "epoch": 1.255178605784647,
      "grad_norm": 34.90095901489258,
      "learning_rate": 5e-06,
      "loss": 0.9707,
      "num_input_tokens_seen": 618012804,
      "step": 4893
    },
    {
      "epoch": 1.255178605784647,
      "loss": 0.906758189201355,
      "loss_ce": 0.004658609628677368,
      "loss_iou": 0.40625,
      "loss_num": 0.0181884765625,
      "loss_xval": 0.90234375,
      "num_input_tokens_seen": 618012804,
      "step": 4893
    },
    {
      "epoch": 1.2554351311485923,
      "grad_norm": 36.682708740234375,
      "learning_rate": 5e-06,
      "loss": 0.8237,
      "num_input_tokens_seen": 618138664,
      "step": 4894
    },
    {
      "epoch": 1.2554351311485923,
      "loss": 0.8308547735214233,
      "loss_ce": 0.0012649295385926962,
      "loss_iou": 0.365234375,
      "loss_num": 0.01953125,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 618138664,
      "step": 4894
    },
    {
      "epoch": 1.2556916565125378,
      "grad_norm": 35.46415328979492,
      "learning_rate": 5e-06,
      "loss": 0.9305,
      "num_input_tokens_seen": 618265152,
      "step": 4895
    },
    {
      "epoch": 1.2556916565125378,
      "loss": 0.9202329516410828,
      "loss_ce": 0.00128766184207052,
      "loss_iou": 0.44140625,
      "loss_num": 0.00714111328125,
      "loss_xval": 0.91796875,
      "num_input_tokens_seen": 618265152,
      "step": 4895
    },
    {
      "epoch": 1.255948181876483,
      "grad_norm": 53.456947326660156,
      "learning_rate": 5e-06,
      "loss": 0.8827,
      "num_input_tokens_seen": 618392128,
      "step": 4896
    },
    {
      "epoch": 1.255948181876483,
      "loss": 0.7889403104782104,
      "loss_ce": 0.00012191900168545544,
      "loss_iou": 0.361328125,
      "loss_num": 0.01300048828125,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 618392128,
      "step": 4896
    },
    {
      "epoch": 1.2562047072404283,
      "grad_norm": 39.771244049072266,
      "learning_rate": 5e-06,
      "loss": 0.9099,
      "num_input_tokens_seen": 618518224,
      "step": 4897
    },
    {
      "epoch": 1.2562047072404283,
      "loss": 0.7981019616127014,
      "loss_ce": 0.0022034896537661552,
      "loss_iou": 0.37109375,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 618518224,
      "step": 4897
    },
    {
      "epoch": 1.2564612326043738,
      "grad_norm": 30.311843872070312,
      "learning_rate": 5e-06,
      "loss": 0.8187,
      "num_input_tokens_seen": 618645148,
      "step": 4898
    },
    {
      "epoch": 1.2564612326043738,
      "loss": 0.7063883543014526,
      "loss_ce": 0.0005778180784545839,
      "loss_iou": 0.330078125,
      "loss_num": 0.0091552734375,
      "loss_xval": 0.70703125,
      "num_input_tokens_seen": 618645148,
      "step": 4898
    },
    {
      "epoch": 1.256717757968319,
      "grad_norm": 26.57332420349121,
      "learning_rate": 5e-06,
      "loss": 0.8633,
      "num_input_tokens_seen": 618771708,
      "step": 4899
    },
    {
      "epoch": 1.256717757968319,
      "loss": 0.9121111631393433,
      "loss_ce": 0.0002459475945215672,
      "loss_iou": 0.41796875,
      "loss_num": 0.01513671875,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 618771708,
      "step": 4899
    },
    {
      "epoch": 1.2569742833322644,
      "grad_norm": 23.006776809692383,
      "learning_rate": 5e-06,
      "loss": 0.9176,
      "num_input_tokens_seen": 618897688,
      "step": 4900
    },
    {
      "epoch": 1.2569742833322644,
      "loss": 0.8881502151489258,
      "loss_ce": 0.00045489604235626757,
      "loss_iou": 0.3984375,
      "loss_num": 0.018310546875,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 618897688,
      "step": 4900
    },
    {
      "epoch": 1.2572308086962098,
      "grad_norm": 28.260047912597656,
      "learning_rate": 5e-06,
      "loss": 0.9202,
      "num_input_tokens_seen": 619022944,
      "step": 4901
    },
    {
      "epoch": 1.2572308086962098,
      "loss": 1.344700574874878,
      "loss_ce": 0.0053450437262654305,
      "loss_iou": 0.5625,
      "loss_num": 0.042724609375,
      "loss_xval": 1.3359375,
      "num_input_tokens_seen": 619022944,
      "step": 4901
    },
    {
      "epoch": 1.2574873340601551,
      "grad_norm": 37.50130844116211,
      "learning_rate": 5e-06,
      "loss": 0.7861,
      "num_input_tokens_seen": 619149496,
      "step": 4902
    },
    {
      "epoch": 1.2574873340601551,
      "loss": 0.8403104543685913,
      "loss_ce": 0.00046673332690261304,
      "loss_iou": 0.39453125,
      "loss_num": 0.01025390625,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 619149496,
      "step": 4902
    },
    {
      "epoch": 1.2577438594241006,
      "grad_norm": 52.76167678833008,
      "learning_rate": 5e-06,
      "loss": 0.735,
      "num_input_tokens_seen": 619274856,
      "step": 4903
    },
    {
      "epoch": 1.2577438594241006,
      "loss": 0.7348695993423462,
      "loss_ce": 0.0012270710431039333,
      "loss_iou": 0.3359375,
      "loss_num": 0.01202392578125,
      "loss_xval": 0.734375,
      "num_input_tokens_seen": 619274856,
      "step": 4903
    },
    {
      "epoch": 1.2580003847880459,
      "grad_norm": 51.674373626708984,
      "learning_rate": 5e-06,
      "loss": 0.7746,
      "num_input_tokens_seen": 619400636,
      "step": 4904
    },
    {
      "epoch": 1.2580003847880459,
      "loss": 0.7751842737197876,
      "loss_ce": 0.0036998712457716465,
      "loss_iou": 0.36328125,
      "loss_num": 0.00933837890625,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 619400636,
      "step": 4904
    },
    {
      "epoch": 1.2582569101519914,
      "grad_norm": 50.15906524658203,
      "learning_rate": 5e-06,
      "loss": 0.7494,
      "num_input_tokens_seen": 619526148,
      "step": 4905
    },
    {
      "epoch": 1.2582569101519914,
      "loss": 0.7882883548736572,
      "loss_ce": 0.0006906596245244145,
      "loss_iou": 0.376953125,
      "loss_num": 0.00665283203125,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 619526148,
      "step": 4905
    },
    {
      "epoch": 1.2585134355159366,
      "grad_norm": 34.59101104736328,
      "learning_rate": 5e-06,
      "loss": 0.9273,
      "num_input_tokens_seen": 619653012,
      "step": 4906
    },
    {
      "epoch": 1.2585134355159366,
      "loss": 0.9462058544158936,
      "loss_ce": 0.002846541814506054,
      "loss_iou": 0.42578125,
      "loss_num": 0.017822265625,
      "loss_xval": 0.9453125,
      "num_input_tokens_seen": 619653012,
      "step": 4906
    },
    {
      "epoch": 1.258769960879882,
      "grad_norm": 37.81549072265625,
      "learning_rate": 5e-06,
      "loss": 0.7821,
      "num_input_tokens_seen": 619779956,
      "step": 4907
    },
    {
      "epoch": 1.258769960879882,
      "loss": 0.7698701620101929,
      "loss_ce": 9.47793887462467e-05,
      "loss_iou": 0.357421875,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.76953125,
      "num_input_tokens_seen": 619779956,
      "step": 4907
    },
    {
      "epoch": 1.2590264862438274,
      "grad_norm": 28.712631225585938,
      "learning_rate": 5e-06,
      "loss": 0.8278,
      "num_input_tokens_seen": 619905992,
      "step": 4908
    },
    {
      "epoch": 1.2590264862438274,
      "loss": 0.7908428907394409,
      "loss_ce": 0.002024509944021702,
      "loss_iou": 0.359375,
      "loss_num": 0.0135498046875,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 619905992,
      "step": 4908
    },
    {
      "epoch": 1.2592830116077727,
      "grad_norm": 17.206342697143555,
      "learning_rate": 5e-06,
      "loss": 0.7712,
      "num_input_tokens_seen": 620031472,
      "step": 4909
    },
    {
      "epoch": 1.2592830116077727,
      "loss": 0.6872033476829529,
      "loss_ce": 0.0028771499637514353,
      "loss_iou": 0.31640625,
      "loss_num": 0.01031494140625,
      "loss_xval": 0.68359375,
      "num_input_tokens_seen": 620031472,
      "step": 4909
    },
    {
      "epoch": 1.259539536971718,
      "grad_norm": 16.366432189941406,
      "learning_rate": 5e-06,
      "loss": 0.8707,
      "num_input_tokens_seen": 620157352,
      "step": 4910
    },
    {
      "epoch": 1.259539536971718,
      "loss": 1.0560791492462158,
      "loss_ce": 0.0023681398015469313,
      "loss_iou": 0.486328125,
      "loss_num": 0.0167236328125,
      "loss_xval": 1.0546875,
      "num_input_tokens_seen": 620157352,
      "step": 4910
    },
    {
      "epoch": 1.2597960623356634,
      "grad_norm": 29.159927368164062,
      "learning_rate": 5e-06,
      "loss": 0.8539,
      "num_input_tokens_seen": 620284752,
      "step": 4911
    },
    {
      "epoch": 1.2597960623356634,
      "loss": 0.7015319466590881,
      "loss_ce": 0.005242906045168638,
      "loss_iou": 0.3359375,
      "loss_num": 0.004669189453125,
      "loss_xval": 0.6953125,
      "num_input_tokens_seen": 620284752,
      "step": 4911
    },
    {
      "epoch": 1.260052587699609,
      "grad_norm": 39.89482116699219,
      "learning_rate": 5e-06,
      "loss": 0.8178,
      "num_input_tokens_seen": 620412012,
      "step": 4912
    },
    {
      "epoch": 1.260052587699609,
      "loss": 0.7695851922035217,
      "loss_ce": 0.00029806458042003214,
      "loss_iou": 0.35546875,
      "loss_num": 0.011962890625,
      "loss_xval": 0.76953125,
      "num_input_tokens_seen": 620412012,
      "step": 4912
    },
    {
      "epoch": 1.2603091130635542,
      "grad_norm": 19.92340850830078,
      "learning_rate": 5e-06,
      "loss": 0.7858,
      "num_input_tokens_seen": 620538628,
      "step": 4913
    },
    {
      "epoch": 1.2603091130635542,
      "loss": 0.6973683834075928,
      "loss_ce": 0.00034686760045588017,
      "loss_iou": 0.31640625,
      "loss_num": 0.01287841796875,
      "loss_xval": 0.6953125,
      "num_input_tokens_seen": 620538628,
      "step": 4913
    },
    {
      "epoch": 1.2605656384274995,
      "grad_norm": 15.72502326965332,
      "learning_rate": 5e-06,
      "loss": 0.8266,
      "num_input_tokens_seen": 620665896,
      "step": 4914
    },
    {
      "epoch": 1.2605656384274995,
      "loss": 0.9105359315872192,
      "loss_ce": 0.005262497812509537,
      "loss_iou": 0.412109375,
      "loss_num": 0.0162353515625,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 620665896,
      "step": 4914
    },
    {
      "epoch": 1.260822163791445,
      "grad_norm": 22.429065704345703,
      "learning_rate": 5e-06,
      "loss": 0.859,
      "num_input_tokens_seen": 620792040,
      "step": 4915
    },
    {
      "epoch": 1.260822163791445,
      "loss": 0.8305152654647827,
      "loss_ce": 0.0001930258295033127,
      "loss_iou": 0.37890625,
      "loss_num": 0.014404296875,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 620792040,
      "step": 4915
    },
    {
      "epoch": 1.2610786891553902,
      "grad_norm": 25.278873443603516,
      "learning_rate": 5e-06,
      "loss": 0.7277,
      "num_input_tokens_seen": 620918604,
      "step": 4916
    },
    {
      "epoch": 1.2610786891553902,
      "loss": 0.8336285948753357,
      "loss_ce": 0.00013253385259304196,
      "loss_iou": 0.392578125,
      "loss_num": 0.010009765625,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 620918604,
      "step": 4916
    },
    {
      "epoch": 1.2613352145193355,
      "grad_norm": 34.928253173828125,
      "learning_rate": 5e-06,
      "loss": 0.913,
      "num_input_tokens_seen": 621044528,
      "step": 4917
    },
    {
      "epoch": 1.2613352145193355,
      "loss": 1.0888681411743164,
      "loss_ce": 0.0014657413121312857,
      "loss_iou": 0.5234375,
      "loss_num": 0.0086669921875,
      "loss_xval": 1.0859375,
      "num_input_tokens_seen": 621044528,
      "step": 4917
    },
    {
      "epoch": 1.261591739883281,
      "grad_norm": 31.51630210876465,
      "learning_rate": 5e-06,
      "loss": 0.8183,
      "num_input_tokens_seen": 621170520,
      "step": 4918
    },
    {
      "epoch": 1.261591739883281,
      "loss": 0.6987836956977844,
      "loss_ce": 0.002494653221219778,
      "loss_iou": 0.330078125,
      "loss_num": 0.007171630859375,
      "loss_xval": 0.6953125,
      "num_input_tokens_seen": 621170520,
      "step": 4918
    },
    {
      "epoch": 1.2618482652472263,
      "grad_norm": 157.75596618652344,
      "learning_rate": 5e-06,
      "loss": 0.7645,
      "num_input_tokens_seen": 621296792,
      "step": 4919
    },
    {
      "epoch": 1.2618482652472263,
      "loss": 0.670246422290802,
      "loss_ce": 0.000568658928386867,
      "loss_iou": 0.322265625,
      "loss_num": 0.005126953125,
      "loss_xval": 0.66796875,
      "num_input_tokens_seen": 621296792,
      "step": 4919
    },
    {
      "epoch": 1.2621047906111718,
      "grad_norm": 55.24531936645508,
      "learning_rate": 5e-06,
      "loss": 0.798,
      "num_input_tokens_seen": 621422940,
      "step": 4920
    },
    {
      "epoch": 1.2621047906111718,
      "loss": 0.7767440676689148,
      "loss_ce": 0.001353443250991404,
      "loss_iou": 0.36328125,
      "loss_num": 0.010009765625,
      "loss_xval": 0.7734375,
      "num_input_tokens_seen": 621422940,
      "step": 4920
    },
    {
      "epoch": 1.262361315975117,
      "grad_norm": 48.09327697753906,
      "learning_rate": 5e-06,
      "loss": 0.8664,
      "num_input_tokens_seen": 621550052,
      "step": 4921
    },
    {
      "epoch": 1.262361315975117,
      "loss": 0.7667883634567261,
      "loss_ce": 0.00018680444918572903,
      "loss_iou": 0.369140625,
      "loss_num": 0.005828857421875,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 621550052,
      "step": 4921
    },
    {
      "epoch": 1.2626178413390625,
      "grad_norm": 35.5316047668457,
      "learning_rate": 5e-06,
      "loss": 0.8503,
      "num_input_tokens_seen": 621676436,
      "step": 4922
    },
    {
      "epoch": 1.2626178413390625,
      "loss": 0.7367488145828247,
      "loss_ce": 0.0001765655179042369,
      "loss_iou": 0.345703125,
      "loss_num": 0.0087890625,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 621676436,
      "step": 4922
    },
    {
      "epoch": 1.2628743667030078,
      "grad_norm": 40.7636833190918,
      "learning_rate": 5e-06,
      "loss": 1.045,
      "num_input_tokens_seen": 621803176,
      "step": 4923
    },
    {
      "epoch": 1.2628743667030078,
      "loss": 1.0088164806365967,
      "loss_ce": 0.0010039464104920626,
      "loss_iou": 0.455078125,
      "loss_num": 0.0198974609375,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 621803176,
      "step": 4923
    },
    {
      "epoch": 1.263130892066953,
      "grad_norm": 50.91525650024414,
      "learning_rate": 5e-06,
      "loss": 0.9375,
      "num_input_tokens_seen": 621929336,
      "step": 4924
    },
    {
      "epoch": 1.263130892066953,
      "loss": 0.804293692111969,
      "loss_ce": 0.0008268889505416155,
      "loss_iou": 0.36328125,
      "loss_num": 0.01556396484375,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 621929336,
      "step": 4924
    },
    {
      "epoch": 1.2633874174308986,
      "grad_norm": 56.523826599121094,
      "learning_rate": 5e-06,
      "loss": 0.8022,
      "num_input_tokens_seen": 622055692,
      "step": 4925
    },
    {
      "epoch": 1.2633874174308986,
      "loss": 0.8145253658294678,
      "loss_ce": 0.0005605214973911643,
      "loss_iou": 0.380859375,
      "loss_num": 0.0103759765625,
      "loss_xval": 0.8125,
      "num_input_tokens_seen": 622055692,
      "step": 4925
    },
    {
      "epoch": 1.2636439427948438,
      "grad_norm": 54.99233627319336,
      "learning_rate": 5e-06,
      "loss": 0.7361,
      "num_input_tokens_seen": 622182960,
      "step": 4926
    },
    {
      "epoch": 1.2636439427948438,
      "loss": 0.8205083608627319,
      "loss_ce": 0.00019586940470617265,
      "loss_iou": 0.3828125,
      "loss_num": 0.01123046875,
      "loss_xval": 0.8203125,
      "num_input_tokens_seen": 622182960,
      "step": 4926
    },
    {
      "epoch": 1.263900468158789,
      "grad_norm": 49.662010192871094,
      "learning_rate": 5e-06,
      "loss": 0.9016,
      "num_input_tokens_seen": 622309104,
      "step": 4927
    },
    {
      "epoch": 1.263900468158789,
      "loss": 0.6709178686141968,
      "loss_ce": 0.00026355497539043427,
      "loss_iou": 0.3203125,
      "loss_num": 0.00567626953125,
      "loss_xval": 0.671875,
      "num_input_tokens_seen": 622309104,
      "step": 4927
    },
    {
      "epoch": 1.2641569935227346,
      "grad_norm": 24.025911331176758,
      "learning_rate": 5e-06,
      "loss": 0.8672,
      "num_input_tokens_seen": 622434688,
      "step": 4928
    },
    {
      "epoch": 1.2641569935227346,
      "loss": 0.9914757609367371,
      "loss_ce": 0.0012413345975801349,
      "loss_iou": 0.4609375,
      "loss_num": 0.013427734375,
      "loss_xval": 0.9921875,
      "num_input_tokens_seen": 622434688,
      "step": 4928
    },
    {
      "epoch": 1.2644135188866799,
      "grad_norm": 35.365360260009766,
      "learning_rate": 5e-06,
      "loss": 0.963,
      "num_input_tokens_seen": 622561684,
      "step": 4929
    },
    {
      "epoch": 1.2644135188866799,
      "loss": 0.9157590866088867,
      "loss_ce": 0.00023174025409389287,
      "loss_iou": 0.431640625,
      "loss_num": 0.01043701171875,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 622561684,
      "step": 4929
    },
    {
      "epoch": 1.2646700442506253,
      "grad_norm": 37.33714294433594,
      "learning_rate": 5e-06,
      "loss": 0.7778,
      "num_input_tokens_seen": 622688044,
      "step": 4930
    },
    {
      "epoch": 1.2646700442506253,
      "loss": 0.8068856000900269,
      "loss_ce": 0.0012215173337608576,
      "loss_iou": 0.376953125,
      "loss_num": 0.01019287109375,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 622688044,
      "step": 4930
    },
    {
      "epoch": 1.2649265696145706,
      "grad_norm": 35.873291015625,
      "learning_rate": 5e-06,
      "loss": 0.8641,
      "num_input_tokens_seen": 622813216,
      "step": 4931
    },
    {
      "epoch": 1.2649265696145706,
      "loss": 0.9125863313674927,
      "loss_ce": 0.0014535472728312016,
      "loss_iou": 0.423828125,
      "loss_num": 0.0128173828125,
      "loss_xval": 0.91015625,
      "num_input_tokens_seen": 622813216,
      "step": 4931
    },
    {
      "epoch": 1.265183094978516,
      "grad_norm": 41.349002838134766,
      "learning_rate": 5e-06,
      "loss": 0.8894,
      "num_input_tokens_seen": 622939912,
      "step": 4932
    },
    {
      "epoch": 1.265183094978516,
      "loss": 0.9215930700302124,
      "loss_ce": 0.00020635877444874495,
      "loss_iou": 0.423828125,
      "loss_num": 0.014404296875,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 622939912,
      "step": 4932
    },
    {
      "epoch": 1.2654396203424614,
      "grad_norm": 40.74809646606445,
      "learning_rate": 5e-06,
      "loss": 0.8246,
      "num_input_tokens_seen": 623065612,
      "step": 4933
    },
    {
      "epoch": 1.2654396203424614,
      "loss": 0.76250821352005,
      "loss_ce": 0.0007894561276771128,
      "loss_iou": 0.34375,
      "loss_num": 0.01495361328125,
      "loss_xval": 0.76171875,
      "num_input_tokens_seen": 623065612,
      "step": 4933
    },
    {
      "epoch": 1.2656961457064067,
      "grad_norm": 40.19126892089844,
      "learning_rate": 5e-06,
      "loss": 0.8494,
      "num_input_tokens_seen": 623191528,
      "step": 4934
    },
    {
      "epoch": 1.2656961457064067,
      "loss": 0.9265611171722412,
      "loss_ce": 0.0007798410952091217,
      "loss_iou": 0.431640625,
      "loss_num": 0.0126953125,
      "loss_xval": 0.92578125,
      "num_input_tokens_seen": 623191528,
      "step": 4934
    },
    {
      "epoch": 1.2659526710703521,
      "grad_norm": 53.57729721069336,
      "learning_rate": 5e-06,
      "loss": 0.9314,
      "num_input_tokens_seen": 623319560,
      "step": 4935
    },
    {
      "epoch": 1.2659526710703521,
      "loss": 0.8819797039031982,
      "loss_ce": 0.0006321133696474135,
      "loss_iou": 0.408203125,
      "loss_num": 0.0128173828125,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 623319560,
      "step": 4935
    },
    {
      "epoch": 1.2662091964342974,
      "grad_norm": 58.01642608642578,
      "learning_rate": 5e-06,
      "loss": 0.9029,
      "num_input_tokens_seen": 623445816,
      "step": 4936
    },
    {
      "epoch": 1.2662091964342974,
      "loss": 0.806560754776001,
      "loss_ce": 0.0013849661918357015,
      "loss_iou": 0.37890625,
      "loss_num": 0.0093994140625,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 623445816,
      "step": 4936
    },
    {
      "epoch": 1.2664657217982427,
      "grad_norm": 46.59574508666992,
      "learning_rate": 5e-06,
      "loss": 0.871,
      "num_input_tokens_seen": 623571596,
      "step": 4937
    },
    {
      "epoch": 1.2664657217982427,
      "loss": 0.8737508058547974,
      "loss_ce": 0.001192231778986752,
      "loss_iou": 0.41015625,
      "loss_num": 0.01080322265625,
      "loss_xval": 0.87109375,
      "num_input_tokens_seen": 623571596,
      "step": 4937
    },
    {
      "epoch": 1.2667222471621882,
      "grad_norm": 44.851593017578125,
      "learning_rate": 5e-06,
      "loss": 0.8283,
      "num_input_tokens_seen": 623698072,
      "step": 4938
    },
    {
      "epoch": 1.2667222471621882,
      "loss": 0.7850120067596436,
      "loss_ce": 0.0008323309011757374,
      "loss_iou": 0.359375,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 623698072,
      "step": 4938
    },
    {
      "epoch": 1.2669787725261334,
      "grad_norm": 46.51664733886719,
      "learning_rate": 5e-06,
      "loss": 0.9242,
      "num_input_tokens_seen": 623824560,
      "step": 4939
    },
    {
      "epoch": 1.2669787725261334,
      "loss": 1.0501995086669922,
      "loss_ce": 0.0008830720908008516,
      "loss_iou": 0.47265625,
      "loss_num": 0.0206298828125,
      "loss_xval": 1.046875,
      "num_input_tokens_seen": 623824560,
      "step": 4939
    },
    {
      "epoch": 1.267235297890079,
      "grad_norm": 50.585899353027344,
      "learning_rate": 5e-06,
      "loss": 0.9647,
      "num_input_tokens_seen": 623951788,
      "step": 4940
    },
    {
      "epoch": 1.267235297890079,
      "loss": 1.1142146587371826,
      "loss_ce": 0.005083835683763027,
      "loss_iou": 0.486328125,
      "loss_num": 0.02734375,
      "loss_xval": 1.109375,
      "num_input_tokens_seen": 623951788,
      "step": 4940
    },
    {
      "epoch": 1.2674918232540242,
      "grad_norm": 79.7021484375,
      "learning_rate": 5e-06,
      "loss": 0.8036,
      "num_input_tokens_seen": 624078420,
      "step": 4941
    },
    {
      "epoch": 1.2674918232540242,
      "loss": 0.7939039468765259,
      "loss_ce": 0.00044689897913485765,
      "loss_iou": 0.373046875,
      "loss_num": 0.00958251953125,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 624078420,
      "step": 4941
    },
    {
      "epoch": 1.2677483486179697,
      "grad_norm": 38.69801330566406,
      "learning_rate": 5e-06,
      "loss": 0.7837,
      "num_input_tokens_seen": 624204424,
      "step": 4942
    },
    {
      "epoch": 1.2677483486179697,
      "loss": 0.7445943355560303,
      "loss_ce": 0.0002095317468047142,
      "loss_iou": 0.341796875,
      "loss_num": 0.011962890625,
      "loss_xval": 0.74609375,
      "num_input_tokens_seen": 624204424,
      "step": 4942
    },
    {
      "epoch": 1.268004873981915,
      "grad_norm": 31.011985778808594,
      "learning_rate": 5e-06,
      "loss": 0.8156,
      "num_input_tokens_seen": 624330612,
      "step": 4943
    },
    {
      "epoch": 1.268004873981915,
      "loss": 0.9222507476806641,
      "loss_ce": 0.0013523295056074858,
      "loss_iou": 0.435546875,
      "loss_num": 0.01025390625,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 624330612,
      "step": 4943
    },
    {
      "epoch": 1.2682613993458602,
      "grad_norm": 37.95759963989258,
      "learning_rate": 5e-06,
      "loss": 0.69,
      "num_input_tokens_seen": 624455732,
      "step": 4944
    },
    {
      "epoch": 1.2682613993458602,
      "loss": 0.6654244661331177,
      "loss_ce": 0.0011177989654242992,
      "loss_iou": 0.314453125,
      "loss_num": 0.0068359375,
      "loss_xval": 0.6640625,
      "num_input_tokens_seen": 624455732,
      "step": 4944
    },
    {
      "epoch": 1.2685179247098057,
      "grad_norm": 41.530845642089844,
      "learning_rate": 5e-06,
      "loss": 0.8424,
      "num_input_tokens_seen": 624581880,
      "step": 4945
    },
    {
      "epoch": 1.2685179247098057,
      "loss": 0.7376614809036255,
      "loss_ce": 0.0006009698263369501,
      "loss_iou": 0.34765625,
      "loss_num": 0.0081787109375,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 624581880,
      "step": 4945
    },
    {
      "epoch": 1.268774450073751,
      "grad_norm": 29.9755916595459,
      "learning_rate": 5e-06,
      "loss": 0.8629,
      "num_input_tokens_seen": 624707216,
      "step": 4946
    },
    {
      "epoch": 1.268774450073751,
      "loss": 0.88881516456604,
      "loss_ce": 0.005026082042604685,
      "loss_iou": 0.408203125,
      "loss_num": 0.0133056640625,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 624707216,
      "step": 4946
    },
    {
      "epoch": 1.2690309754376963,
      "grad_norm": 24.138750076293945,
      "learning_rate": 5e-06,
      "loss": 0.7921,
      "num_input_tokens_seen": 624833164,
      "step": 4947
    },
    {
      "epoch": 1.2690309754376963,
      "loss": 0.7643711566925049,
      "loss_ce": 0.0004551385063678026,
      "loss_iou": 0.361328125,
      "loss_num": 0.00787353515625,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 624833164,
      "step": 4947
    },
    {
      "epoch": 1.2692875008016418,
      "grad_norm": 35.21095657348633,
      "learning_rate": 5e-06,
      "loss": 0.8659,
      "num_input_tokens_seen": 624959928,
      "step": 4948
    },
    {
      "epoch": 1.2692875008016418,
      "loss": 0.8944958448410034,
      "loss_ce": 0.00045292655704542994,
      "loss_iou": 0.427734375,
      "loss_num": 0.00750732421875,
      "loss_xval": 0.89453125,
      "num_input_tokens_seen": 624959928,
      "step": 4948
    },
    {
      "epoch": 1.2695440261655873,
      "grad_norm": 26.840309143066406,
      "learning_rate": 5e-06,
      "loss": 0.8041,
      "num_input_tokens_seen": 625086680,
      "step": 4949
    },
    {
      "epoch": 1.2695440261655873,
      "loss": 0.8396748304367065,
      "loss_ce": 0.00031930243130773306,
      "loss_iou": 0.39453125,
      "loss_num": 0.01025390625,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 625086680,
      "step": 4949
    },
    {
      "epoch": 1.2698005515295325,
      "grad_norm": 18.462574005126953,
      "learning_rate": 5e-06,
      "loss": 0.8576,
      "num_input_tokens_seen": 625212184,
      "step": 4950
    },
    {
      "epoch": 1.2698005515295325,
      "loss": 0.9299997687339783,
      "loss_ce": 0.0003121958579868078,
      "loss_iou": 0.423828125,
      "loss_num": 0.0167236328125,
      "loss_xval": 0.9296875,
      "num_input_tokens_seen": 625212184,
      "step": 4950
    },
    {
      "epoch": 1.2700570768934778,
      "grad_norm": 20.300743103027344,
      "learning_rate": 5e-06,
      "loss": 0.9722,
      "num_input_tokens_seen": 625337600,
      "step": 4951
    },
    {
      "epoch": 1.2700570768934778,
      "loss": 0.8279280662536621,
      "loss_ce": 0.0012678703060373664,
      "loss_iou": 0.390625,
      "loss_num": 0.008544921875,
      "loss_xval": 0.828125,
      "num_input_tokens_seen": 625337600,
      "step": 4951
    },
    {
      "epoch": 1.2703136022574233,
      "grad_norm": 25.287561416625977,
      "learning_rate": 5e-06,
      "loss": 0.8281,
      "num_input_tokens_seen": 625463356,
      "step": 4952
    },
    {
      "epoch": 1.2703136022574233,
      "loss": 0.7431397438049316,
      "loss_ce": 0.0007080832729116082,
      "loss_iou": 0.3515625,
      "loss_num": 0.007720947265625,
      "loss_xval": 0.7421875,
      "num_input_tokens_seen": 625463356,
      "step": 4952
    },
    {
      "epoch": 1.2705701276213686,
      "grad_norm": 41.39350891113281,
      "learning_rate": 5e-06,
      "loss": 0.7834,
      "num_input_tokens_seen": 625589856,
      "step": 4953
    },
    {
      "epoch": 1.2705701276213686,
      "loss": 0.7960860133171082,
      "loss_ce": 0.003605557605624199,
      "loss_iou": 0.3671875,
      "loss_num": 0.01177978515625,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 625589856,
      "step": 4953
    },
    {
      "epoch": 1.2708266529853138,
      "grad_norm": 47.46560287475586,
      "learning_rate": 5e-06,
      "loss": 0.7745,
      "num_input_tokens_seen": 625716228,
      "step": 4954
    },
    {
      "epoch": 1.2708266529853138,
      "loss": 0.8450028300285339,
      "loss_ce": 0.00222941511310637,
      "loss_iou": 0.37890625,
      "loss_num": 0.01708984375,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 625716228,
      "step": 4954
    },
    {
      "epoch": 1.2710831783492593,
      "grad_norm": 53.21396255493164,
      "learning_rate": 5e-06,
      "loss": 0.8679,
      "num_input_tokens_seen": 625843256,
      "step": 4955
    },
    {
      "epoch": 1.2710831783492593,
      "loss": 0.8839325308799744,
      "loss_ce": 0.0006317896768450737,
      "loss_iou": 0.412109375,
      "loss_num": 0.01202392578125,
      "loss_xval": 0.8828125,
      "num_input_tokens_seen": 625843256,
      "step": 4955
    },
    {
      "epoch": 1.2713397037132046,
      "grad_norm": 51.1306266784668,
      "learning_rate": 5e-06,
      "loss": 0.8679,
      "num_input_tokens_seen": 625970164,
      "step": 4956
    },
    {
      "epoch": 1.2713397037132046,
      "loss": 0.7650450468063354,
      "loss_ce": 0.0013731769286096096,
      "loss_iou": 0.3671875,
      "loss_num": 0.005645751953125,
      "loss_xval": 0.765625,
      "num_input_tokens_seen": 625970164,
      "step": 4956
    },
    {
      "epoch": 1.27159622907715,
      "grad_norm": 28.96293067932129,
      "learning_rate": 5e-06,
      "loss": 0.8909,
      "num_input_tokens_seen": 626095448,
      "step": 4957
    },
    {
      "epoch": 1.27159622907715,
      "loss": 1.003610610961914,
      "loss_ce": 0.0006808904581703246,
      "loss_iou": 0.4375,
      "loss_num": 0.02587890625,
      "loss_xval": 1.0,
      "num_input_tokens_seen": 626095448,
      "step": 4957
    },
    {
      "epoch": 1.2718527544410954,
      "grad_norm": 26.520689010620117,
      "learning_rate": 5e-06,
      "loss": 0.8496,
      "num_input_tokens_seen": 626220720,
      "step": 4958
    },
    {
      "epoch": 1.2718527544410954,
      "loss": 0.9125292301177979,
      "loss_ce": 0.0004198401584289968,
      "loss_iou": 0.416015625,
      "loss_num": 0.015869140625,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 626220720,
      "step": 4958
    },
    {
      "epoch": 1.2721092798050408,
      "grad_norm": 21.581411361694336,
      "learning_rate": 5e-06,
      "loss": 0.7524,
      "num_input_tokens_seen": 626345904,
      "step": 4959
    },
    {
      "epoch": 1.2721092798050408,
      "loss": 0.7054440379142761,
      "loss_ce": 0.00036592117976397276,
      "loss_iou": 0.333984375,
      "loss_num": 0.007415771484375,
      "loss_xval": 0.703125,
      "num_input_tokens_seen": 626345904,
      "step": 4959
    },
    {
      "epoch": 1.2723658051689861,
      "grad_norm": 19.068069458007812,
      "learning_rate": 5e-06,
      "loss": 0.8101,
      "num_input_tokens_seen": 626471796,
      "step": 4960
    },
    {
      "epoch": 1.2723658051689861,
      "loss": 0.8325120210647583,
      "loss_ce": 0.0009690984152257442,
      "loss_iou": 0.390625,
      "loss_num": 0.00970458984375,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 626471796,
      "step": 4960
    },
    {
      "epoch": 1.2726223305329314,
      "grad_norm": 23.849227905273438,
      "learning_rate": 5e-06,
      "loss": 0.8745,
      "num_input_tokens_seen": 626597964,
      "step": 4961
    },
    {
      "epoch": 1.2726223305329314,
      "loss": 0.8869057297706604,
      "loss_ce": 0.0014076650841161609,
      "loss_iou": 0.38671875,
      "loss_num": 0.0220947265625,
      "loss_xval": 0.88671875,
      "num_input_tokens_seen": 626597964,
      "step": 4961
    },
    {
      "epoch": 1.2728788558968769,
      "grad_norm": 28.85529899597168,
      "learning_rate": 5e-06,
      "loss": 0.8788,
      "num_input_tokens_seen": 626724416,
      "step": 4962
    },
    {
      "epoch": 1.2728788558968769,
      "loss": 0.9061418771743774,
      "loss_ce": 0.0018450523493811488,
      "loss_iou": 0.412109375,
      "loss_num": 0.0159912109375,
      "loss_xval": 0.90625,
      "num_input_tokens_seen": 626724416,
      "step": 4962
    },
    {
      "epoch": 1.2731353812608222,
      "grad_norm": 27.655677795410156,
      "learning_rate": 5e-06,
      "loss": 0.8675,
      "num_input_tokens_seen": 626850016,
      "step": 4963
    },
    {
      "epoch": 1.2731353812608222,
      "loss": 0.7236914038658142,
      "loss_ce": 0.000302726257359609,
      "loss_iou": 0.34765625,
      "loss_num": 0.005950927734375,
      "loss_xval": 0.72265625,
      "num_input_tokens_seen": 626850016,
      "step": 4963
    },
    {
      "epoch": 1.2733919066247674,
      "grad_norm": 49.836021423339844,
      "learning_rate": 5e-06,
      "loss": 0.8935,
      "num_input_tokens_seen": 626976784,
      "step": 4964
    },
    {
      "epoch": 1.2733919066247674,
      "loss": 0.8418887853622437,
      "loss_ce": 0.00106848927680403,
      "loss_iou": 0.390625,
      "loss_num": 0.01226806640625,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 626976784,
      "step": 4964
    },
    {
      "epoch": 1.273648431988713,
      "grad_norm": 37.52360153198242,
      "learning_rate": 5e-06,
      "loss": 0.8776,
      "num_input_tokens_seen": 627102184,
      "step": 4965
    },
    {
      "epoch": 1.273648431988713,
      "loss": 0.9744186401367188,
      "loss_ce": 0.0042037819512188435,
      "loss_iou": 0.4296875,
      "loss_num": 0.02197265625,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 627102184,
      "step": 4965
    },
    {
      "epoch": 1.2739049573526582,
      "grad_norm": 38.31480407714844,
      "learning_rate": 5e-06,
      "loss": 0.867,
      "num_input_tokens_seen": 627227396,
      "step": 4966
    },
    {
      "epoch": 1.2739049573526582,
      "loss": 0.6506098508834839,
      "loss_ce": 0.0009516425197944045,
      "loss_iou": 0.3046875,
      "loss_num": 0.008056640625,
      "loss_xval": 0.6484375,
      "num_input_tokens_seen": 627227396,
      "step": 4966
    },
    {
      "epoch": 1.2741614827166037,
      "grad_norm": 38.97500991821289,
      "learning_rate": 5e-06,
      "loss": 0.848,
      "num_input_tokens_seen": 627354844,
      "step": 4967
    },
    {
      "epoch": 1.2741614827166037,
      "loss": 0.950712263584137,
      "loss_ce": 0.0014934941427782178,
      "loss_iou": 0.4375,
      "loss_num": 0.01446533203125,
      "loss_xval": 0.94921875,
      "num_input_tokens_seen": 627354844,
      "step": 4967
    },
    {
      "epoch": 1.274418008080549,
      "grad_norm": 30.295082092285156,
      "learning_rate": 5e-06,
      "loss": 0.8822,
      "num_input_tokens_seen": 627481164,
      "step": 4968
    },
    {
      "epoch": 1.274418008080549,
      "loss": 0.9232335686683655,
      "loss_ce": 0.00013787506031803787,
      "loss_iou": 0.427734375,
      "loss_num": 0.01312255859375,
      "loss_xval": 0.921875,
      "num_input_tokens_seen": 627481164,
      "step": 4968
    },
    {
      "epoch": 1.2746745334444944,
      "grad_norm": 66.21936798095703,
      "learning_rate": 5e-06,
      "loss": 0.8313,
      "num_input_tokens_seen": 627606716,
      "step": 4969
    },
    {
      "epoch": 1.2746745334444944,
      "loss": 0.675948977470398,
      "loss_ce": 0.00016771905939094722,
      "loss_iou": 0.31640625,
      "loss_num": 0.00885009765625,
      "loss_xval": 0.67578125,
      "num_input_tokens_seen": 627606716,
      "step": 4969
    },
    {
      "epoch": 1.2749310588084397,
      "grad_norm": 23.66092300415039,
      "learning_rate": 5e-06,
      "loss": 0.7069,
      "num_input_tokens_seen": 627732588,
      "step": 4970
    },
    {
      "epoch": 1.2749310588084397,
      "loss": 0.603900671005249,
      "loss_ce": 0.0003850195789709687,
      "loss_iou": 0.2890625,
      "loss_num": 0.004852294921875,
      "loss_xval": 0.6015625,
      "num_input_tokens_seen": 627732588,
      "step": 4970
    },
    {
      "epoch": 1.275187584172385,
      "grad_norm": 29.841333389282227,
      "learning_rate": 5e-06,
      "loss": 0.8422,
      "num_input_tokens_seen": 627858900,
      "step": 4971
    },
    {
      "epoch": 1.275187584172385,
      "loss": 0.9708854556083679,
      "loss_ce": 0.0006706430576741695,
      "loss_iou": 0.453125,
      "loss_num": 0.01251220703125,
      "loss_xval": 0.96875,
      "num_input_tokens_seen": 627858900,
      "step": 4971
    },
    {
      "epoch": 1.2754441095363305,
      "grad_norm": 39.94166946411133,
      "learning_rate": 5e-06,
      "loss": 0.8055,
      "num_input_tokens_seen": 627985172,
      "step": 4972
    },
    {
      "epoch": 1.2754441095363305,
      "loss": 0.7928186058998108,
      "loss_ce": 0.0003381170972716063,
      "loss_iou": 0.373046875,
      "loss_num": 0.00909423828125,
      "loss_xval": 0.79296875,
      "num_input_tokens_seen": 627985172,
      "step": 4972
    },
    {
      "epoch": 1.2757006349002757,
      "grad_norm": 45.53670120239258,
      "learning_rate": 5e-06,
      "loss": 0.8506,
      "num_input_tokens_seen": 628112552,
      "step": 4973
    },
    {
      "epoch": 1.2757006349002757,
      "loss": 0.7908444404602051,
      "loss_ce": 0.0003170930431224406,
      "loss_iou": 0.375,
      "loss_num": 0.0084228515625,
      "loss_xval": 0.7890625,
      "num_input_tokens_seen": 628112552,
      "step": 4973
    },
    {
      "epoch": 1.275957160264221,
      "grad_norm": 46.26814270019531,
      "learning_rate": 5e-06,
      "loss": 0.8911,
      "num_input_tokens_seen": 628238308,
      "step": 4974
    },
    {
      "epoch": 1.275957160264221,
      "loss": 1.0110883712768555,
      "loss_ce": 0.0008343904628418386,
      "loss_iou": 0.44921875,
      "loss_num": 0.0228271484375,
      "loss_xval": 1.0078125,
      "num_input_tokens_seen": 628238308,
      "step": 4974
    },
    {
      "epoch": 1.2762136856281665,
      "grad_norm": 48.96000289916992,
      "learning_rate": 5e-06,
      "loss": 0.8559,
      "num_input_tokens_seen": 628365000,
      "step": 4975
    },
    {
      "epoch": 1.2762136856281665,
      "loss": 0.8261281251907349,
      "loss_ce": 0.0014210953377187252,
      "loss_iou": 0.3828125,
      "loss_num": 0.0113525390625,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 628365000,
      "step": 4975
    },
    {
      "epoch": 1.2764702109921118,
      "grad_norm": 60.89643096923828,
      "learning_rate": 5e-06,
      "loss": 0.8397,
      "num_input_tokens_seen": 628492120,
      "step": 4976
    },
    {
      "epoch": 1.2764702109921118,
      "loss": 0.7982717752456665,
      "loss_ce": 0.0026174297090619802,
      "loss_iou": 0.369140625,
      "loss_num": 0.01177978515625,
      "loss_xval": 0.796875,
      "num_input_tokens_seen": 628492120,
      "step": 4976
    },
    {
      "epoch": 1.2767267363560573,
      "grad_norm": 40.62421798706055,
      "learning_rate": 5e-06,
      "loss": 0.9689,
      "num_input_tokens_seen": 628616892,
      "step": 4977
    },
    {
      "epoch": 1.2767267363560573,
      "loss": 0.73210608959198,
      "loss_ce": 0.00017244095215573907,
      "loss_iou": 0.353515625,
      "loss_num": 0.00531005859375,
      "loss_xval": 0.73046875,
      "num_input_tokens_seen": 628616892,
      "step": 4977
    },
    {
      "epoch": 1.2769832617200025,
      "grad_norm": 21.516124725341797,
      "learning_rate": 5e-06,
      "loss": 0.8095,
      "num_input_tokens_seen": 628743960,
      "step": 4978
    },
    {
      "epoch": 1.2769832617200025,
      "loss": 0.7861276865005493,
      "loss_ce": 0.00048313968000002205,
      "loss_iou": 0.376953125,
      "loss_num": 0.006500244140625,
      "loss_xval": 0.78515625,
      "num_input_tokens_seen": 628743960,
      "step": 4978
    },
    {
      "epoch": 1.277239787083948,
      "grad_norm": 31.422386169433594,
      "learning_rate": 5e-06,
      "loss": 0.7465,
      "num_input_tokens_seen": 628869816,
      "step": 4979
    },
    {
      "epoch": 1.277239787083948,
      "loss": 0.7155649662017822,
      "loss_ce": 0.00023296131985262036,
      "loss_iou": 0.32421875,
      "loss_num": 0.01361083984375,
      "loss_xval": 0.71484375,
      "num_input_tokens_seen": 628869816,
      "step": 4979
    },
    {
      "epoch": 1.2774963124478933,
      "grad_norm": 28.591585159301758,
      "learning_rate": 5e-06,
      "loss": 0.9301,
      "num_input_tokens_seen": 628996352,
      "step": 4980
    },
    {
      "epoch": 1.2774963124478933,
      "loss": 0.6916320323944092,
      "loss_ce": 0.0009581916383467615,
      "loss_iou": 0.326171875,
      "loss_num": 0.00726318359375,
      "loss_xval": 0.69140625,
      "num_input_tokens_seen": 628996352,
      "step": 4980
    },
    {
      "epoch": 1.2777528378118386,
      "grad_norm": 40.063011169433594,
      "learning_rate": 5e-06,
      "loss": 0.7308,
      "num_input_tokens_seen": 629122636,
      "step": 4981
    },
    {
      "epoch": 1.2777528378118386,
      "loss": 0.8101275563240051,
      "loss_ce": 0.00031312997452914715,
      "loss_iou": 0.369140625,
      "loss_num": 0.01446533203125,
      "loss_xval": 0.80859375,
      "num_input_tokens_seen": 629122636,
      "step": 4981
    },
    {
      "epoch": 1.278009363175784,
      "grad_norm": 51.96260452270508,
      "learning_rate": 5e-06,
      "loss": 0.9056,
      "num_input_tokens_seen": 629249220,
      "step": 4982
    },
    {
      "epoch": 1.278009363175784,
      "loss": 0.9144231677055359,
      "loss_ce": 0.0008489244501106441,
      "loss_iou": 0.4296875,
      "loss_num": 0.01129150390625,
      "loss_xval": 0.9140625,
      "num_input_tokens_seen": 629249220,
      "step": 4982
    },
    {
      "epoch": 1.2782658885397293,
      "grad_norm": 44.006248474121094,
      "learning_rate": 5e-06,
      "loss": 0.8209,
      "num_input_tokens_seen": 629376164,
      "step": 4983
    },
    {
      "epoch": 1.2782658885397293,
      "loss": 0.8048712015151978,
      "loss_ce": 0.0001836443698266521,
      "loss_iou": 0.369140625,
      "loss_num": 0.01336669921875,
      "loss_xval": 0.8046875,
      "num_input_tokens_seen": 629376164,
      "step": 4983
    },
    {
      "epoch": 1.2785224139036746,
      "grad_norm": 40.50237274169922,
      "learning_rate": 5e-06,
      "loss": 0.8351,
      "num_input_tokens_seen": 629502640,
      "step": 4984
    },
    {
      "epoch": 1.2785224139036746,
      "loss": 0.850642204284668,
      "loss_ce": 0.003962525632232428,
      "loss_iou": 0.388671875,
      "loss_num": 0.01373291015625,
      "loss_xval": 0.84765625,
      "num_input_tokens_seen": 629502640,
      "step": 4984
    },
    {
      "epoch": 1.27877893926762,
      "grad_norm": 44.773624420166016,
      "learning_rate": 5e-06,
      "loss": 0.7993,
      "num_input_tokens_seen": 629629360,
      "step": 4985
    },
    {
      "epoch": 1.27877893926762,
      "loss": 0.569650411605835,
      "loss_ce": 7.034641748759896e-05,
      "loss_iou": 0.27734375,
      "loss_num": 0.003265380859375,
      "loss_xval": 0.5703125,
      "num_input_tokens_seen": 629629360,
      "step": 4985
    },
    {
      "epoch": 1.2790354646315654,
      "grad_norm": 47.31255340576172,
      "learning_rate": 5e-06,
      "loss": 0.8287,
      "num_input_tokens_seen": 629755768,
      "step": 4986
    },
    {
      "epoch": 1.2790354646315654,
      "loss": 0.8933614492416382,
      "loss_ce": 0.0007833242998458445,
      "loss_iou": 0.41796875,
      "loss_num": 0.0118408203125,
      "loss_xval": 0.890625,
      "num_input_tokens_seen": 629755768,
      "step": 4986
    },
    {
      "epoch": 1.2792919899955109,
      "grad_norm": 43.70411682128906,
      "learning_rate": 5e-06,
      "loss": 0.8222,
      "num_input_tokens_seen": 629882588,
      "step": 4987
    },
    {
      "epoch": 1.2792919899955109,
      "loss": 0.7809789180755615,
      "loss_ce": 0.00021719773940276355,
      "loss_iou": 0.375,
      "loss_num": 0.006317138671875,
      "loss_xval": 0.78125,
      "num_input_tokens_seen": 629882588,
      "step": 4987
    },
    {
      "epoch": 1.2795485153594561,
      "grad_norm": 40.42557144165039,
      "learning_rate": 5e-06,
      "loss": 0.9961,
      "num_input_tokens_seen": 630009268,
      "step": 4988
    },
    {
      "epoch": 1.2795485153594561,
      "loss": 0.9921629428863525,
      "loss_ce": 0.0033934309612959623,
      "loss_iou": 0.439453125,
      "loss_num": 0.021728515625,
      "loss_xval": 0.98828125,
      "num_input_tokens_seen": 630009268,
      "step": 4988
    },
    {
      "epoch": 1.2798050407234016,
      "grad_norm": 45.084205627441406,
      "learning_rate": 5e-06,
      "loss": 0.8093,
      "num_input_tokens_seen": 630135500,
      "step": 4989
    },
    {
      "epoch": 1.2798050407234016,
      "loss": 0.8810088634490967,
      "loss_ce": 0.0016143523389473557,
      "loss_iou": 0.40234375,
      "loss_num": 0.01513671875,
      "loss_xval": 0.87890625,
      "num_input_tokens_seen": 630135500,
      "step": 4989
    },
    {
      "epoch": 1.280061566087347,
      "grad_norm": 44.27177810668945,
      "learning_rate": 5e-06,
      "loss": 0.9053,
      "num_input_tokens_seen": 630262248,
      "step": 4990
    },
    {
      "epoch": 1.280061566087347,
      "loss": 1.0000500679016113,
      "loss_ce": 0.0024915302637964487,
      "loss_iou": 0.44921875,
      "loss_num": 0.020263671875,
      "loss_xval": 0.99609375,
      "num_input_tokens_seen": 630262248,
      "step": 4990
    },
    {
      "epoch": 1.2803180914512922,
      "grad_norm": 38.787811279296875,
      "learning_rate": 5e-06,
      "loss": 0.8118,
      "num_input_tokens_seen": 630388296,
      "step": 4991
    },
    {
      "epoch": 1.2803180914512922,
      "loss": 0.8325455784797668,
      "loss_ce": 0.0007585249841213226,
      "loss_iou": 0.39453125,
      "loss_num": 0.00836181640625,
      "loss_xval": 0.83203125,
      "num_input_tokens_seen": 630388296,
      "step": 4991
    },
    {
      "epoch": 1.2805746168152377,
      "grad_norm": 46.91154479980469,
      "learning_rate": 5e-06,
      "loss": 0.8216,
      "num_input_tokens_seen": 630515460,
      "step": 4992
    },
    {
      "epoch": 1.2805746168152377,
      "loss": 0.9004737734794617,
      "loss_ce": 0.0025245645083487034,
      "loss_iou": 0.416015625,
      "loss_num": 0.0128173828125,
      "loss_xval": 0.8984375,
      "num_input_tokens_seen": 630515460,
      "step": 4992
    },
    {
      "epoch": 1.280831142179183,
      "grad_norm": 51.57321548461914,
      "learning_rate": 5e-06,
      "loss": 0.8726,
      "num_input_tokens_seen": 630641836,
      "step": 4993
    },
    {
      "epoch": 1.280831142179183,
      "loss": 0.7379635572433472,
      "loss_ce": 0.0009030087385326624,
      "loss_iou": 0.3515625,
      "loss_num": 0.006744384765625,
      "loss_xval": 0.73828125,
      "num_input_tokens_seen": 630641836,
      "step": 4993
    },
    {
      "epoch": 1.2810876675431282,
      "grad_norm": 44.38196563720703,
      "learning_rate": 5e-06,
      "loss": 0.8297,
      "num_input_tokens_seen": 630768076,
      "step": 4994
    },
    {
      "epoch": 1.2810876675431282,
      "loss": 0.8667726516723633,
      "loss_ce": 0.0003176179598085582,
      "loss_iou": 0.392578125,
      "loss_num": 0.01611328125,
      "loss_xval": 0.8671875,
      "num_input_tokens_seen": 630768076,
      "step": 4994
    },
    {
      "epoch": 1.2813441929070737,
      "grad_norm": 46.12018966674805,
      "learning_rate": 5e-06,
      "loss": 0.8918,
      "num_input_tokens_seen": 630894348,
      "step": 4995
    },
    {
      "epoch": 1.2813441929070737,
      "loss": 1.073002815246582,
      "loss_ce": 0.0002488900790922344,
      "loss_iou": 0.478515625,
      "loss_num": 0.0233154296875,
      "loss_xval": 1.0703125,
      "num_input_tokens_seen": 630894348,
      "step": 4995
    },
    {
      "epoch": 1.2816007182710192,
      "grad_norm": 42.912872314453125,
      "learning_rate": 5e-06,
      "loss": 0.926,
      "num_input_tokens_seen": 631021768,
      "step": 4996
    },
    {
      "epoch": 1.2816007182710192,
      "loss": 0.9710201621055603,
      "loss_ce": 0.006786763668060303,
      "loss_iou": 0.42578125,
      "loss_num": 0.0228271484375,
      "loss_xval": 0.96484375,
      "num_input_tokens_seen": 631021768,
      "step": 4996
    },
    {
      "epoch": 1.2818572436349644,
      "grad_norm": 35.87915802001953,
      "learning_rate": 5e-06,
      "loss": 0.8558,
      "num_input_tokens_seen": 631149996,
      "step": 4997
    },
    {
      "epoch": 1.2818572436349644,
      "loss": 0.8437521457672119,
      "loss_ce": 0.00244354922324419,
      "loss_iou": 0.390625,
      "loss_num": 0.01171875,
      "loss_xval": 0.83984375,
      "num_input_tokens_seen": 631149996,
      "step": 4997
    },
    {
      "epoch": 1.2821137689989097,
      "grad_norm": 38.33866882324219,
      "learning_rate": 5e-06,
      "loss": 0.8816,
      "num_input_tokens_seen": 631276648,
      "step": 4998
    },
    {
      "epoch": 1.2821137689989097,
      "loss": 0.8231503367424011,
      "loss_ce": 0.00039640642353333533,
      "loss_iou": 0.37890625,
      "loss_num": 0.01312255859375,
      "loss_xval": 0.82421875,
      "num_input_tokens_seen": 631276648,
      "step": 4998
    },
    {
      "epoch": 1.2823702943628552,
      "grad_norm": 55.47458267211914,
      "learning_rate": 5e-06,
      "loss": 0.718,
      "num_input_tokens_seen": 631403072,
      "step": 4999
    },
    {
      "epoch": 1.2823702943628552,
      "loss": 0.8435832262039185,
      "loss_ce": 0.00032148510217666626,
      "loss_iou": 0.390625,
      "loss_num": 0.01220703125,
      "loss_xval": 0.84375,
      "num_input_tokens_seen": 631403072,
      "step": 4999
    },
    {
      "epoch": 1.2826268197268005,
      "grad_norm": 51.20155334472656,
      "learning_rate": 5e-06,
      "loss": 0.75,
      "num_input_tokens_seen": 631529428,
      "step": 5000
    },
    {
      "epoch": 1.2826268197268005,
      "eval_icons_CIoU": 0.3532525897026062,
      "eval_icons_GIoU": 0.3214935064315796,
      "eval_icons_IoU": 0.5021793246269226,
      "eval_icons_MAE_all": 0.020972085185348988,
      "eval_icons_MAE_h": 0.018313856329768896,
      "eval_icons_MAE_w": 0.04985995963215828,
      "eval_icons_MAE_x_boxes": 0.0496402382850647,
      "eval_icons_MAE_y_boxes": 0.01833692565560341,
      "eval_icons_NUM_probability": 0.9998745024204254,
      "eval_icons_inside_bbox": 0.7395833432674408,
      "eval_icons_loss": 1.447240948677063,
      "eval_icons_loss_ce": 4.5746584873995744e-05,
      "eval_icons_loss_iou": 0.6649169921875,
      "eval_icons_loss_num": 0.023511886596679688,
      "eval_icons_loss_xval": 1.447021484375,
      "eval_icons_runtime": 44.7863,
      "eval_icons_samples_per_second": 1.116,
      "eval_icons_steps_per_second": 0.045,
      "num_input_tokens_seen": 631529428,
      "step": 5000
    },
    {
      "epoch": 1.2826268197268005,
      "eval_screenspot_CIoU": 0.12930236756801605,
      "eval_screenspot_GIoU": 0.10628310590982437,
      "eval_screenspot_IoU": 0.29051242272059125,
      "eval_screenspot_MAE_all": 0.07955996443827947,
      "eval_screenspot_MAE_h": 0.07046306878328323,
      "eval_screenspot_MAE_w": 0.1288147196173668,
      "eval_screenspot_MAE_x_boxes": 0.10878805816173553,
      "eval_screenspot_MAE_y_boxes": 0.05706369007627169,
      "eval_screenspot_NUM_probability": 0.9999549587567648,
      "eval_screenspot_inside_bbox": 0.5883333285649618,
      "eval_screenspot_loss": 2.2319114208221436,
      "eval_screenspot_loss_ce": 0.003960580254594485,
      "eval_screenspot_loss_iou": 0.9200032552083334,
      "eval_screenspot_loss_num": 0.08453114827473958,
      "eval_screenspot_loss_xval": 2.2625325520833335,
      "eval_screenspot_runtime": 68.8048,
      "eval_screenspot_samples_per_second": 1.294,
      "eval_screenspot_steps_per_second": 0.044,
      "num_input_tokens_seen": 631529428,
      "step": 5000
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 7796,
  "num_input_tokens_seen": 631529428,
  "num_train_epochs": 2,
  "save_steps": 250,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.9379944633358877e+19,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}