diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,24481 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.5995203836930456,
+  "eval_steps": 250,
+  "global_step": 1500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0003996802557953637,
+      "grad_norm": 27253.678894810444,
+      "learning_rate": 0.0,
+      "loss": 88.7727,
+      "num_input_tokens_seen": 173048,
+      "step": 1
+    },
+    {
+      "epoch": 0.0003996802557953637,
+      "eval_websight_new_IoU": 0.007802221458405256,
+      "eval_websight_new_MAE_all": 0.22719886153936386,
+      "eval_websight_new_MAE_h": 0.1250949464738369,
+      "eval_websight_new_MAE_w": 0.26685621589422226,
+      "eval_websight_new_MAE_x": 0.23003952950239182,
+      "eval_websight_new_MAE_y": 0.28680478781461716,
+      "eval_websight_new_NUM_probability": 2.108378305276659e-09,
+      "eval_websight_new_inside_bbox": 0.0,
+      "eval_websight_new_loss": 42.4260139465332,
+      "eval_websight_new_loss_ce": 5.392822742462158,
+      "eval_websight_new_loss_xval": 39.01171875,
+      "eval_websight_new_runtime": 64.218,
+      "eval_websight_new_samples_per_second": 0.779,
+      "eval_websight_new_steps_per_second": 0.031,
+      "num_input_tokens_seen": 173048,
+      "step": 1
+    },
+    {
+      "epoch": 0.0003996802557953637,
+      "eval_seeclick_IoU": 0.013260291889309883,
+      "eval_seeclick_MAE_all": 0.3815549612045288,
+      "eval_seeclick_MAE_h": 0.40597620606422424,
+      "eval_seeclick_MAE_w": 0.4406091570854187,
+      "eval_seeclick_MAE_x": 0.3167571872472763,
+      "eval_seeclick_MAE_y": 0.3628772497177124,
+      "eval_seeclick_NUM_probability": 2.7780518996323167e-09,
+      "eval_seeclick_inside_bbox": 0.015625,
+      "eval_seeclick_loss": 46.768917083740234,
+      "eval_seeclick_loss_ce": 6.483319997787476,
+      "eval_seeclick_loss_xval": 39.03125,
+      "eval_seeclick_runtime": 84.0912,
+      "eval_seeclick_samples_per_second": 0.595,
+      "eval_seeclick_steps_per_second": 0.024,
+      "num_input_tokens_seen": 173048,
+      "step": 1
+    },
+    {
+      "epoch": 0.0003996802557953637,
+      "eval_icons_IoU": 9.602530917618424e-05,
+      "eval_icons_MAE_all": 0.24617066234350204,
+      "eval_icons_MAE_h": 0.16503974795341492,
+      "eval_icons_MAE_w": 0.14773830771446228,
+      "eval_icons_MAE_x": 0.3416582942008972,
+      "eval_icons_MAE_y": 0.3302464038133621,
+      "eval_icons_NUM_probability": 4.84057904870383e-10,
+      "eval_icons_inside_bbox": 0.0,
+      "eval_icons_loss": 22.6812686920166,
+      "eval_icons_loss_ce": 5.316617250442505,
+      "eval_icons_loss_xval": 18.2421875,
+      "eval_icons_runtime": 82.5017,
+      "eval_icons_samples_per_second": 0.606,
+      "eval_icons_steps_per_second": 0.024,
+      "num_input_tokens_seen": 173048,
+      "step": 1
+    },
+    {
+      "epoch": 0.0003996802557953637,
+      "loss": 22.062753677368164,
+      "loss_ce": 5.414316177368164,
+      "loss_xval": 16.625,
+      "num_input_tokens_seen": 173048,
+      "step": 1
+    },
+    {
+      "epoch": 0.0007993605115907274,
+      "grad_norm": 41154.27591780116,
+      "learning_rate": 6.276845846337281e-07,
+      "loss": 59.1779,
+      "num_input_tokens_seen": 346016,
+      "step": 2
+    },
+    {
+      "epoch": 0.0007993605115907274,
+      "loss": 79.56485748291016,
+      "loss_ce": 5.002355575561523,
+      "loss_xval": 74.5,
+      "num_input_tokens_seen": 346016,
+      "step": 2
+    },
+    {
+      "epoch": 0.001199040767386091,
+      "grad_norm": 32361.98582055134,
+      "learning_rate": 9.94856528925194e-07,
+      "loss": 59.2298,
+      "num_input_tokens_seen": 519088,
+      "step": 3
+    },
+    {
+      "epoch": 0.001199040767386091,
+      "loss": 53.204307556152344,
+      "loss_ce": 5.1574320793151855,
+      "loss_xval": 48.0,
+      "num_input_tokens_seen": 519088,
+      "step": 3
+    },
+    {
+      "epoch": 0.0015987210231814548,
+      "grad_norm": 18680.271876014704,
+      "learning_rate": 1.2553691692674561e-06,
+      "loss": 41.3081,
+      "num_input_tokens_seen": 691920,
+      "step": 4
+    },
+    {
+      "epoch": 0.0015987210231814548,
+      "loss": 39.82504653930664,
+      "loss_ce": 4.950046539306641,
+      "loss_xval": 35.0,
+      "num_input_tokens_seen": 691920,
+      "step": 4
+    },
+    {
+      "epoch": 0.0019984012789768186,
+      "grad_norm": 5449.561908994174,
+      "learning_rate": 1.4574384717887574e-06,
+      "loss": 27.6026,
+      "num_input_tokens_seen": 864928,
+      "step": 5
+    },
+    {
+      "epoch": 0.0019984012789768186,
+      "loss": 28.755176544189453,
+      "loss_ce": 4.9895524978637695,
+      "loss_xval": 23.75,
+      "num_input_tokens_seen": 864928,
+      "step": 5
+    },
+    {
+      "epoch": 0.002398081534772182,
+      "grad_norm": 3825.7071201245612,
+      "learning_rate": 1.622541113558922e-06,
+      "loss": 22.1129,
+      "num_input_tokens_seen": 1037544,
+      "step": 6
+    },
+    {
+      "epoch": 0.002398081534772182,
+      "loss": 20.575275421142578,
+      "loss_ce": 5.247150421142578,
+      "loss_xval": 15.3125,
+      "num_input_tokens_seen": 1037544,
+      "step": 6
+    },
+    {
+      "epoch": 0.002797761790567546,
+      "grad_norm": 3619.914754340841,
+      "learning_rate": 1.762133408171179e-06,
+      "loss": 21.0579,
+      "num_input_tokens_seen": 1209928,
+      "step": 7
+    },
+    {
+      "epoch": 0.002797761790567546,
+      "loss": 20.604846954345703,
+      "loss_ce": 5.347036361694336,
+      "loss_xval": 15.25,
+      "num_input_tokens_seen": 1209928,
+      "step": 7
+    },
+    {
+      "epoch": 0.0031974420463629096,
+      "grad_norm": 2391.231418170818,
+      "learning_rate": 1.8830537539011838e-06,
+      "loss": 19.8215,
+      "num_input_tokens_seen": 1382680,
+      "step": 8
+    },
+    {
+      "epoch": 0.0031974420463629096,
+      "loss": 20.428314208984375,
+      "loss_ce": 5.27987813949585,
+      "loss_xval": 15.125,
+      "num_input_tokens_seen": 1382680,
+      "step": 8
+    },
+    {
+      "epoch": 0.0035971223021582736,
+      "grad_norm": 2056.06429238663,
+      "learning_rate": 1.989713057850388e-06,
+      "loss": 17.948,
+      "num_input_tokens_seen": 1555768,
+      "step": 9
+    },
+    {
+      "epoch": 0.0035971223021582736,
+      "loss": 18.224111557006836,
+      "loss_ce": 5.302236557006836,
+      "loss_xval": 12.9375,
+      "num_input_tokens_seen": 1555768,
+      "step": 9
+    },
+    {
+      "epoch": 0.003996802557953637,
+      "grad_norm": 689.953934673361,
+      "learning_rate": 2.085123056422486e-06,
+      "loss": 15.8543,
+      "num_input_tokens_seen": 1729384,
+      "step": 10
+    },
+    {
+      "epoch": 0.003996802557953637,
+      "loss": 15.537797927856445,
+      "loss_ce": 5.276078701019287,
+      "loss_xval": 10.25,
+      "num_input_tokens_seen": 1729384,
+      "step": 10
+    },
+    {
+      "epoch": 0.004396482813749001,
+      "grad_norm": 785.0266162674142,
+      "learning_rate": 2.1714318986131375e-06,
+      "loss": 15.001,
+      "num_input_tokens_seen": 1902192,
+      "step": 11
+    },
+    {
+      "epoch": 0.004396482813749001,
+      "loss": 14.884502410888672,
+      "loss_ce": 5.197001934051514,
+      "loss_xval": 9.6875,
+      "num_input_tokens_seen": 1902192,
+      "step": 11
+    },
+    {
+      "epoch": 0.004796163069544364,
+      "grad_norm": 2016.36977346388,
+      "learning_rate": 2.25022569819265e-06,
+      "loss": 16.9301,
+      "num_input_tokens_seen": 2075288,
+      "step": 12
+    },
+    {
+      "epoch": 0.004796163069544364,
+      "loss": 16.57305145263672,
+      "loss_ce": 5.272271156311035,
+      "loss_xval": 11.3125,
+      "num_input_tokens_seen": 2075288,
+      "step": 12
+    },
+    {
+      "epoch": 0.005195843325339729,
+      "grad_norm": 3023.4049224405285,
+      "learning_rate": 2.3227089674435414e-06,
+      "loss": 18.3376,
+      "num_input_tokens_seen": 2247968,
+      "step": 13
+    },
+    {
+      "epoch": 0.005195843325339729,
+      "loss": 18.748249053955078,
+      "loss_ce": 5.170123100280762,
+      "loss_xval": 13.5625,
+      "num_input_tokens_seen": 2247968,
+      "step": 13
+    },
+    {
+      "epoch": 0.005595523581135092,
+      "grad_norm": 3434.7471291290594,
+      "learning_rate": 2.389817992804907e-06,
+      "loss": 19.9897,
+      "num_input_tokens_seen": 2420728,
+      "step": 14
+    },
+    {
+      "epoch": 0.005595523581135092,
+      "loss": 20.42713165283203,
+      "loss_ce": 5.231818675994873,
+      "loss_xval": 15.1875,
+      "num_input_tokens_seen": 2420728,
+      "step": 14
+    },
+    {
+      "epoch": 0.005995203836930456,
+      "grad_norm": 2501.863798675274,
+      "learning_rate": 2.4522950007139517e-06,
+      "loss": 16.8772,
+      "num_input_tokens_seen": 2593888,
+      "step": 15
+    },
+    {
+      "epoch": 0.005995203836930456,
+      "loss": 16.648954391479492,
+      "loss_ce": 5.109891891479492,
+      "loss_xval": 11.5625,
+      "num_input_tokens_seen": 2593888,
+      "step": 15
+    },
+    {
+      "epoch": 0.006394884092725819,
+      "grad_norm": 1750.9020613468717,
+      "learning_rate": 2.5107383385349122e-06,
+      "loss": 14.1557,
+      "num_input_tokens_seen": 2766600,
+      "step": 16
+    },
+    {
+      "epoch": 0.006394884092725819,
+      "loss": 13.727005958557129,
+      "loss_ce": 5.047318458557129,
+      "loss_xval": 8.6875,
+      "num_input_tokens_seen": 2766600,
+      "step": 16
+    },
+    {
+      "epoch": 0.006794564348521183,
+      "grad_norm": 227.32613482390494,
+      "learning_rate": 2.5656374157160176e-06,
+      "loss": 12.464,
+      "num_input_tokens_seen": 2939256,
+      "step": 17
+    },
+    {
+      "epoch": 0.006794564348521183,
+      "loss": 12.111137390136719,
+      "loss_ce": 5.044731140136719,
+      "loss_xval": 7.0625,
+      "num_input_tokens_seen": 2939256,
+      "step": 17
+    },
+    {
+      "epoch": 0.007194244604316547,
+      "grad_norm": 1252.224814993924,
+      "learning_rate": 2.6173976424841156e-06,
+      "loss": 13.1703,
+      "num_input_tokens_seen": 3112192,
+      "step": 18
+    },
+    {
+      "epoch": 0.007194244604316547,
+      "loss": 12.594108581542969,
+      "loss_ce": 4.973014831542969,
+      "loss_xval": 7.625,
+      "num_input_tokens_seen": 3112192,
+      "step": 18
+    },
+    {
+      "epoch": 0.007593924860111911,
+      "grad_norm": 2028.8518634432514,
+      "learning_rate": 2.6663586168300222e-06,
+      "loss": 14.8689,
+      "num_input_tokens_seen": 3282040,
+      "step": 19
+    },
+    {
+      "epoch": 0.007593924860111911,
+      "loss": 14.035215377807617,
+      "loss_ce": 4.902403354644775,
+      "loss_xval": 9.125,
+      "num_input_tokens_seen": 3282040,
+      "step": 19
+    },
+    {
+      "epoch": 0.007993605115907274,
+      "grad_norm": 2398.1141656415566,
+      "learning_rate": 2.712807641056214e-06,
+      "loss": 15.648,
+      "num_input_tokens_seen": 3455080,
+      "step": 20
+    },
+    {
+      "epoch": 0.007993605115907274,
+      "loss": 15.920930862426758,
+      "loss_ce": 4.975618839263916,
+      "loss_xval": 10.9375,
+      "num_input_tokens_seen": 3455080,
+      "step": 20
+    },
+    {
+      "epoch": 0.008393285371702638,
+      "grad_norm": 2410.923655837602,
+      "learning_rate": 2.756989937096373e-06,
+      "loss": 15.3804,
+      "num_input_tokens_seen": 3628016,
+      "step": 21
+    },
+    {
+      "epoch": 0.008393285371702638,
+      "loss": 15.361221313476562,
+      "loss_ce": 4.939347267150879,
+      "loss_xval": 10.4375,
+      "num_input_tokens_seen": 3628016,
+      "step": 21
+    },
+    {
+      "epoch": 0.008792965627498001,
+      "grad_norm": 1750.9570099084196,
+      "learning_rate": 2.799116483246866e-06,
+      "loss": 13.9054,
+      "num_input_tokens_seen": 3797864,
+      "step": 22
+    },
+    {
+      "epoch": 0.008792965627498001,
+      "loss": 13.663543701171875,
+      "loss_ce": 4.839325904846191,
+      "loss_xval": 8.8125,
+      "num_input_tokens_seen": 3797864,
+      "step": 22
+    },
+    {
+      "epoch": 0.009192645883293365,
+      "grad_norm": 1467.4142596254105,
+      "learning_rate": 2.8393701074525802e-06,
+      "loss": 12.8355,
+      "num_input_tokens_seen": 3970640,
+      "step": 23
+    },
+    {
+      "epoch": 0.009192645883293365,
+      "loss": 12.972114562988281,
+      "loss_ce": 4.925239562988281,
+      "loss_xval": 8.0625,
+      "num_input_tokens_seen": 3970640,
+      "step": 23
+    },
+    {
+      "epoch": 0.009592326139088728,
+      "grad_norm": 573.4862114776328,
+      "learning_rate": 2.8779102828263783e-06,
+      "loss": 12.2069,
+      "num_input_tokens_seen": 4143328,
+      "step": 24
+    },
+    {
+      "epoch": 0.009592326139088728,
+      "loss": 12.610280990600586,
+      "loss_ce": 4.926686763763428,
+      "loss_xval": 7.6875,
+      "num_input_tokens_seen": 4143328,
+      "step": 24
+    },
+    {
+      "epoch": 0.009992006394884092,
+      "grad_norm": 279.5844578074333,
+      "learning_rate": 2.914876943577515e-06,
+      "loss": 11.6072,
+      "num_input_tokens_seen": 4315720,
+      "step": 25
+    },
+    {
+      "epoch": 0.009992006394884092,
+      "loss": 12.251864433288574,
+      "loss_ce": 4.790926933288574,
+      "loss_xval": 7.46875,
+      "num_input_tokens_seen": 4315720,
+      "step": 25
+    },
+    {
+      "epoch": 0.010391686650679457,
+      "grad_norm": 745.4356271224037,
+      "learning_rate": 2.9503935520772694e-06,
+      "loss": 11.3671,
+      "num_input_tokens_seen": 4489000,
+      "step": 26
+    },
+    {
+      "epoch": 0.010391686650679457,
+      "loss": 11.730391502380371,
+      "loss_ce": 4.703047275543213,
+      "loss_xval": 7.03125,
+      "num_input_tokens_seen": 4489000,
+      "step": 26
+    },
+    {
+      "epoch": 0.01079136690647482,
+      "grad_norm": 1260.0413305023137,
+      "learning_rate": 2.9845695867755812e-06,
+      "loss": 12.7243,
+      "num_input_tokens_seen": 4661752,
+      "step": 27
+    },
+    {
+      "epoch": 0.01079136690647482,
+      "loss": 12.388510704040527,
+      "loss_ce": 4.7322611808776855,
+      "loss_xval": 7.65625,
+      "num_input_tokens_seen": 4661752,
+      "step": 27
+    },
+    {
+      "epoch": 0.011191047162270184,
+      "grad_norm": 1537.0491298782129,
+      "learning_rate": 3.017502577438635e-06,
+      "loss": 12.7051,
+      "num_input_tokens_seen": 4834536,
+      "step": 28
+    },
+    {
+      "epoch": 0.011191047162270184,
+      "loss": 13.197071075439453,
+      "loss_ce": 4.650196075439453,
+      "loss_xval": 8.5625,
+      "num_input_tokens_seen": 4834536,
+      "step": 28
+    },
+    {
+      "epoch": 0.011590727418065548,
+      "grad_norm": 1481.2643398938644,
+      "learning_rate": 3.0492797830851952e-06,
+      "loss": 12.6727,
+      "num_input_tokens_seen": 5007272,
+      "step": 29
+    },
+    {
+      "epoch": 0.011590727418065548,
+      "loss": 11.455208778381348,
+      "loss_ce": 4.564583778381348,
+      "loss_xval": 6.875,
+      "num_input_tokens_seen": 5007272,
+      "step": 29
+    },
+    {
+      "epoch": 0.011990407673860911,
+      "grad_norm": 1043.4564438418174,
+      "learning_rate": 3.079979585347679e-06,
+      "loss": 11.1842,
+      "num_input_tokens_seen": 5178384,
+      "step": 30
+    },
+    {
+      "epoch": 0.011990407673860911,
+      "loss": 11.960172653198242,
+      "loss_ce": 4.397672653198242,
+      "loss_xval": 7.5625,
+      "num_input_tokens_seen": 5178384,
+      "step": 30
+    },
+    {
+      "epoch": 0.012390087929656275,
+      "grad_norm": 792.8424890447506,
+      "learning_rate": 3.1096726532791336e-06,
+      "loss": 10.8114,
+      "num_input_tokens_seen": 5350952,
+      "step": 31
+    },
+    {
+      "epoch": 0.012390087929656275,
+      "loss": 10.764305114746094,
+      "loss_ce": 4.383445739746094,
+      "loss_xval": 6.375,
+      "num_input_tokens_seen": 5350952,
+      "step": 31
+    },
+    {
+      "epoch": 0.012789768185451638,
+      "grad_norm": 145.9379236072859,
+      "learning_rate": 3.13842292316864e-06,
+      "loss": 10.5285,
+      "num_input_tokens_seen": 5524152,
+      "step": 32
+    },
+    {
+      "epoch": 0.012789768185451638,
+      "loss": 11.266403198242188,
+      "loss_ce": 4.449997901916504,
+      "loss_xval": 6.8125,
+      "num_input_tokens_seen": 5524152,
+      "step": 32
+    },
+    {
+      "epoch": 0.013189448441247002,
+      "grad_norm": 261.9315218162029,
+      "learning_rate": 3.1662884275383315e-06,
+      "loss": 9.8499,
+      "num_input_tokens_seen": 5697032,
+      "step": 33
+    },
+    {
+      "epoch": 0.013189448441247002,
+      "loss": 9.855939865112305,
+      "loss_ce": 4.297346591949463,
+      "loss_xval": 5.5625,
+      "num_input_tokens_seen": 5697032,
+      "step": 33
+    },
+    {
+      "epoch": 0.013589128697042365,
+      "grad_norm": 403.77946842148157,
+      "learning_rate": 3.1933220003497456e-06,
+      "loss": 9.9114,
+      "num_input_tokens_seen": 5869808,
+      "step": 34
+    },
+    {
+      "epoch": 0.013589128697042365,
+      "loss": 10.173905372619629,
+      "loss_ce": 4.193436622619629,
+      "loss_xval": 5.96875,
+      "num_input_tokens_seen": 5869808,
+      "step": 34
+    },
+    {
+      "epoch": 0.013988808952837729,
+      "grad_norm": 1035.8631252474581,
+      "learning_rate": 3.2195718799599367e-06,
+      "loss": 10.7195,
+      "num_input_tokens_seen": 6043328,
+      "step": 35
+    },
+    {
+      "epoch": 0.013988808952837729,
+      "loss": 10.887596130371094,
+      "loss_ce": 4.102439880371094,
+      "loss_xval": 6.78125,
+      "num_input_tokens_seen": 6043328,
+      "step": 35
+    },
+    {
+      "epoch": 0.014388489208633094,
+      "grad_norm": 1149.9950193906377,
+      "learning_rate": 3.245082227117844e-06,
+      "loss": 10.5161,
+      "num_input_tokens_seen": 6216344,
+      "step": 36
+    },
+    {
+      "epoch": 0.014388489208633094,
+      "loss": 10.513891220092773,
+      "loss_ce": 3.982640504837036,
+      "loss_xval": 6.53125,
+      "num_input_tokens_seen": 6216344,
+      "step": 36
+    },
+    {
+      "epoch": 0.014788169464428458,
+      "grad_norm": 889.0168898022567,
+      "learning_rate": 3.2698935719735842e-06,
+      "loss": 10.6335,
+      "num_input_tokens_seen": 6389384,
+      "step": 37
+    },
+    {
+      "epoch": 0.014788169464428458,
+      "loss": 10.846721649169922,
+      "loss_ce": 3.956096649169922,
+      "loss_xval": 6.875,
+      "num_input_tokens_seen": 6389384,
+      "step": 37
+    },
+    {
+      "epoch": 0.015187849720223821,
+      "grad_norm": 962.657302962428,
+      "learning_rate": 3.29404320146375e-06,
+      "loss": 9.9492,
+      "num_input_tokens_seen": 6562488,
+      "step": 38
+    },
+    {
+      "epoch": 0.015187849720223821,
+      "loss": 10.308053970336914,
+      "loss_ce": 4.020944595336914,
+      "loss_xval": 6.28125,
+      "num_input_tokens_seen": 6562488,
+      "step": 38
+    },
+    {
+      "epoch": 0.015587529976019185,
+      "grad_norm": 194.46637819778587,
+      "learning_rate": 3.3175654963687346e-06,
+      "loss": 9.1389,
+      "num_input_tokens_seen": 6735512,
+      "step": 39
+    },
+    {
+      "epoch": 0.015587529976019185,
+      "loss": 9.079648971557617,
+      "loss_ce": 3.8530867099761963,
+      "loss_xval": 5.21875,
+      "num_input_tokens_seen": 6735512,
+      "step": 39
+    },
+    {
+      "epoch": 0.01598721023181455,
+      "grad_norm": 483.308185338452,
+      "learning_rate": 3.340492225689942e-06,
+      "loss": 9.9182,
+      "num_input_tokens_seen": 6908304,
+      "step": 40
+    },
+    {
+      "epoch": 0.01598721023181455,
+      "loss": 9.45429515838623,
+      "loss_ce": 3.7667951583862305,
+      "loss_xval": 5.6875,
+      "num_input_tokens_seen": 6908304,
+      "step": 40
+    },
+    {
+      "epoch": 0.016386890487609912,
+      "grad_norm": 664.1523962678483,
+      "learning_rate": 3.3628528046722993e-06,
+      "loss": 9.4767,
+      "num_input_tokens_seen": 7081120,
+      "step": 41
+    },
+    {
+      "epoch": 0.016386890487609912,
+      "loss": 9.607213020324707,
+      "loss_ce": 3.615025043487549,
+      "loss_xval": 6.0,
+      "num_input_tokens_seen": 7081120,
+      "step": 41
+    },
+    {
+      "epoch": 0.016786570743405275,
+      "grad_norm": 903.1201640859815,
+      "learning_rate": 3.3846745217301015e-06,
+      "loss": 10.2732,
+      "num_input_tokens_seen": 7253696,
+      "step": 42
+    },
+    {
+      "epoch": 0.016786570743405275,
+      "loss": 10.472900390625,
+      "loss_ce": 3.750244617462158,
+      "loss_xval": 6.71875,
+      "num_input_tokens_seen": 7253696,
+      "step": 42
+    },
+    {
+      "epoch": 0.01718625099920064,
+      "grad_norm": 871.80664974741,
+      "learning_rate": 3.4059827386678244e-06,
+      "loss": 10.2289,
+      "num_input_tokens_seen": 7426136,
+      "step": 43
+    },
+    {
+      "epoch": 0.01718625099920064,
+      "loss": 10.360870361328125,
+      "loss_ce": 3.575714588165283,
+      "loss_xval": 6.78125,
+      "num_input_tokens_seen": 7426136,
+      "step": 43
+    },
+    {
+      "epoch": 0.017585931254996003,
+      "grad_norm": 602.4666850744355,
+      "learning_rate": 3.4268010678805934e-06,
+      "loss": 9.0809,
+      "num_input_tokens_seen": 7599104,
+      "step": 44
+    },
+    {
+      "epoch": 0.017585931254996003,
+      "loss": 9.004478454589844,
+      "loss_ce": 3.3775248527526855,
+      "loss_xval": 5.625,
+      "num_input_tokens_seen": 7599104,
+      "step": 44
+    },
+    {
+      "epoch": 0.017985611510791366,
+      "grad_norm": 137.35583139064687,
+      "learning_rate": 3.447151529639145e-06,
+      "loss": 8.3695,
+      "num_input_tokens_seen": 7772208,
+      "step": 45
+    },
+    {
+      "epoch": 0.017985611510791366,
+      "loss": 8.689802169799805,
+      "loss_ce": 3.4398021697998047,
+      "loss_xval": 5.25,
+      "num_input_tokens_seen": 7772208,
+      "step": 45
+    },
+    {
+      "epoch": 0.01838529176658673,
+      "grad_norm": 478.5359664685662,
+      "learning_rate": 3.4670546920863086e-06,
+      "loss": 8.1446,
+      "num_input_tokens_seen": 7944840,
+      "step": 46
+    },
+    {
+      "epoch": 0.01838529176658673,
+      "loss": 7.91407585144043,
+      "loss_ce": 3.4550914764404297,
+      "loss_xval": 4.46875,
+      "num_input_tokens_seen": 7944840,
+      "step": 46
+    },
+    {
+      "epoch": 0.018784972022382093,
+      "grad_norm": 557.9408362107046,
+      "learning_rate": 3.4865297961764146e-06,
+      "loss": 8.3954,
+      "num_input_tokens_seen": 8118024,
+      "step": 47
+    },
+    {
+      "epoch": 0.018784972022382093,
+      "loss": 8.321405410766602,
+      "loss_ce": 3.3067569732666016,
+      "loss_xval": 5.0,
+      "num_input_tokens_seen": 8118024,
+      "step": 47
+    },
+    {
+      "epoch": 0.019184652278177457,
+      "grad_norm": 846.6195239782504,
+      "learning_rate": 3.5055948674601067e-06,
+      "loss": 8.578,
+      "num_input_tokens_seen": 8290688,
+      "step": 48
+    },
+    {
+      "epoch": 0.019184652278177457,
+      "loss": 9.086427688598633,
+      "loss_ce": 3.121584892272949,
+      "loss_xval": 5.96875,
+      "num_input_tokens_seen": 8290688,
+      "step": 48
+    },
+    {
+      "epoch": 0.01958433253397282,
+      "grad_norm": 590.9741857230598,
+      "learning_rate": 3.524266816342358e-06,
+      "loss": 7.7949,
+      "num_input_tokens_seen": 8463320,
+      "step": 49
+    },
+    {
+      "epoch": 0.01958433253397282,
+      "loss": 7.50385046005249,
+      "loss_ce": 3.1073663234710693,
+      "loss_xval": 4.40625,
+      "num_input_tokens_seen": 8463320,
+      "step": 49
+    },
+    {
+      "epoch": 0.019984012789768184,
+      "grad_norm": 261.24703891283673,
+      "learning_rate": 3.542561528211243e-06,
+      "loss": 7.8687,
+      "num_input_tokens_seen": 8636560,
+      "step": 50
+    },
+    {
+      "epoch": 0.019984012789768184,
+      "loss": 7.583156108856201,
+      "loss_ce": 3.1534688472747803,
+      "loss_xval": 4.4375,
+      "num_input_tokens_seen": 8636560,
+      "step": 50
+    },
+    {
+      "epoch": 0.02038369304556355,
+      "grad_norm": 322.9570931125352,
+      "learning_rate": 3.5604939446412112e-06,
+      "loss": 7.6471,
+      "num_input_tokens_seen": 8809720,
+      "step": 51
+    },
+    {
+      "epoch": 0.02038369304556355,
+      "eval_websight_new_IoU": 0.030084313824772835,
+      "eval_websight_new_MAE_all": 0.1372687742114067,
+      "eval_websight_new_MAE_h": 0.10130885243415833,
+      "eval_websight_new_MAE_w": 0.14034898951649666,
+      "eval_websight_new_MAE_x": 0.08298783376812935,
+      "eval_websight_new_MAE_y": 0.2244294062256813,
+      "eval_websight_new_NUM_probability": 1.1027492252679849e-08,
+      "eval_websight_new_inside_bbox": 0.03125,
+      "eval_websight_new_loss": 7.040191650390625,
+      "eval_websight_new_loss_ce": 3.3154985904693604,
+      "eval_websight_new_loss_xval": 3.492431640625,
+      "eval_websight_new_runtime": 55.9794,
+      "eval_websight_new_samples_per_second": 0.893,
+      "eval_websight_new_steps_per_second": 0.036,
+      "num_input_tokens_seen": 8809720,
+      "step": 51
+    },
+    {
+      "epoch": 0.02038369304556355,
+      "eval_seeclick_IoU": 0.025128517299890518,
+      "eval_seeclick_MAE_all": 0.20313503593206406,
+      "eval_seeclick_MAE_h": 0.13093940913677216,
+      "eval_seeclick_MAE_w": 0.2555273696780205,
+      "eval_seeclick_MAE_x": 0.21082086116075516,
+      "eval_seeclick_MAE_y": 0.21525250375270844,
+      "eval_seeclick_NUM_probability": 1.2050559661247462e-08,
+      "eval_seeclick_inside_bbox": 0.07465277798473835,
+      "eval_seeclick_loss": 10.326189994812012,
+      "eval_seeclick_loss_ce": 3.7456430196762085,
+      "eval_seeclick_loss_xval": 7.052734375,
+      "eval_seeclick_runtime": 82.3558,
+      "eval_seeclick_samples_per_second": 0.607,
+      "eval_seeclick_steps_per_second": 0.024,
+      "num_input_tokens_seen": 8809720,
+      "step": 51
+    },
+    {
+      "epoch": 0.02038369304556355,
+      "eval_icons_IoU": 0.0,
+      "eval_icons_MAE_all": 0.12515902519226074,
+      "eval_icons_MAE_h": 0.027381721884012222,
+      "eval_icons_MAE_w": 0.05067274160683155,
+      "eval_icons_MAE_x": 0.18365809321403503,
+      "eval_icons_MAE_y": 0.23892351984977722,
+      "eval_icons_NUM_probability": 1.5372147998959917e-08,
+      "eval_icons_inside_bbox": 0.0,
+      "eval_icons_loss": 7.085067272186279,
+      "eval_icons_loss_ce": 3.12102210521698,
+      "eval_icons_loss_xval": 3.6298828125,
+      "eval_icons_runtime": 89.2513,
+      "eval_icons_samples_per_second": 0.56,
+      "eval_icons_steps_per_second": 0.022,
+      "num_input_tokens_seen": 8809720,
+      "step": 51
+    },
+    {
+      "epoch": 0.02038369304556355,
+      "loss": 5.90113639831543,
+      "loss_ce": 3.1316046714782715,
+      "loss_xval": 2.765625,
+      "num_input_tokens_seen": 8809720,
+      "step": 51
+    },
+    {
+      "epoch": 0.020783373301358914,
+      "grad_norm": 591.8732945437766,
+      "learning_rate": 3.5780781367109973e-06,
+      "loss": 7.3836,
+      "num_input_tokens_seen": 8982736,
+      "step": 52
+    },
+    {
+      "epoch": 0.020783373301358914,
+      "loss": 7.991217136383057,
+      "loss_ce": 3.0302796363830566,
+      "loss_xval": 4.96875,
+      "num_input_tokens_seen": 8982736,
+      "step": 52
+    },
+    {
+      "epoch": 0.021183053557154278,
+      "grad_norm": 626.8464467894951,
+      "learning_rate": 3.5953273713375363e-06,
+      "loss": 7.577,
+      "num_input_tokens_seen": 9155480,
+      "step": 53
+    },
+    {
+      "epoch": 0.021183053557154278,
+      "loss": 7.484159469604492,
+      "loss_ce": 2.9724409580230713,
+      "loss_xval": 4.5,
+      "num_input_tokens_seen": 9155480,
+      "step": 53
+    },
+    {
+      "epoch": 0.02158273381294964,
+      "grad_norm": 256.7768068798319,
+      "learning_rate": 3.6122541714093096e-06,
+      "loss": 6.6296,
+      "num_input_tokens_seen": 9328328,
+      "step": 54
+    },
+    {
+      "epoch": 0.02158273381294964,
+      "loss": 6.372915744781494,
+      "loss_ce": 2.915884494781494,
+      "loss_xval": 3.453125,
+      "num_input_tokens_seen": 9328328,
+      "step": 54
+    },
+    {
+      "epoch": 0.021982414068745005,
+      "grad_norm": 211.77074553660972,
+      "learning_rate": 3.628870370401895e-06,
+      "loss": 6.8308,
+      "num_input_tokens_seen": 9501408,
+      "step": 55
+    },
+    {
+      "epoch": 0.021982414068745005,
+      "loss": 6.57294225692749,
+      "loss_ce": 2.8893485069274902,
+      "loss_xval": 3.6875,
+      "num_input_tokens_seen": 9501408,
+      "step": 55
+    },
+    {
+      "epoch": 0.02238209432454037,
+      "grad_norm": 192.3988438237558,
+      "learning_rate": 3.645187162072364e-06,
+      "loss": 7.7137,
+      "num_input_tokens_seen": 9674048,
+      "step": 56
+    },
+    {
+      "epoch": 0.02238209432454037,
+      "loss": 7.810283660888672,
+      "loss_ce": 2.751690149307251,
+      "loss_xval": 5.0625,
+      "num_input_tokens_seen": 9674048,
+      "step": 56
+    },
+    {
+      "epoch": 0.022781774580335732,
+      "grad_norm": 659.8576946924561,
+      "learning_rate": 3.6612151457552162e-06,
+      "loss": 6.6531,
+      "num_input_tokens_seen": 9847000,
+      "step": 57
+    },
+    {
+      "epoch": 0.022781774580335732,
+      "loss": 5.987558364868164,
+      "loss_ce": 2.647714614868164,
+      "loss_xval": 3.34375,
+      "num_input_tokens_seen": 9847000,
+      "step": 57
+    },
+    {
+      "epoch": 0.023181454836131096,
+      "grad_norm": 664.7341132161741,
+      "learning_rate": 3.6769643677189227e-06,
+      "loss": 7.0286,
+      "num_input_tokens_seen": 10019880,
+      "step": 58
+    },
+    {
+      "epoch": 0.023181454836131096,
+      "loss": 7.144340515136719,
+      "loss_ce": 2.720512628555298,
+      "loss_xval": 4.4375,
+      "num_input_tokens_seen": 10019880,
+      "step": 58
+    },
+    {
+      "epoch": 0.02358113509192646,
+      "grad_norm": 212.02522543694363,
+      "learning_rate": 3.692444358987175e-06,
+      "loss": 7.0622,
+      "num_input_tokens_seen": 10192832,
+      "step": 59
+    },
+    {
+      "epoch": 0.02358113509192646,
+      "loss": 6.224069595336914,
+      "loss_ce": 2.544382333755493,
+      "loss_xval": 3.6875,
+      "num_input_tokens_seen": 10192832,
+      "step": 59
+    },
+    {
+      "epoch": 0.023980815347721823,
+      "grad_norm": 165.01048096537636,
+      "learning_rate": 3.707664169981407e-06,
+      "loss": 6.2673,
+      "num_input_tokens_seen": 10365984,
+      "step": 60
+    },
+    {
+      "epoch": 0.023980815347721823,
+      "loss": 6.832554817199707,
+      "loss_ce": 2.652867555618286,
+      "loss_xval": 4.1875,
+      "num_input_tokens_seen": 10365984,
+      "step": 60
+    },
+    {
+      "epoch": 0.024380495603517186,
+      "grad_norm": 483.00531361229116,
+      "learning_rate": 3.7226324022999028e-06,
+      "loss": 6.6506,
+      "num_input_tokens_seen": 10538928,
+      "step": 61
+    },
+    {
+      "epoch": 0.024380495603517186,
+      "loss": 7.050806045532227,
+      "loss_ce": 2.4297122955322266,
+      "loss_xval": 4.625,
+      "num_input_tokens_seen": 10538928,
+      "step": 61
+    },
+    {
+      "epoch": 0.02478017585931255,
+      "grad_norm": 572.7726598458358,
+      "learning_rate": 3.737357237912862e-06,
+      "loss": 6.9383,
+      "num_input_tokens_seen": 10711776,
+      "step": 62
+    },
+    {
+      "epoch": 0.02478017585931255,
+      "loss": 6.301916122436523,
+      "loss_ce": 2.4972286224365234,
+      "loss_xval": 3.8125,
+      "num_input_tokens_seen": 10711776,
+      "step": 62
+    },
+    {
+      "epoch": 0.025179856115107913,
+      "grad_norm": 199.8374697737695,
+      "learning_rate": 3.751846466021567e-06,
+      "loss": 6.6134,
+      "num_input_tokens_seen": 10884920,
+      "step": 63
+    },
+    {
+      "epoch": 0.025179856115107913,
+      "loss": 6.5081939697265625,
+      "loss_ce": 2.4437410831451416,
+      "loss_xval": 4.0625,
+      "num_input_tokens_seen": 10884920,
+      "step": 63
+    },
+    {
+      "epoch": 0.025579536370903277,
+      "grad_norm": 179.37701762975175,
+      "learning_rate": 3.7661075078023677e-06,
+      "loss": 6.0898,
+      "num_input_tokens_seen": 11057376,
+      "step": 64
+    },
+    {
+      "epoch": 0.025579536370903277,
+      "loss": 5.734729290008545,
+      "loss_ce": 2.328479290008545,
+      "loss_xval": 3.40625,
+      "num_input_tokens_seen": 11057376,
+      "step": 64
+    },
+    {
+      "epoch": 0.02597921662669864,
+      "grad_norm": 190.80330379121816,
+      "learning_rate": 3.7801474392322986e-06,
+      "loss": 5.5901,
+      "num_input_tokens_seen": 11229816,
+      "step": 65
+    },
+    {
+      "epoch": 0.02597921662669864,
+      "loss": 5.417404651641846,
+      "loss_ce": 2.1576390266418457,
+      "loss_xval": 3.265625,
+      "num_input_tokens_seen": 11229816,
+      "step": 65
+    },
+    {
+      "epoch": 0.026378896882494004,
+      "grad_norm": 375.5172678891961,
+      "learning_rate": 3.793973012172059e-06,
+      "loss": 5.7052,
+      "num_input_tokens_seen": 11402552,
+      "step": 66
+    },
+    {
+      "epoch": 0.026378896882494004,
+      "loss": 5.661341667175293,
+      "loss_ce": 2.294153928756714,
+      "loss_xval": 3.375,
+      "num_input_tokens_seen": 11402552,
+      "step": 66
+    },
+    {
+      "epoch": 0.026778577138289367,
+      "grad_norm": 331.5482112197834,
+      "learning_rate": 3.807590673863634e-06,
+      "loss": 5.6927,
+      "num_input_tokens_seen": 11575584,
+      "step": 67
+    },
+    {
+      "epoch": 0.026778577138289367,
+      "loss": 5.483163833618164,
+      "loss_ce": 2.371835708618164,
+      "loss_xval": 3.109375,
+      "num_input_tokens_seen": 11575584,
+      "step": 67
+    },
+    {
+      "epoch": 0.02717825739408473,
+      "grad_norm": 118.69682377879631,
+      "learning_rate": 3.8210065849834735e-06,
+      "loss": 5.503,
+      "num_input_tokens_seen": 11744688,
+      "step": 68
+    },
+    {
+      "epoch": 0.02717825739408473,
+      "loss": 4.790616989135742,
+      "loss_ce": 2.1099531650543213,
+      "loss_xval": 2.6875,
+      "num_input_tokens_seen": 11744688,
+      "step": 68
+    },
+    {
+      "epoch": 0.027577937649880094,
+      "grad_norm": 209.335686573374,
+      "learning_rate": 3.834226636377774e-06,
+      "loss": 4.9825,
+      "num_input_tokens_seen": 11917488,
+      "step": 69
+    },
+    {
+      "epoch": 0.027577937649880094,
+      "loss": 5.30062198638916,
+      "loss_ce": 2.11995792388916,
+      "loss_xval": 3.1875,
+      "num_input_tokens_seen": 11917488,
+      "step": 69
+    },
+    {
+      "epoch": 0.027977617905675458,
+      "grad_norm": 183.04183416930314,
+      "learning_rate": 3.847256464593665e-06,
+      "loss": 5.1639,
+      "num_input_tokens_seen": 12090624,
+      "step": 70
+    },
+    {
+      "epoch": 0.027977617905675458,
+      "loss": 5.195356369018555,
+      "loss_ce": 2.033247232437134,
+      "loss_xval": 3.15625,
+      "num_input_tokens_seen": 12090624,
+      "step": 70
+    },
+    {
+      "epoch": 0.028377298161470825,
+      "grad_norm": 258.67109460163607,
+      "learning_rate": 3.860101466308762e-06,
+      "loss": 5.6155,
+      "num_input_tokens_seen": 12263440,
+      "step": 71
+    },
+    {
+      "epoch": 0.028377298161470825,
+      "loss": 5.879308223724365,
+      "loss_ce": 2.093175172805786,
+      "loss_xval": 3.78125,
+      "num_input_tokens_seen": 12263440,
+      "step": 71
+    },
+    {
+      "epoch": 0.02877697841726619,
+      "grad_norm": 216.22409083276455,
+      "learning_rate": 3.872766811751572e-06,
+      "loss": 5.8319,
+      "num_input_tokens_seen": 12433088,
+      "step": 72
+    },
+    {
+      "epoch": 0.02877697841726619,
+      "loss": 5.86053466796875,
+      "loss_ce": 2.049011468887329,
+      "loss_xval": 3.8125,
+      "num_input_tokens_seen": 12433088,
+      "step": 72
+    },
+    {
+      "epoch": 0.029176658673061552,
+      "grad_norm": 224.64777003998142,
+      "learning_rate": 3.8852574571962525e-06,
+      "loss": 5.0139,
+      "num_input_tokens_seen": 12602080,
+      "step": 73
+    },
+    {
+      "epoch": 0.029176658673061552,
+      "loss": 5.154097557067871,
+      "loss_ce": 1.9460902214050293,
+      "loss_xval": 3.203125,
+      "num_input_tokens_seen": 12602080,
+      "step": 73
+    },
+    {
+      "epoch": 0.029576338928856916,
+      "grad_norm": 188.87320237119758,
+      "learning_rate": 3.897578156607312e-06,
+      "loss": 4.8818,
+      "num_input_tokens_seen": 12772032,
+      "step": 74
+    },
+    {
+      "epoch": 0.029576338928856916,
+      "loss": 4.89943790435791,
+      "loss_ce": 2.05178165435791,
+      "loss_xval": 2.84375,
+      "num_input_tokens_seen": 12772032,
+      "step": 74
+    },
+    {
+      "epoch": 0.02997601918465228,
+      "grad_norm": 239.00340379876698,
+      "learning_rate": 3.9097334725027084e-06,
+      "loss": 4.9708,
+      "num_input_tokens_seen": 12944640,
+      "step": 75
+    },
+    {
+      "epoch": 0.02997601918465228,
+      "loss": 5.254262924194336,
+      "loss_ce": 1.935903549194336,
+      "loss_xval": 3.3125,
+      "num_input_tokens_seen": 12944640,
+      "step": 75
+    },
+    {
+      "epoch": 0.030375699440447643,
+      "grad_norm": 175.64097497094016,
+      "learning_rate": 3.921727786097478e-06,
+      "loss": 4.8671,
+      "num_input_tokens_seen": 13117608,
+      "step": 76
+    },
+    {
+      "epoch": 0.030375699440447643,
+      "loss": 4.83261251449585,
+      "loss_ce": 1.8843704462051392,
+      "loss_xval": 2.953125,
+      "num_input_tokens_seen": 13117608,
+      "step": 76
+    },
+    {
+      "epoch": 0.030775379696243006,
+      "grad_norm": 171.78683132868542,
+      "learning_rate": 3.933565306784317e-06,
+      "loss": 4.9704,
+      "num_input_tokens_seen": 13290680,
+      "step": 77
+    },
+    {
+      "epoch": 0.030775379696243006,
+      "loss": 4.89105224609375,
+      "loss_ce": 1.9115601778030396,
+      "loss_xval": 2.984375,
+      "num_input_tokens_seen": 13290680,
+      "step": 77
+    },
+    {
+      "epoch": 0.03117505995203837,
+      "grad_norm": 179.14747541729278,
+      "learning_rate": 3.945250081002463e-06,
+      "loss": 4.7534,
+      "num_input_tokens_seen": 13464144,
+      "step": 78
+    },
+    {
+      "epoch": 0.03117505995203837,
+      "loss": 4.642127513885498,
+      "loss_ce": 1.9326547384262085,
+      "loss_xval": 2.703125,
+      "num_input_tokens_seen": 13464144,
+      "step": 78
+    },
+    {
+      "epoch": 0.03157474020783373,
+      "grad_norm": 137.37235263944487,
+      "learning_rate": 3.956786000541636e-06,
+      "loss": 4.239,
+      "num_input_tokens_seen": 13637160,
+      "step": 79
+    },
+    {
+      "epoch": 0.03157474020783373,
+      "loss": 4.785009860992432,
+      "loss_ce": 1.7830569744110107,
+      "loss_xval": 3.0,
+      "num_input_tokens_seen": 13637160,
+      "step": 79
+    },
+    {
+      "epoch": 0.0319744204636291,
+      "grad_norm": 186.29416857398633,
+      "learning_rate": 3.96817681032367e-06,
+      "loss": 5.1584,
+      "num_input_tokens_seen": 13810040,
+      "step": 80
+    },
+    {
+      "epoch": 0.0319744204636291,
+      "loss": 5.067818641662598,
+      "loss_ce": 1.8412563800811768,
+      "loss_xval": 3.21875,
+      "num_input_tokens_seen": 13810040,
+      "step": 80
+    },
+    {
+      "epoch": 0.03237410071942446,
+      "grad_norm": 260.14001469149053,
+      "learning_rate": 3.979426115700776e-06,
+      "loss": 4.9267,
+      "num_input_tokens_seen": 13982936,
+      "step": 81
+    },
+    {
+      "epoch": 0.03237410071942446,
+      "loss": 4.497675895690918,
+      "loss_ce": 1.7955272197723389,
+      "loss_xval": 2.703125,
+      "num_input_tokens_seen": 13982936,
+      "step": 81
+    },
+    {
+      "epoch": 0.032773780975219824,
+      "grad_norm": 216.40429405771704,
+      "learning_rate": 3.990537389306027e-06,
+      "loss": 5.5378,
+      "num_input_tokens_seen": 14156248,
+      "step": 82
+    },
+    {
+      "epoch": 0.032773780975219824,
+      "loss": 5.3804426193237305,
+      "loss_ce": 1.7896225452423096,
+      "loss_xval": 3.59375,
+      "num_input_tokens_seen": 14156248,
+      "step": 82
+    },
+    {
+      "epoch": 0.03317346123101519,
+      "grad_norm": 549.5248800116727,
+      "learning_rate": 4.001513977488632e-06,
+      "loss": 4.9184,
+      "num_input_tokens_seen": 14329344,
+      "step": 83
+    },
+    {
+      "epoch": 0.03317346123101519,
+      "loss": 4.968637466430664,
+      "loss_ce": 1.767465353012085,
+      "loss_xval": 3.203125,
+      "num_input_tokens_seen": 14329344,
+      "step": 83
+    },
+    {
+      "epoch": 0.03357314148681055,
+      "grad_norm": 194.0581771356025,
+      "learning_rate": 4.012359106363829e-06,
+      "loss": 4.3067,
+      "num_input_tokens_seen": 14502072,
+      "step": 84
+    },
+    {
+      "epoch": 0.03357314148681055,
+      "loss": 4.593915939331055,
+      "loss_ce": 1.6945018768310547,
+      "loss_xval": 2.90625,
+      "num_input_tokens_seen": 14502072,
+      "step": 84
+    },
+    {
+      "epoch": 0.033972821742605915,
+      "grad_norm": 516.6266208234828,
+      "learning_rate": 4.023075887504775e-06,
+      "loss": 4.4029,
+      "num_input_tokens_seen": 14675008,
+      "step": 85
+    },
+    {
+      "epoch": 0.033972821742605915,
+      "loss": 4.0735392570495605,
+      "loss_ce": 1.7053749561309814,
+      "loss_xval": 2.375,
+      "num_input_tokens_seen": 14675008,
+      "step": 85
+    },
+    {
+      "epoch": 0.03437250199840128,
+      "grad_norm": 374.0473462885556,
+      "learning_rate": 4.033667323301552e-06,
+      "loss": 4.1857,
+      "num_input_tokens_seen": 14847768,
+      "step": 86
+    },
+    {
+      "epoch": 0.03437250199840128,
+      "loss": 4.331335067749023,
+      "loss_ce": 1.7405146360397339,
+      "loss_xval": 2.59375,
+      "num_input_tokens_seen": 14847768,
+      "step": 86
+    },
+    {
+      "epoch": 0.03477218225419664,
+      "grad_norm": 156.7332678793166,
+      "learning_rate": 4.044136312010388e-06,
+      "loss": 4.2331,
+      "num_input_tokens_seen": 15020560,
+      "step": 87
+    },
+    {
+      "epoch": 0.03477218225419664,
+      "loss": 3.9675381183624268,
+      "loss_ce": 1.6716396808624268,
+      "loss_xval": 2.296875,
+      "num_input_tokens_seen": 15020560,
+      "step": 87
+    },
+    {
+      "epoch": 0.035171862509992005,
+      "grad_norm": 319.8318187587833,
+      "learning_rate": 4.0544856525143226e-06,
+      "loss": 4.8582,
+      "num_input_tokens_seen": 15193280,
+      "step": 88
+    },
+    {
+      "epoch": 0.035171862509992005,
+      "loss": 4.755683422088623,
+      "loss_ce": 1.5857617855072021,
+      "loss_xval": 3.171875,
+      "num_input_tokens_seen": 15193280,
+      "step": 88
+    },
+    {
+      "epoch": 0.03557154276578737,
+      "grad_norm": 644.9710013537776,
+      "learning_rate": 4.064718048814889e-06,
+      "loss": 4.9109,
+      "num_input_tokens_seen": 15366384,
+      "step": 89
+    },
+    {
+      "epoch": 0.03557154276578737,
+      "loss": 4.91407585144043,
+      "loss_ce": 1.6425917148590088,
+      "loss_xval": 3.265625,
+      "num_input_tokens_seen": 15366384,
+      "step": 89
+    },
+    {
+      "epoch": 0.03597122302158273,
+      "grad_norm": 246.6542571417044,
+      "learning_rate": 4.074836114272873e-06,
+      "loss": 4.3901,
+      "num_input_tokens_seen": 15539432,
+      "step": 90
+    },
+    {
+      "epoch": 0.03597122302158273,
+      "loss": 4.276044845581055,
+      "loss_ce": 1.6398143768310547,
+      "loss_xval": 2.640625,
+      "num_input_tokens_seen": 15539432,
+      "step": 90
+    },
+    {
+      "epoch": 0.036370903277378096,
+      "grad_norm": 455.99645617059537,
+      "learning_rate": 4.08484237561472e-06,
+      "loss": 4.7347,
+      "num_input_tokens_seen": 15712712,
+      "step": 91
+    },
+    {
+      "epoch": 0.036370903277378096,
+      "loss": 5.283034324645996,
+      "loss_ce": 1.6326435804367065,
+      "loss_xval": 3.65625,
+      "num_input_tokens_seen": 15712712,
+      "step": 91
+    },
+    {
+      "epoch": 0.03677058353317346,
+      "grad_norm": 196.25249760645295,
+      "learning_rate": 4.094739276720037e-06,
+      "loss": 4.3173,
+      "num_input_tokens_seen": 15885664,
+      "step": 92
+    },
+    {
+      "epoch": 0.03677058353317346,
+      "loss": 4.700507640838623,
+      "loss_ce": 1.668281078338623,
+      "loss_xval": 3.03125,
+      "num_input_tokens_seen": 15885664,
+      "step": 92
+    },
+    {
+      "epoch": 0.03717026378896882,
+      "grad_norm": 285.7770874903587,
+      "learning_rate": 4.1045291822043285e-06,
+      "loss": 4.0221,
+      "num_input_tokens_seen": 16058736,
+      "step": 93
+    },
+    {
+      "epoch": 0.03717026378896882,
+      "loss": 4.253849983215332,
+      "loss_ce": 1.6098066568374634,
+      "loss_xval": 2.640625,
+      "num_input_tokens_seen": 16058736,
+      "step": 93
+    },
+    {
+      "epoch": 0.037569944044764186,
+      "grad_norm": 204.95844707804565,
+      "learning_rate": 4.1142143808101425e-06,
+      "loss": 4.2728,
+      "num_input_tokens_seen": 16231688,
+      "step": 94
+    },
+    {
+      "epoch": 0.037569944044764186,
+      "loss": 4.915648460388184,
+      "loss_ce": 1.6168203353881836,
+      "loss_xval": 3.296875,
+      "num_input_tokens_seen": 16231688,
+      "step": 94
+    },
+    {
+      "epoch": 0.03796962430055955,
+      "grad_norm": 156.8292452749296,
+      "learning_rate": 4.123797088618779e-06,
+      "loss": 4.1215,
+      "num_input_tokens_seen": 16404472,
+      "step": 95
+    },
+    {
+      "epoch": 0.03796962430055955,
+      "loss": 4.639373779296875,
+      "loss_ce": 1.5382994413375854,
+      "loss_xval": 3.09375,
+      "num_input_tokens_seen": 16404472,
+      "step": 95
+    },
+    {
+      "epoch": 0.03836930455635491,
+      "grad_norm": 131.9876314168009,
+      "learning_rate": 4.133279452093834e-06,
+      "loss": 4.1419,
+      "num_input_tokens_seen": 16577504,
+      "step": 96
+    },
+    {
+      "epoch": 0.03836930455635491,
+      "loss": 4.308347702026367,
+      "loss_ce": 1.5310044288635254,
+      "loss_xval": 2.78125,
+      "num_input_tokens_seen": 16577504,
+      "step": 96
+    },
+    {
+      "epoch": 0.03876898481215028,
+      "grad_norm": 110.37162259406017,
+      "learning_rate": 4.142663550967035e-06,
+      "loss": 3.6569,
+      "num_input_tokens_seen": 16750808,
+      "step": 97
+    },
+    {
+      "epoch": 0.03876898481215028,
+      "loss": 3.53420352935791,
+      "loss_ce": 1.5429925918579102,
+      "loss_xval": 1.9921875,
+      "num_input_tokens_seen": 16750808,
+      "step": 97
+    },
+    {
+      "epoch": 0.03916866506794564,
+      "grad_norm": 168.5095133634534,
+      "learning_rate": 4.151951400976087e-06,
+      "loss": 3.7882,
+      "num_input_tokens_seen": 16923992,
+      "step": 98
+    },
+    {
+      "epoch": 0.03916866506794564,
+      "loss": 3.392901659011841,
+      "loss_ce": 1.4983705282211304,
+      "loss_xval": 1.890625,
+      "num_input_tokens_seen": 16923992,
+      "step": 98
+    },
+    {
+      "epoch": 0.039568345323741004,
+      "grad_norm": 114.59340514251383,
+      "learning_rate": 4.161144956463525e-06,
+      "loss": 3.8205,
+      "num_input_tokens_seen": 17096680,
+      "step": 99
+    },
+    {
+      "epoch": 0.039568345323741004,
+      "loss": 3.6567561626434326,
+      "loss_ce": 1.485857605934143,
+      "loss_xval": 2.171875,
+      "num_input_tokens_seen": 17096680,
+      "step": 99
+    },
+    {
+      "epoch": 0.03996802557953637,
+      "grad_norm": 203.8901770985848,
+      "learning_rate": 4.170246112844972e-06,
+      "loss": 3.8433,
+      "num_input_tokens_seen": 17269216,
+      "step": 100
+    },
+    {
+      "epoch": 0.03996802557953637,
+      "loss": 3.3409595489501953,
+      "loss_ce": 1.4923267364501953,
+      "loss_xval": 1.8515625,
+      "num_input_tokens_seen": 17269216,
+      "step": 100
+    },
+    {
+      "epoch": 0.04036770583533174,
+      "grad_norm": 124.1343078329466,
+      "learning_rate": 4.179256708954579e-06,
+      "loss": 3.6334,
+      "num_input_tokens_seen": 17442352,
+      "step": 101
+    },
+    {
+      "epoch": 0.04036770583533174,
+      "loss": 3.501720666885376,
+      "loss_ce": 1.488048791885376,
+      "loss_xval": 2.015625,
+      "num_input_tokens_seen": 17442352,
+      "step": 101
+    },
+    {
+      "epoch": 0.0407673860911271,
+      "grad_norm": 196.9699571170823,
+      "learning_rate": 4.188178529274939e-06,
+      "loss": 3.2125,
+      "num_input_tokens_seen": 17615376,
+      "step": 102
+    },
+    {
+      "epoch": 0.0407673860911271,
+      "loss": 3.121706008911133,
+      "loss_ce": 1.4449481964111328,
+      "loss_xval": 1.6796875,
+      "num_input_tokens_seen": 17615376,
+      "step": 102
+    },
+    {
+      "epoch": 0.041167066346922465,
+      "grad_norm": 119.54443363473506,
+      "learning_rate": 4.197013306058203e-06,
+      "loss": 3.4917,
+      "num_input_tokens_seen": 17787984,
+      "step": 103
+    },
+    {
+      "epoch": 0.041167066346922465,
+      "loss": 3.2809221744537354,
+      "loss_ce": 1.4230120182037354,
+      "loss_xval": 1.859375,
+      "num_input_tokens_seen": 17787984,
+      "step": 103
+    },
+    {
+      "epoch": 0.04156674660271783,
+      "grad_norm": 246.81496667478712,
+      "learning_rate": 4.205762721344725e-06,
+      "loss": 3.7306,
+      "num_input_tokens_seen": 17961048,
+      "step": 104
+    },
+    {
+      "epoch": 0.04156674660271783,
+      "loss": 3.0534510612487793,
+      "loss_ce": 1.4357751607894897,
+      "loss_xval": 1.6171875,
+      "num_input_tokens_seen": 17961048,
+      "step": 104
+    },
+    {
+      "epoch": 0.04196642685851319,
+      "grad_norm": 140.73203674853707,
+      "learning_rate": 4.21442840888513e-06,
+      "loss": 3.6675,
+      "num_input_tokens_seen": 18133960,
+      "step": 105
+    },
+    {
+      "epoch": 0.04196642685851319,
+      "loss": 3.460153102874756,
+      "loss_ce": 1.4249968528747559,
+      "loss_xval": 2.03125,
+      "num_input_tokens_seen": 18133960,
+      "step": 105
+    },
+    {
+      "epoch": 0.042366107114308556,
+      "grad_norm": 133.38932388420073,
+      "learning_rate": 4.223011955971264e-06,
+      "loss": 3.7657,
+      "num_input_tokens_seen": 18306920,
+      "step": 106
+    },
+    {
+      "epoch": 0.042366107114308556,
+      "loss": 3.373945951461792,
+      "loss_ce": 1.422774076461792,
+      "loss_xval": 1.953125,
+      "num_input_tokens_seen": 18306920,
+      "step": 106
+    },
+    {
+      "epoch": 0.04276578737010392,
+      "grad_norm": 137.17503761831742,
+      "learning_rate": 4.231514905181194e-06,
+      "loss": 3.9627,
+      "num_input_tokens_seen": 18479872,
+      "step": 107
+    },
+    {
+      "epoch": 0.04276578737010392,
+      "loss": 3.5468502044677734,
+      "loss_ce": 1.4228266477584839,
+      "loss_xval": 2.125,
+      "num_input_tokens_seen": 18479872,
+      "step": 107
+    },
+    {
+      "epoch": 0.04316546762589928,
+      "grad_norm": 168.70624239265484,
+      "learning_rate": 4.239938756043038e-06,
+      "loss": 3.0579,
+      "num_input_tokens_seen": 18653056,
+      "step": 108
+    },
+    {
+      "epoch": 0.04316546762589928,
+      "loss": 2.9931588172912598,
+      "loss_ce": 1.4638619422912598,
+      "loss_xval": 1.53125,
+      "num_input_tokens_seen": 18653056,
+      "step": 108
+    },
+    {
+      "epoch": 0.043565147881694646,
+      "grad_norm": 116.92635982536697,
+      "learning_rate": 4.248284966622114e-06,
+      "loss": 3.3453,
+      "num_input_tokens_seen": 18825792,
+      "step": 109
+    },
+    {
+      "epoch": 0.043565147881694646,
+      "loss": 3.643871307373047,
+      "loss_ce": 1.4241447448730469,
+      "loss_xval": 2.21875,
+      "num_input_tokens_seen": 18825792,
+      "step": 109
+    },
+    {
+      "epoch": 0.04396482813749001,
+      "grad_norm": 211.32307173730896,
+      "learning_rate": 4.256554955035623e-06,
+      "loss": 3.7173,
+      "num_input_tokens_seen": 18998800,
+      "step": 110
+    },
+    {
+      "epoch": 0.04396482813749001,
+      "loss": 3.9510254859924316,
+      "loss_ce": 1.4148926734924316,
+      "loss_xval": 2.53125,
+      "num_input_tokens_seen": 18998800,
+      "step": 110
+    },
+    {
+      "epoch": 0.04436450839328537,
+      "grad_norm": 125.8640650841611,
+      "learning_rate": 4.264750100898777e-06,
+      "loss": 3.5679,
+      "num_input_tokens_seen": 19171832,
+      "step": 111
+    },
+    {
+      "epoch": 0.04436450839328537,
+      "loss": 3.722196102142334,
+      "loss_ce": 1.392117977142334,
+      "loss_xval": 2.328125,
+      "num_input_tokens_seen": 19171832,
+      "step": 111
+    },
+    {
+      "epoch": 0.04476418864908074,
+      "grad_norm": 159.67886896593234,
+      "learning_rate": 4.272871746706091e-06,
+      "loss": 3.2583,
+      "num_input_tokens_seen": 19344784,
+      "step": 112
+    },
+    {
+      "epoch": 0.04476418864908074,
+      "loss": 3.2728888988494873,
+      "loss_ce": 1.4017952680587769,
+      "loss_xval": 1.875,
+      "num_input_tokens_seen": 19344784,
+      "step": 112
+    },
+    {
+      "epoch": 0.0451638689048761,
+      "grad_norm": 158.9863093245826,
+      "learning_rate": 4.280921199151268e-06,
+      "loss": 3.9811,
+      "num_input_tokens_seen": 19517688,
+      "step": 113
+    },
+    {
+      "epoch": 0.0451638689048761,
+      "loss": 4.066771030426025,
+      "loss_ce": 1.3548572063446045,
+      "loss_xval": 2.71875,
+      "num_input_tokens_seen": 19517688,
+      "step": 113
+    },
+    {
+      "epoch": 0.045563549160671464,
+      "grad_norm": 132.59333871837742,
+      "learning_rate": 4.288899730388944e-06,
+      "loss": 3.2045,
+      "num_input_tokens_seen": 19690880,
+      "step": 114
+    },
+    {
+      "epoch": 0.045563549160671464,
+      "loss": 3.301539659500122,
+      "loss_ce": 1.330348253250122,
+      "loss_xval": 1.96875,
+      "num_input_tokens_seen": 19690880,
+      "step": 114
+    },
+    {
+      "epoch": 0.04596322941646683,
+      "grad_norm": 156.7543956695616,
+      "learning_rate": 4.296808579241338e-06,
+      "loss": 3.0619,
+      "num_input_tokens_seen": 19863616,
+      "step": 115
+    },
+    {
+      "epoch": 0.04596322941646683,
+      "loss": 3.2327518463134766,
+      "loss_ce": 1.3567752838134766,
+      "loss_xval": 1.875,
+      "num_input_tokens_seen": 19863616,
+      "step": 115
+    },
+    {
+      "epoch": 0.04636290967226219,
+      "grad_norm": 137.7793568340198,
+      "learning_rate": 4.304648952352651e-06,
+      "loss": 3.3103,
+      "num_input_tokens_seen": 20036800,
+      "step": 116
+    },
+    {
+      "epoch": 0.04636290967226219,
+      "loss": 3.387848138809204,
+      "loss_ce": 1.331695795059204,
+      "loss_xval": 2.0625,
+      "num_input_tokens_seen": 20036800,
+      "step": 116
+    },
+    {
+      "epoch": 0.046762589928057555,
+      "grad_norm": 170.99058754674215,
+      "learning_rate": 4.312422025293929e-06,
+      "loss": 3.5094,
+      "num_input_tokens_seen": 20209848,
+      "step": 117
+    },
+    {
+      "epoch": 0.046762589928057555,
+      "loss": 3.220695972442627,
+      "loss_ce": 1.355461597442627,
+      "loss_xval": 1.8671875,
+      "num_input_tokens_seen": 20209848,
+      "step": 117
+    },
+    {
+      "epoch": 0.04716227018385292,
+      "grad_norm": 97.06419206586995,
+      "learning_rate": 4.320128943620903e-06,
+      "loss": 2.9942,
+      "num_input_tokens_seen": 20382728,
+      "step": 118
+    },
+    {
+      "epoch": 0.04716227018385292,
+      "loss": 3.0818350315093994,
+      "loss_ce": 1.3162100315093994,
+      "loss_xval": 1.765625,
+      "num_input_tokens_seen": 20382728,
+      "step": 118
+    },
+    {
+      "epoch": 0.04756195043964828,
+      "grad_norm": 338.7848439976261,
+      "learning_rate": 4.327770823887197e-06,
+      "loss": 3.9238,
+      "num_input_tokens_seen": 20555712,
+      "step": 119
+    },
+    {
+      "epoch": 0.04756195043964828,
+      "loss": 4.059802055358887,
+      "loss_ce": 1.2927122116088867,
+      "loss_xval": 2.765625,
+      "num_input_tokens_seen": 20555712,
+      "step": 119
+    },
+    {
+      "epoch": 0.047961630695443645,
+      "grad_norm": 427.11268613455303,
+      "learning_rate": 4.335348754615135e-06,
+      "loss": 3.0822,
+      "num_input_tokens_seen": 20728280,
+      "step": 120
+    },
+    {
+      "epoch": 0.047961630695443645,
+      "loss": 3.1181368827819824,
+      "loss_ce": 1.2724335193634033,
+      "loss_xval": 1.84375,
+      "num_input_tokens_seen": 20728280,
+      "step": 120
+    },
+    {
+      "epoch": 0.04836131095123901,
+      "grad_norm": 115.90695385095029,
+      "learning_rate": 4.342863797226275e-06,
+      "loss": 3.0454,
+      "num_input_tokens_seen": 20901240,
+      "step": 121
+    },
+    {
+      "epoch": 0.04836131095123901,
+      "loss": 2.844395875930786,
+      "loss_ce": 1.2389271259307861,
+      "loss_xval": 1.609375,
+      "num_input_tokens_seen": 20901240,
+      "step": 121
+    },
+    {
+      "epoch": 0.04876099120703437,
+      "grad_norm": 266.16344074709775,
+      "learning_rate": 4.350316986933631e-06,
+      "loss": 3.8283,
+      "num_input_tokens_seen": 21074032,
+      "step": 122
+    },
+    {
+      "epoch": 0.04876099120703437,
+      "loss": 3.777801752090454,
+      "loss_ce": 1.2328799962997437,
+      "loss_xval": 2.546875,
+      "num_input_tokens_seen": 21074032,
+      "step": 122
+    },
+    {
+      "epoch": 0.049160671462829736,
+      "grad_norm": 213.32519005243836,
+      "learning_rate": 4.3577093335974925e-06,
+      "loss": 3.1261,
+      "num_input_tokens_seen": 21247224,
+      "step": 123
+    },
+    {
+      "epoch": 0.049160671462829736,
+      "loss": 3.3567044734954834,
+      "loss_ce": 1.2375637292861938,
+      "loss_xval": 2.125,
+      "num_input_tokens_seen": 21247224,
+      "step": 123
+    },
+    {
+      "epoch": 0.0495603517186251,
+      "grad_norm": 101.5577996272501,
+      "learning_rate": 4.36504182254659e-06,
+      "loss": 3.0516,
+      "num_input_tokens_seen": 21420088,
+      "step": 124
+    },
+    {
+      "epoch": 0.0495603517186251,
+      "loss": 3.4608333110809326,
+      "loss_ce": 1.2235286235809326,
+      "loss_xval": 2.234375,
+      "num_input_tokens_seen": 21420088,
+      "step": 124
+    },
+    {
+      "epoch": 0.04996003197442046,
+      "grad_norm": 198.95971382452228,
+      "learning_rate": 4.3723154153662725e-06,
+      "loss": 3.2876,
+      "num_input_tokens_seen": 21593120,
+      "step": 125
+    },
+    {
+      "epoch": 0.04996003197442046,
+      "loss": 3.0590901374816895,
+      "loss_ce": 1.2397539615631104,
+      "loss_xval": 1.8203125,
+      "num_input_tokens_seen": 21593120,
+      "step": 125
+    },
+    {
+      "epoch": 0.050359712230215826,
+      "grad_norm": 166.57226050726882,
+      "learning_rate": 4.379531050655295e-06,
+      "loss": 2.9623,
+      "num_input_tokens_seen": 21765976,
+      "step": 126
+    },
+    {
+      "epoch": 0.050359712230215826,
+      "loss": 2.768925666809082,
+      "loss_ce": 1.2347460985183716,
+      "loss_xval": 1.53125,
+      "num_input_tokens_seen": 21765976,
+      "step": 126
+    },
+    {
+      "epoch": 0.05075939248601119,
+      "grad_norm": 217.73765671883095,
+      "learning_rate": 4.386689644752683e-06,
+      "loss": 3.1025,
+      "num_input_tokens_seen": 21938808,
+      "step": 127
+    },
+    {
+      "epoch": 0.05075939248601119,
+      "loss": 2.747063159942627,
+      "loss_ce": 1.227287769317627,
+      "loss_xval": 1.5234375,
+      "num_input_tokens_seen": 21938808,
+      "step": 127
+    },
+    {
+      "epoch": 0.051159072741806554,
+      "grad_norm": 263.5829876068027,
+      "learning_rate": 4.3937920924360965e-06,
+      "loss": 3.3341,
+      "num_input_tokens_seen": 22111176,
+      "step": 128
+    },
+    {
+      "epoch": 0.051159072741806554,
+      "loss": 2.9254727363586426,
+      "loss_ce": 1.2174649238586426,
+      "loss_xval": 1.7109375,
+      "num_input_tokens_seen": 22111176,
+      "step": 128
+    },
+    {
+      "epoch": 0.05155875299760192,
+      "grad_norm": 279.6834850427316,
+      "learning_rate": 4.4008392675930185e-06,
+      "loss": 2.9818,
+      "num_input_tokens_seen": 22284392,
+      "step": 129
+    },
+    {
+      "epoch": 0.05155875299760192,
+      "loss": 2.40582275390625,
+      "loss_ce": 1.191955327987671,
+      "loss_xval": 1.2109375,
+      "num_input_tokens_seen": 22284392,
+      "step": 129
+    },
+    {
+      "epoch": 0.05195843325339728,
+      "grad_norm": 273.57321882538974,
+      "learning_rate": 4.407832023866027e-06,
+      "loss": 3.3854,
+      "num_input_tokens_seen": 22457544,
+      "step": 130
+    },
+    {
+      "epoch": 0.05195843325339728,
+      "loss": 3.0595662593841553,
+      "loss_ce": 1.2060506343841553,
+      "loss_xval": 1.8515625,
+      "num_input_tokens_seen": 22457544,
+      "step": 130
+    },
+    {
+      "epoch": 0.052358113509192644,
+      "grad_norm": 344.0145083356384,
+      "learning_rate": 4.414771195273343e-06,
+      "loss": 3.6465,
+      "num_input_tokens_seen": 22630440,
+      "step": 131
+    },
+    {
+      "epoch": 0.052358113509192644,
+      "loss": 4.122766971588135,
+      "loss_ce": 1.1769661903381348,
+      "loss_xval": 2.953125,
+      "num_input_tokens_seen": 22630440,
+      "step": 131
+    },
+    {
+      "epoch": 0.05275779376498801,
+      "grad_norm": 255.65466358822889,
+      "learning_rate": 4.421657596805787e-06,
+      "loss": 3.421,
+      "num_input_tokens_seen": 22803176,
+      "step": 132
+    },
+    {
+      "epoch": 0.05275779376498801,
+      "loss": 3.9519777297973633,
+      "loss_ce": 1.2005128860473633,
+      "loss_xval": 2.75,
+      "num_input_tokens_seen": 22803176,
+      "step": 132
+    },
+    {
+      "epoch": 0.05315747402078337,
+      "grad_norm": 267.6338664362621,
+      "learning_rate": 4.428492025001201e-06,
+      "loss": 3.2026,
+      "num_input_tokens_seen": 22976304,
+      "step": 133
+    },
+    {
+      "epoch": 0.05315747402078337,
+      "loss": 3.3537511825561523,
+      "loss_ce": 1.1672275066375732,
+      "loss_xval": 2.1875,
+      "num_input_tokens_seen": 22976304,
+      "step": 133
+    },
+    {
+      "epoch": 0.053557154276578735,
+      "grad_norm": 131.21776577343127,
+      "learning_rate": 4.435275258497362e-06,
+      "loss": 2.9131,
+      "num_input_tokens_seen": 23149344,
+      "step": 134
+    },
+    {
+      "epoch": 0.053557154276578735,
+      "loss": 3.031949520111084,
+      "loss_ce": 1.194547176361084,
+      "loss_xval": 1.8359375,
+      "num_input_tokens_seen": 23149344,
+      "step": 134
+    },
+    {
+      "epoch": 0.0539568345323741,
+      "grad_norm": 514.2271793073204,
+      "learning_rate": 4.442008058564339e-06,
+      "loss": 3.4785,
+      "num_input_tokens_seen": 23322352,
+      "step": 135
+    },
+    {
+      "epoch": 0.0539568345323741,
+      "loss": 3.484752655029297,
+      "loss_ce": 1.1751822233200073,
+      "loss_xval": 2.3125,
+      "num_input_tokens_seen": 23322352,
+      "step": 135
+    },
+    {
+      "epoch": 0.05435651478816946,
+      "grad_norm": 163.1858947105468,
+      "learning_rate": 4.448691169617202e-06,
+      "loss": 3.0443,
+      "num_input_tokens_seen": 23495392,
+      "step": 136
+    },
+    {
+      "epoch": 0.05435651478816946,
+      "loss": 2.978681802749634,
+      "loss_ce": 1.1910841464996338,
+      "loss_xval": 1.7890625,
+      "num_input_tokens_seen": 23495392,
+      "step": 136
+    },
+    {
+      "epoch": 0.054756195043964825,
+      "grad_norm": 453.2241878703702,
+      "learning_rate": 4.455325319709954e-06,
+      "loss": 3.0782,
+      "num_input_tokens_seen": 23667952,
+      "step": 137
+    },
+    {
+      "epoch": 0.054756195043964825,
+      "loss": 3.2870519161224365,
+      "loss_ce": 1.1347081661224365,
+      "loss_xval": 2.15625,
+      "num_input_tokens_seen": 23667952,
+      "step": 137
+    },
+    {
+      "epoch": 0.05515587529976019,
+      "grad_norm": 130.18513835393406,
+      "learning_rate": 4.461911221011503e-06,
+      "loss": 2.5414,
+      "num_input_tokens_seen": 23840968,
+      "step": 138
+    },
+    {
+      "epoch": 0.05515587529976019,
+      "loss": 2.4765074253082275,
+      "loss_ce": 1.1742613315582275,
+      "loss_xval": 1.3046875,
+      "num_input_tokens_seen": 23840968,
+      "step": 138
+    },
+    {
+      "epoch": 0.05555555555555555,
+      "grad_norm": 458.0524797809028,
+      "learning_rate": 4.468449570264441e-06,
+      "loss": 3.1261,
+      "num_input_tokens_seen": 24013976,
+      "step": 139
+    },
+    {
+      "epoch": 0.05555555555555555,
+      "loss": 3.3846635818481445,
+      "loss_ce": 1.151753306388855,
+      "loss_xval": 2.234375,
+      "num_input_tokens_seen": 24013976,
+      "step": 139
+    },
+    {
+      "epoch": 0.055955235811350916,
+      "grad_norm": 128.72335328013372,
+      "learning_rate": 4.474941049227392e-06,
+      "loss": 3.1837,
+      "num_input_tokens_seen": 24186640,
+      "step": 140
+    },
+    {
+      "epoch": 0.055955235811350916,
+      "loss": 2.599513053894043,
+      "loss_ce": 1.1634780168533325,
+      "loss_xval": 1.4375,
+      "num_input_tokens_seen": 24186640,
+      "step": 140
+    },
+    {
+      "epoch": 0.05635491606714628,
+      "grad_norm": 426.5509683313082,
+      "learning_rate": 4.481386325101608e-06,
+      "loss": 3.1009,
+      "num_input_tokens_seen": 24360088,
+      "step": 141
+    },
+    {
+      "epoch": 0.05635491606714628,
+      "loss": 2.746947765350342,
+      "loss_ce": 1.1336662769317627,
+      "loss_xval": 1.609375,
+      "num_input_tokens_seen": 24360088,
+      "step": 141
+    },
+    {
+      "epoch": 0.05675459632294165,
+      "grad_norm": 139.1436086661555,
+      "learning_rate": 4.487786050942491e-06,
+      "loss": 2.714,
+      "num_input_tokens_seen": 24533144,
+      "step": 142
+    },
+    {
+      "epoch": 0.05675459632294165,
+      "loss": 2.8101062774658203,
+      "loss_ce": 1.1851062774658203,
+      "loss_xval": 1.625,
+      "num_input_tokens_seen": 24533144,
+      "step": 142
+    },
+    {
+      "epoch": 0.057154276578737014,
+      "grad_norm": 259.8648252836964,
+      "learning_rate": 4.494140866056678e-06,
+      "loss": 3.2545,
+      "num_input_tokens_seen": 24705472,
+      "step": 143
+    },
+    {
+      "epoch": 0.057154276578737014,
+      "loss": 3.093147039413452,
+      "loss_ce": 1.1615064144134521,
+      "loss_xval": 1.9296875,
+      "num_input_tokens_seen": 24705472,
+      "step": 143
+    },
+    {
+      "epoch": 0.05755395683453238,
+      "grad_norm": 188.67765026700243,
+      "learning_rate": 4.5004513963853e-06,
+      "loss": 3.1569,
+      "num_input_tokens_seen": 24878424,
+      "step": 144
+    },
+    {
+      "epoch": 0.05755395683453238,
+      "loss": 3.5168557167053223,
+      "loss_ce": 1.1731057167053223,
+      "loss_xval": 2.34375,
+      "num_input_tokens_seen": 24878424,
+      "step": 144
+    },
+    {
+      "epoch": 0.05795363709032774,
+      "grad_norm": 128.55755169702456,
+      "learning_rate": 4.506718254873952e-06,
+      "loss": 2.8533,
+      "num_input_tokens_seen": 25051392,
+      "step": 145
+    },
+    {
+      "epoch": 0.05795363709032774,
+      "loss": 3.2004616260528564,
+      "loss_ce": 1.1936256885528564,
+      "loss_xval": 2.0,
+      "num_input_tokens_seen": 25051392,
+      "step": 145
+    },
+    {
+      "epoch": 0.058353317346123104,
+      "grad_norm": 178.2596345349547,
+      "learning_rate": 4.5129420418299804e-06,
+      "loss": 2.5044,
+      "num_input_tokens_seen": 25221360,
+      "step": 146
+    },
+    {
+      "epoch": 0.058353317346123104,
+      "loss": 2.6224756240844727,
+      "loss_ce": 1.1561671495437622,
+      "loss_xval": 1.46875,
+      "num_input_tokens_seen": 25221360,
+      "step": 146
+    },
+    {
+      "epoch": 0.05875299760191847,
+      "grad_norm": 109.70621446733796,
+      "learning_rate": 4.519123345267552e-06,
+      "loss": 2.6378,
+      "num_input_tokens_seen": 25394160,
+      "step": 147
+    },
+    {
+      "epoch": 0.05875299760191847,
+      "loss": 3.004621982574463,
+      "loss_ce": 1.1469557285308838,
+      "loss_xval": 1.859375,
+      "num_input_tokens_seen": 25394160,
+      "step": 147
+    },
+    {
+      "epoch": 0.05915267785771383,
+      "grad_norm": 145.08135486046965,
+      "learning_rate": 4.52526274124104e-06,
+      "loss": 2.9199,
+      "num_input_tokens_seen": 25566928,
+      "step": 148
+    },
+    {
+      "epoch": 0.05915267785771383,
+      "loss": 3.229592800140381,
+      "loss_ce": 1.1158232688903809,
+      "loss_xval": 2.109375,
+      "num_input_tokens_seen": 25566928,
+      "step": 148
+    },
+    {
+      "epoch": 0.059552358113509195,
+      "grad_norm": 92.14531111691825,
+      "learning_rate": 4.5313607941671774e-06,
+      "loss": 2.3757,
+      "num_input_tokens_seen": 25739848,
+      "step": 149
+    },
+    {
+      "epoch": 0.059552358113509195,
+      "loss": 2.58808970451355,
+      "loss_ce": 1.1012732982635498,
+      "loss_xval": 1.484375,
+      "num_input_tokens_seen": 25739848,
+      "step": 149
+    },
+    {
+      "epoch": 0.05995203836930456,
+      "grad_norm": 218.825158302032,
+      "learning_rate": 4.537418057136436e-06,
+      "loss": 3.0667,
+      "num_input_tokens_seen": 25913056,
+      "step": 150
+    },
+    {
+      "epoch": 0.05995203836930456,
+      "loss": 2.9010426998138428,
+      "loss_ce": 1.0685231685638428,
+      "loss_xval": 1.8359375,
+      "num_input_tokens_seen": 25913056,
+      "step": 150
+    },
+    {
+      "epoch": 0.06035171862509992,
+      "grad_norm": 192.8732197306815,
+      "learning_rate": 4.54343507221407e-06,
+      "loss": 2.8767,
+      "num_input_tokens_seen": 26086456,
+      "step": 151
+    },
+    {
+      "epoch": 0.06035171862509992,
+      "loss": 2.9303150177001953,
+      "loss_ce": 1.0826586484909058,
+      "loss_xval": 1.84375,
+      "num_input_tokens_seen": 26086456,
+      "step": 151
+    },
+    {
+      "epoch": 0.060751398880895285,
+      "grad_norm": 116.65432798476725,
+      "learning_rate": 4.549412370731207e-06,
+      "loss": 2.8269,
+      "num_input_tokens_seen": 26259336,
+      "step": 152
+    },
+    {
+      "epoch": 0.060751398880895285,
+      "loss": 2.606137752532959,
+      "loss_ce": 1.0680519342422485,
+      "loss_xval": 1.5390625,
+      "num_input_tokens_seen": 26259336,
+      "step": 152
+    },
+    {
+      "epoch": 0.06115107913669065,
+      "grad_norm": 129.79247278384622,
+      "learning_rate": 4.555350473566405e-06,
+      "loss": 2.6485,
+      "num_input_tokens_seen": 26432320,
+      "step": 153
+    },
+    {
+      "epoch": 0.06115107913669065,
+      "loss": 2.66135573387146,
+      "loss_ce": 1.0431914329528809,
+      "loss_xval": 1.6171875,
+      "num_input_tokens_seen": 26432320,
+      "step": 153
+    },
+    {
+      "epoch": 0.06155075939248601,
+      "grad_norm": 255.33644741357125,
+      "learning_rate": 4.561249891418045e-06,
+      "loss": 2.6596,
+      "num_input_tokens_seen": 26605232,
+      "step": 154
+    },
+    {
+      "epoch": 0.06155075939248601,
+      "loss": 2.2152175903320312,
+      "loss_ce": 1.0363845825195312,
+      "loss_xval": 1.1796875,
+      "num_input_tokens_seen": 26605232,
+      "step": 154
+    },
+    {
+      "epoch": 0.061950439648281376,
+      "grad_norm": 326.2132881570226,
+      "learning_rate": 4.567111125067892e-06,
+      "loss": 3.1065,
+      "num_input_tokens_seen": 26778160,
+      "step": 155
+    },
+    {
+      "epoch": 0.061950439648281376,
+      "loss": 2.977107524871826,
+      "loss_ce": 1.0156819820404053,
+      "loss_xval": 1.9609375,
+      "num_input_tokens_seen": 26778160,
+      "step": 155
+    },
+    {
+      "epoch": 0.06235011990407674,
+      "grad_norm": 178.37054244023707,
+      "learning_rate": 4.572934665636191e-06,
+      "loss": 2.8082,
+      "num_input_tokens_seen": 26951312,
+      "step": 156
+    },
+    {
+      "epoch": 0.06235011990407674,
+      "loss": 3.033820390701294,
+      "loss_ce": 0.995246171951294,
+      "loss_xval": 2.03125,
+      "num_input_tokens_seen": 26951312,
+      "step": 156
+    },
+    {
+      "epoch": 0.0627498001598721,
+      "grad_norm": 240.25091369114222,
+      "learning_rate": 4.578720994828615e-06,
+      "loss": 2.8172,
+      "num_input_tokens_seen": 27124296,
+      "step": 157
+    },
+    {
+      "epoch": 0.0627498001598721,
+      "loss": 2.7480130195617676,
+      "loss_ce": 0.9975247383117676,
+      "loss_xval": 1.75,
+      "num_input_tokens_seen": 27124296,
+      "step": 157
+    },
+    {
+      "epoch": 0.06314948041566747,
+      "grad_norm": 299.6531392086124,
+      "learning_rate": 4.584470585175365e-06,
+      "loss": 3.137,
+      "num_input_tokens_seen": 27297296,
+      "step": 158
+    },
+    {
+      "epoch": 0.06314948041566747,
+      "loss": 3.1829733848571777,
+      "loss_ce": 0.9749656915664673,
+      "loss_xval": 2.203125,
+      "num_input_tokens_seen": 27297296,
+      "step": 158
+    },
+    {
+      "epoch": 0.06354916067146282,
+      "grad_norm": 236.05049498447235,
+      "learning_rate": 4.59018390026273e-06,
+      "loss": 2.7418,
+      "num_input_tokens_seen": 27470144,
+      "step": 159
+    },
+    {
+      "epoch": 0.06354916067146282,
+      "loss": 2.5435566902160645,
+      "loss_ce": 0.991310715675354,
+      "loss_xval": 1.5546875,
+      "num_input_tokens_seen": 27470144,
+      "step": 159
+    },
+    {
+      "epoch": 0.0639488409272582,
+      "grad_norm": 245.1500933668583,
+      "learning_rate": 4.595861394957398e-06,
+      "loss": 2.7991,
+      "num_input_tokens_seen": 27643168,
+      "step": 160
+    },
+    {
+      "epoch": 0.0639488409272582,
+      "loss": 2.7963478565216064,
+      "loss_ce": 1.0024025440216064,
+      "loss_xval": 1.796875,
+      "num_input_tokens_seen": 27643168,
+      "step": 160
+    },
+    {
+      "epoch": 0.06434852118305355,
+      "grad_norm": 269.6347230509653,
+      "learning_rate": 4.601503515623759e-06,
+      "loss": 2.5151,
+      "num_input_tokens_seen": 27816264,
+      "step": 161
+    },
+    {
+      "epoch": 0.06434852118305355,
+      "loss": 2.5006017684936523,
+      "loss_ce": 1.0118319988250732,
+      "loss_xval": 1.4921875,
+      "num_input_tokens_seen": 27816264,
+      "step": 161
+    },
+    {
+      "epoch": 0.06474820143884892,
+      "grad_norm": 375.92850399502834,
+      "learning_rate": 4.607110700334503e-06,
+      "loss": 2.925,
+      "num_input_tokens_seen": 27988768,
+      "step": 162
+    },
+    {
+      "epoch": 0.06474820143884892,
+      "loss": 3.5245378017425537,
+      "loss_ce": 0.9766863584518433,
+      "loss_xval": 2.546875,
+      "num_input_tokens_seen": 27988768,
+      "step": 162
+    },
+    {
+      "epoch": 0.06514788169464429,
+      "grad_norm": 126.56545474069529,
+      "learning_rate": 4.6126833790747175e-06,
+      "loss": 3.1895,
+      "num_input_tokens_seen": 28161192,
+      "step": 163
+    },
+    {
+      "epoch": 0.06514788169464429,
+      "loss": 2.75604248046875,
+      "loss_ce": 0.9889528155326843,
+      "loss_xval": 1.765625,
+      "num_input_tokens_seen": 28161192,
+      "step": 163
+    },
+    {
+      "epoch": 0.06554756195043965,
+      "grad_norm": 293.2841730627708,
+      "learning_rate": 4.618221973939755e-06,
+      "loss": 3.0304,
+      "num_input_tokens_seen": 28334152,
+      "step": 164
+    },
+    {
+      "epoch": 0.06554756195043965,
+      "loss": 3.074063777923584,
+      "loss_ce": 1.013517141342163,
+      "loss_xval": 2.0625,
+      "num_input_tokens_seen": 28334152,
+      "step": 164
+    },
+    {
+      "epoch": 0.06594724220623502,
+      "grad_norm": 93.69476386555672,
+      "learning_rate": 4.623726899327088e-06,
+      "loss": 2.5372,
+      "num_input_tokens_seen": 28507128,
+      "step": 165
+    },
+    {
+      "epoch": 0.06594724220623502,
+      "loss": 2.73991322517395,
+      "loss_ce": 0.991866409778595,
+      "loss_xval": 1.75,
+      "num_input_tokens_seen": 28507128,
+      "step": 165
+    },
+    {
+      "epoch": 0.06634692246203037,
+      "grad_norm": 354.54679439550654,
+      "learning_rate": 4.629198562122361e-06,
+      "loss": 3.1533,
+      "num_input_tokens_seen": 28679696,
+      "step": 166
+    },
+    {
+      "epoch": 0.06634692246203037,
+      "loss": 3.6342062950134277,
+      "loss_ce": 0.9945579171180725,
+      "loss_xval": 2.640625,
+      "num_input_tokens_seen": 28679696,
+      "step": 166
+    },
+    {
+      "epoch": 0.06674660271782575,
+      "grad_norm": 142.92356385134568,
+      "learning_rate": 4.63463736187985e-06,
+      "loss": 2.6586,
+      "num_input_tokens_seen": 28852824,
+      "step": 167
+    },
+    {
+      "epoch": 0.06674660271782575,
+      "loss": 2.430410623550415,
+      "loss_ce": 0.9899808764457703,
+      "loss_xval": 1.4375,
+      "num_input_tokens_seen": 28852824,
+      "step": 167
+    },
+    {
+      "epoch": 0.0671462829736211,
+      "grad_norm": 454.4623707108821,
+      "learning_rate": 4.640043690997557e-06,
+      "loss": 3.096,
+      "num_input_tokens_seen": 29025240,
+      "step": 168
+    },
+    {
+      "epoch": 0.0671462829736211,
+      "loss": 3.01880145072937,
+      "loss_ce": 0.9689967632293701,
+      "loss_xval": 2.046875,
+      "num_input_tokens_seen": 29025240,
+      "step": 168
+    },
+    {
+      "epoch": 0.06754596322941647,
+      "grad_norm": 157.19975275134112,
+      "learning_rate": 4.645417934887083e-06,
+      "loss": 2.986,
+      "num_input_tokens_seen": 29198016,
+      "step": 169
+    },
+    {
+      "epoch": 0.06754596322941647,
+      "loss": 3.3017961978912354,
+      "loss_ce": 0.9551164507865906,
+      "loss_xval": 2.34375,
+      "num_input_tokens_seen": 29198016,
+      "step": 169
+    },
+    {
+      "epoch": 0.06794564348521183,
+      "grad_norm": 550.0943331937483,
+      "learning_rate": 4.650760472138503e-06,
+      "loss": 3.3266,
+      "num_input_tokens_seen": 29371016,
+      "step": 170
+    },
+    {
+      "epoch": 0.06794564348521183,
+      "loss": 3.0751547813415527,
+      "loss_ce": 0.9765218496322632,
+      "loss_xval": 2.09375,
+      "num_input_tokens_seen": 29371016,
+      "step": 170
+    },
+    {
+      "epoch": 0.0683453237410072,
+      "grad_norm": 156.04590864267016,
+      "learning_rate": 4.65607167468041e-06,
+      "loss": 2.5659,
+      "num_input_tokens_seen": 29544104,
+      "step": 171
+    },
+    {
+      "epoch": 0.0683453237410072,
+      "loss": 2.807107925415039,
+      "loss_ce": 0.9848423004150391,
+      "loss_xval": 1.8203125,
+      "num_input_tokens_seen": 29544104,
+      "step": 171
+    },
+    {
+      "epoch": 0.06874500399680256,
+      "grad_norm": 387.04024961883766,
+      "learning_rate": 4.66135190793528e-06,
+      "loss": 2.8385,
+      "num_input_tokens_seen": 29717344,
+      "step": 172
+    },
+    {
+      "epoch": 0.06874500399680256,
+      "loss": 2.743061065673828,
+      "loss_ce": 0.9437446594238281,
+      "loss_xval": 1.796875,
+      "num_input_tokens_seen": 29717344,
+      "step": 172
+    },
+    {
+      "epoch": 0.06914468425259793,
+      "grad_norm": 352.2869774460929,
+      "learning_rate": 4.666601530970348e-06,
+      "loss": 2.9918,
+      "num_input_tokens_seen": 29890248,
+      "step": 173
+    },
+    {
+      "epoch": 0.06914468425259793,
+      "loss": 3.1348328590393066,
+      "loss_ce": 1.016424536705017,
+      "loss_xval": 2.125,
+      "num_input_tokens_seen": 29890248,
+      "step": 173
+    },
+    {
+      "epoch": 0.06954436450839328,
+      "grad_norm": 373.6882053758428,
+      "learning_rate": 4.671820896644117e-06,
+      "loss": 2.6598,
+      "num_input_tokens_seen": 30063288,
+      "step": 174
+    },
+    {
+      "epoch": 0.06954436450839328,
+      "loss": 3.382646083831787,
+      "loss_ce": 0.938309907913208,
+      "loss_xval": 2.4375,
+      "num_input_tokens_seen": 30063288,
+      "step": 174
+    },
+    {
+      "epoch": 0.06994404476418865,
+      "grad_norm": 377.7377688158846,
+      "learning_rate": 4.677010351748694e-06,
+      "loss": 3.2057,
+      "num_input_tokens_seen": 30236256,
+      "step": 175
+    },
+    {
+      "epoch": 0.06994404476418865,
+      "loss": 3.4559521675109863,
+      "loss_ce": 0.8954052925109863,
+      "loss_xval": 2.5625,
+      "num_input_tokens_seen": 30236256,
+      "step": 175
+    },
+    {
+      "epoch": 0.07034372501998401,
+      "grad_norm": 498.3446583121999,
+      "learning_rate": 4.68217023714805e-06,
+      "loss": 3.3281,
+      "num_input_tokens_seen": 30408968,
+      "step": 176
+    },
+    {
+      "epoch": 0.07034372501998401,
+      "loss": 4.02139139175415,
+      "loss_ce": 0.8622116446495056,
+      "loss_xval": 3.15625,
+      "num_input_tokens_seen": 30408968,
+      "step": 176
+    },
+    {
+      "epoch": 0.07074340527577938,
+      "grad_norm": 108.56714493238096,
+      "learning_rate": 4.687300887912368e-06,
+      "loss": 2.1292,
+      "num_input_tokens_seen": 30581920,
+      "step": 177
+    },
+    {
+      "epoch": 0.07074340527577938,
+      "loss": 2.317440986633301,
+      "loss_ce": 0.8511323928833008,
+      "loss_xval": 1.46875,
+      "num_input_tokens_seen": 30581920,
+      "step": 177
+    },
+    {
+      "epoch": 0.07114308553157474,
+      "grad_norm": 256.71895728118574,
+      "learning_rate": 4.692402633448618e-06,
+      "loss": 2.7499,
+      "num_input_tokens_seen": 30754880,
+      "step": 178
+    },
+    {
+      "epoch": 0.07114308553157474,
+      "loss": 2.346262216567993,
+      "loss_ce": 0.8692113757133484,
+      "loss_xval": 1.4765625,
+      "num_input_tokens_seen": 30754880,
+      "step": 178
+    },
+    {
+      "epoch": 0.07154276578737011,
+      "grad_norm": 110.25625300038342,
+      "learning_rate": 4.6974757976274554e-06,
+      "loss": 2.7188,
+      "num_input_tokens_seen": 30927928,
+      "step": 179
+    },
+    {
+      "epoch": 0.07154276578737011,
+      "loss": 2.735156774520874,
+      "loss_ce": 0.925098180770874,
+      "loss_xval": 1.8125,
+      "num_input_tokens_seen": 30927928,
+      "step": 179
+    },
+    {
+      "epoch": 0.07194244604316546,
+      "grad_norm": 262.0838823954474,
+      "learning_rate": 4.702520698906601e-06,
+      "loss": 2.5287,
+      "num_input_tokens_seen": 31100800,
+      "step": 180
+    },
+    {
+      "epoch": 0.07194244604316546,
+      "loss": 2.8189706802368164,
+      "loss_ce": 0.9381113052368164,
+      "loss_xval": 1.8828125,
+      "num_input_tokens_seen": 31100800,
+      "step": 180
+    },
+    {
+      "epoch": 0.07234212629896083,
+      "grad_norm": 156.72323945008685,
+      "learning_rate": 4.707537650450795e-06,
+      "loss": 2.6636,
+      "num_input_tokens_seen": 31274032,
+      "step": 181
+    },
+    {
+      "epoch": 0.07234212629896083,
+      "loss": 2.460793972015381,
+      "loss_ce": 0.9273467063903809,
+      "loss_xval": 1.53125,
+      "num_input_tokens_seen": 31274032,
+      "step": 181
+    },
+    {
+      "epoch": 0.07274180655475619,
+      "grad_norm": 128.82580048107164,
+      "learning_rate": 4.712526960248448e-06,
+      "loss": 2.5592,
+      "num_input_tokens_seen": 31447248,
+      "step": 182
+    },
+    {
+      "epoch": 0.07274180655475619,
+      "loss": 3.2276525497436523,
+      "loss_ce": 0.9224766492843628,
+      "loss_xval": 2.3125,
+      "num_input_tokens_seen": 31447248,
+      "step": 182
+    },
+    {
+      "epoch": 0.07314148681055156,
+      "grad_norm": 158.11940464942924,
+      "learning_rate": 4.717488931225096e-06,
+      "loss": 2.8079,
+      "num_input_tokens_seen": 31619912,
+      "step": 183
+    },
+    {
+      "epoch": 0.07314148681055156,
+      "loss": 2.667755603790283,
+      "loss_ce": 0.7932440042495728,
+      "loss_xval": 1.875,
+      "num_input_tokens_seen": 31619912,
+      "step": 183
+    },
+    {
+      "epoch": 0.07354116706634692,
+      "grad_norm": 182.92862063987715,
+      "learning_rate": 4.722423861353765e-06,
+      "loss": 2.5388,
+      "num_input_tokens_seen": 31789160,
+      "step": 184
+    },
+    {
+      "epoch": 0.07354116706634692,
+      "loss": 2.344510555267334,
+      "loss_ce": 0.750760555267334,
+      "loss_xval": 1.59375,
+      "num_input_tokens_seen": 31789160,
+      "step": 184
+    },
+    {
+      "epoch": 0.07394084732214229,
+      "grad_norm": 219.64439189932665,
+      "learning_rate": 4.7273320437623414e-06,
+      "loss": 2.2814,
+      "num_input_tokens_seen": 31961976,
+      "step": 185
+    },
+    {
+      "epoch": 0.07394084732214229,
+      "loss": 2.476329803466797,
+      "loss_ce": 0.7595328688621521,
+      "loss_xval": 1.71875,
+      "num_input_tokens_seen": 31961976,
+      "step": 185
+    },
+    {
+      "epoch": 0.07434052757793765,
+      "grad_norm": 99.98395758538393,
+      "learning_rate": 4.7322137668380565e-06,
+      "loss": 2.3144,
+      "num_input_tokens_seen": 32135048,
+      "step": 186
+    },
+    {
+      "epoch": 0.07434052757793765,
+      "loss": 2.1182146072387695,
+      "loss_ce": 0.8057146072387695,
+      "loss_xval": 1.3125,
+      "num_input_tokens_seen": 32135048,
+      "step": 186
+    },
+    {
+      "epoch": 0.07474020783373302,
+      "grad_norm": 221.2636081842405,
+      "learning_rate": 4.737069314329155e-06,
+      "loss": 2.5043,
+      "num_input_tokens_seen": 32307616,
+      "step": 187
+    },
+    {
+      "epoch": 0.07474020783373302,
+      "loss": 2.7484989166259766,
+      "loss_ce": 0.8300418853759766,
+      "loss_xval": 1.921875,
+      "num_input_tokens_seen": 32307616,
+      "step": 187
+    },
+    {
+      "epoch": 0.07513988808952837,
+      "grad_norm": 131.12741561544465,
+      "learning_rate": 4.7418989654438705e-06,
+      "loss": 2.515,
+      "num_input_tokens_seen": 32480272,
+      "step": 188
+    },
+    {
+      "epoch": 0.07513988808952837,
+      "loss": 2.4454233646392822,
+      "loss_ce": 0.8226206302642822,
+      "loss_xval": 1.625,
+      "num_input_tokens_seen": 32480272,
+      "step": 188
+    },
+    {
+      "epoch": 0.07553956834532374,
+      "grad_norm": 180.84951677755777,
+      "learning_rate": 4.746702994946761e-06,
+      "loss": 2.3479,
+      "num_input_tokens_seen": 32653328,
+      "step": 189
+    },
+    {
+      "epoch": 0.07553956834532374,
+      "loss": 2.8146772384643555,
+      "loss_ce": 0.8351851105690002,
+      "loss_xval": 1.9765625,
+      "num_input_tokens_seen": 32653328,
+      "step": 189
+    },
+    {
+      "epoch": 0.0759392486011191,
+      "grad_norm": 160.96373059065317,
+      "learning_rate": 4.751481673252507e-06,
+      "loss": 2.678,
+      "num_input_tokens_seen": 32826176,
+      "step": 190
+    },
+    {
+      "epoch": 0.0759392486011191,
+      "loss": 2.8481264114379883,
+      "loss_ce": 0.8188296556472778,
+      "loss_xval": 2.03125,
+      "num_input_tokens_seen": 32826176,
+      "step": 190
+    },
+    {
+      "epoch": 0.07633892885691447,
+      "grad_norm": 121.61672489552205,
+      "learning_rate": 4.756235266517256e-06,
+      "loss": 2.3304,
+      "num_input_tokens_seen": 32999312,
+      "step": 191
+    },
+    {
+      "epoch": 0.07633892885691447,
+      "loss": 2.3364672660827637,
+      "loss_ce": 0.7788498997688293,
+      "loss_xval": 1.5546875,
+      "num_input_tokens_seen": 32999312,
+      "step": 191
+    },
+    {
+      "epoch": 0.07673860911270983,
+      "grad_norm": 130.32186035710663,
+      "learning_rate": 4.7609640367275626e-06,
+      "loss": 2.2134,
+      "num_input_tokens_seen": 33172008,
+      "step": 192
+    },
+    {
+      "epoch": 0.07673860911270983,
+      "loss": 1.7896391153335571,
+      "loss_ce": 0.7471586465835571,
+      "loss_xval": 1.0390625,
+      "num_input_tokens_seen": 33172008,
+      "step": 192
+    },
+    {
+      "epoch": 0.0771382893685052,
+      "grad_norm": 143.76906168760766,
+      "learning_rate": 4.765668241787041e-06,
+      "loss": 2.4567,
+      "num_input_tokens_seen": 33344800,
+      "step": 193
+    },
+    {
+      "epoch": 0.0771382893685052,
+      "loss": 2.387838840484619,
+      "loss_ce": 0.82729172706604,
+      "loss_xval": 1.5625,
+      "num_input_tokens_seen": 33344800,
+      "step": 193
+    },
+    {
+      "epoch": 0.07753796962430055,
+      "grad_norm": 127.81565220139322,
+      "learning_rate": 4.770348135600763e-06,
+      "loss": 2.77,
+      "num_input_tokens_seen": 33517848,
+      "step": 194
+    },
+    {
+      "epoch": 0.07753796962430055,
+      "loss": 2.490429401397705,
+      "loss_ce": 0.7819331884384155,
+      "loss_xval": 1.7109375,
+      "num_input_tokens_seen": 33517848,
+      "step": 194
+    },
+    {
+      "epoch": 0.07793764988009592,
+      "grad_norm": 138.22926534009375,
+      "learning_rate": 4.775003968157493e-06,
+      "loss": 2.1771,
+      "num_input_tokens_seen": 33690816,
+      "step": 195
+    },
+    {
+      "epoch": 0.07793764988009592,
+      "loss": 1.85850191116333,
+      "loss_ce": 0.7606015801429749,
+      "loss_xval": 1.1015625,
+      "num_input_tokens_seen": 33690816,
+      "step": 195
+    },
+    {
+      "epoch": 0.07833733013589128,
+      "grad_norm": 202.1418801789714,
+      "learning_rate": 4.779635985609814e-06,
+      "loss": 2.3614,
+      "num_input_tokens_seen": 33864144,
+      "step": 196
+    },
+    {
+      "epoch": 0.07833733013589128,
+      "loss": 2.429080009460449,
+      "loss_ce": 0.794070303440094,
+      "loss_xval": 1.6328125,
+      "num_input_tokens_seen": 33864144,
+      "step": 196
+    },
+    {
+      "epoch": 0.07873701039168665,
+      "grad_norm": 167.9534199119472,
+      "learning_rate": 4.784244430352227e-06,
+      "loss": 2.1861,
+      "num_input_tokens_seen": 34036976,
+      "step": 197
+    },
+    {
+      "epoch": 0.07873701039168665,
+      "loss": 2.099493980407715,
+      "loss_ce": 0.7598943710327148,
+      "loss_xval": 1.3359375,
+      "num_input_tokens_seen": 34036976,
+      "step": 197
+    },
+    {
+      "epoch": 0.07913669064748201,
+      "grad_norm": 177.86964362591564,
+      "learning_rate": 4.788829541097253e-06,
+      "loss": 2.3694,
+      "num_input_tokens_seen": 34209880,
+      "step": 198
+    },
+    {
+      "epoch": 0.07913669064748201,
+      "loss": 2.0491485595703125,
+      "loss_ce": 0.7351836562156677,
+      "loss_xval": 1.3125,
+      "num_input_tokens_seen": 34209880,
+      "step": 198
+    },
+    {
+      "epoch": 0.07953637090327738,
+      "grad_norm": 95.02167898698566,
+      "learning_rate": 4.793391552949641e-06,
+      "loss": 2.102,
+      "num_input_tokens_seen": 34382608,
+      "step": 199
+    },
+    {
+      "epoch": 0.07953637090327738,
+      "loss": 2.334108829498291,
+      "loss_ce": 0.6905540227890015,
+      "loss_xval": 1.640625,
+      "num_input_tokens_seen": 34382608,
+      "step": 199
+    },
+    {
+      "epoch": 0.07993605115907274,
+      "grad_norm": 168.91885358506565,
+      "learning_rate": 4.797930697478699e-06,
+      "loss": 2.0532,
+      "num_input_tokens_seen": 34555560,
+      "step": 200
+    },
+    {
+      "epoch": 0.07993605115907274,
+      "loss": 2.0277481079101562,
+      "loss_ce": 0.6434707641601562,
+      "loss_xval": 1.3828125,
+      "num_input_tokens_seen": 34555560,
+      "step": 200
+    },
+    {
+      "epoch": 0.0803357314148681,
+      "grad_norm": 351.41292703035435,
+      "learning_rate": 4.802447202788829e-06,
+      "loss": 2.9673,
+      "num_input_tokens_seen": 34728224,
+      "step": 201
+    },
+    {
+      "epoch": 0.0803357314148681,
+      "loss": 3.7609810829162598,
+      "loss_ce": 0.6657663583755493,
+      "loss_xval": 3.09375,
+      "num_input_tokens_seen": 34728224,
+      "step": 201
+    },
+    {
+      "epoch": 0.08073541167066348,
+      "grad_norm": 442.343019639602,
+      "learning_rate": 4.806941293588307e-06,
+      "loss": 2.691,
+      "num_input_tokens_seen": 34901368,
+      "step": 202
+    },
+    {
+      "epoch": 0.08073541167066348,
+      "loss": 2.485349178314209,
+      "loss_ce": 0.7714818716049194,
+      "loss_xval": 1.7109375,
+      "num_input_tokens_seen": 34901368,
+      "step": 202
+    },
+    {
+      "epoch": 0.08113509192645883,
+      "grad_norm": 132.89620507776843,
+      "learning_rate": 4.8114131912563735e-06,
+      "loss": 2.0727,
+      "num_input_tokens_seen": 35074232,
+      "step": 203
+    },
+    {
+      "epoch": 0.08113509192645883,
+      "loss": 2.1044516563415527,
+      "loss_ce": 0.7382407784461975,
+      "loss_xval": 1.3671875,
+      "num_input_tokens_seen": 35074232,
+      "step": 203
+    },
+    {
+      "epoch": 0.0815347721822542,
+      "grad_norm": 348.2140794906234,
+      "learning_rate": 4.815863113908667e-06,
+      "loss": 2.3281,
+      "num_input_tokens_seen": 35247568,
+      "step": 204
+    },
+    {
+      "epoch": 0.0815347721822542,
+      "loss": 2.4087095260620117,
+      "loss_ce": 0.7719906568527222,
+      "loss_xval": 1.640625,
+      "num_input_tokens_seen": 35247568,
+      "step": 204
+    },
+    {
+      "epoch": 0.08193445243804956,
+      "grad_norm": 85.7039982973391,
+      "learning_rate": 4.8202912764610565e-06,
+      "loss": 2.7482,
+      "num_input_tokens_seen": 35417112,
+      "step": 205
+    },
+    {
+      "epoch": 0.08193445243804956,
+      "loss": 2.6601197719573975,
+      "loss_ce": 0.737268328666687,
+      "loss_xval": 1.921875,
+      "num_input_tokens_seen": 35417112,
+      "step": 205
+    },
+    {
+      "epoch": 0.08233413269384493,
+      "grad_norm": 356.1569878617076,
+      "learning_rate": 4.82469789069193e-06,
+      "loss": 2.7038,
+      "num_input_tokens_seen": 35589848,
+      "step": 206
+    },
+    {
+      "epoch": 0.08233413269384493,
+      "loss": 2.493128538131714,
+      "loss_ce": 0.7455699443817139,
+      "loss_xval": 1.75,
+      "num_input_tokens_seen": 35589848,
+      "step": 206
+    },
+    {
+      "epoch": 0.08273381294964029,
+      "grad_norm": 138.50940557588262,
+      "learning_rate": 4.829083165302968e-06,
+      "loss": 2.0245,
+      "num_input_tokens_seen": 35762768,
+      "step": 207
+    },
+    {
+      "epoch": 0.08273381294964029,
+      "loss": 1.909895658493042,
+      "loss_ce": 0.7660967111587524,
+      "loss_xval": 1.140625,
+      "num_input_tokens_seen": 35762768,
+      "step": 207
+    },
+    {
+      "epoch": 0.08313349320543566,
+      "grad_norm": 525.8835783623617,
+      "learning_rate": 4.833447305978453e-06,
+      "loss": 2.669,
+      "num_input_tokens_seen": 35935712,
+      "step": 208
+    },
+    {
+      "epoch": 0.08313349320543566,
+      "loss": 2.8658926486968994,
+      "loss_ce": 0.741869330406189,
+      "loss_xval": 2.125,
+      "num_input_tokens_seen": 35935712,
+      "step": 208
+    },
+    {
+      "epoch": 0.08353317346123101,
+      "grad_norm": 117.03141921519646,
+      "learning_rate": 4.83779051544316e-06,
+      "loss": 1.9704,
+      "num_input_tokens_seen": 36108680,
+      "step": 209
+    },
+    {
+      "epoch": 0.08353317346123101,
+      "loss": 2.2376246452331543,
+      "loss_ce": 0.7322536706924438,
+      "loss_xval": 1.5078125,
+      "num_input_tokens_seen": 36108680,
+      "step": 209
+    },
+    {
+      "epoch": 0.08393285371702638,
+      "grad_norm": 319.2968263111755,
+      "learning_rate": 4.842112993518858e-06,
+      "loss": 2.3714,
+      "num_input_tokens_seen": 36281832,
+      "step": 210
+    },
+    {
+      "epoch": 0.08393285371702638,
+      "loss": 2.113748788833618,
+      "loss_ce": 0.7533972263336182,
+      "loss_xval": 1.359375,
+      "num_input_tokens_seen": 36281832,
+      "step": 210
+    },
+    {
+      "epoch": 0.08433253397282174,
+      "grad_norm": 89.919306127746,
+      "learning_rate": 4.846414937179485e-06,
+      "loss": 2.0618,
+      "num_input_tokens_seen": 36454648,
+      "step": 211
+    },
+    {
+      "epoch": 0.08433253397282174,
+      "loss": 2.09275484085083,
+      "loss_ce": 0.7450986504554749,
+      "loss_xval": 1.34375,
+      "num_input_tokens_seen": 36454648,
+      "step": 211
+    },
+    {
+      "epoch": 0.08473221422861711,
+      "grad_norm": 314.58780968384843,
+      "learning_rate": 4.850696540604993e-06,
+      "loss": 2.3359,
+      "num_input_tokens_seen": 36627424,
+      "step": 212
+    },
+    {
+      "epoch": 0.08473221422861711,
+      "loss": 2.438669443130493,
+      "loss_ce": 0.7609350681304932,
+      "loss_xval": 1.6796875,
+      "num_input_tokens_seen": 36627424,
+      "step": 212
+    },
+    {
+      "epoch": 0.08513189448441247,
+      "grad_norm": 107.93286926725172,
+      "learning_rate": 4.854957995233956e-06,
+      "loss": 2.1791,
+      "num_input_tokens_seen": 36800224,
+      "step": 213
+    },
+    {
+      "epoch": 0.08513189448441247,
+      "loss": 2.3825843334198,
+      "loss_ce": 0.8034826517105103,
+      "loss_xval": 1.578125,
+      "num_input_tokens_seen": 36800224,
+      "step": 213
+    },
+    {
+      "epoch": 0.08553157474020784,
+      "grad_norm": 214.7337618475198,
+      "learning_rate": 4.859199489814922e-06,
+      "loss": 1.6366,
+      "num_input_tokens_seen": 36973008,
+      "step": 214
+    },
+    {
+      "epoch": 0.08553157474020784,
+      "loss": 1.71268630027771,
+      "loss_ce": 0.7490633726119995,
+      "loss_xval": 0.96484375,
+      "num_input_tokens_seen": 36973008,
+      "step": 214
+    },
+    {
+      "epoch": 0.0859312549960032,
+      "grad_norm": 149.02179568380078,
+      "learning_rate": 4.863421210456582e-06,
+      "loss": 2.0696,
+      "num_input_tokens_seen": 37146168,
+      "step": 215
+    },
+    {
+      "epoch": 0.0859312549960032,
+      "loss": 2.094494581222534,
+      "loss_ce": 0.7087523937225342,
+      "loss_xval": 1.3828125,
+      "num_input_tokens_seen": 37146168,
+      "step": 215
+    },
+    {
+      "epoch": 0.08633093525179857,
+      "grad_norm": 176.86093117438182,
+      "learning_rate": 4.867623340676766e-06,
+      "loss": 2.1813,
+      "num_input_tokens_seen": 37319032,
+      "step": 216
+    },
+    {
+      "epoch": 0.08633093525179857,
+      "loss": 2.461796283721924,
+      "loss_ce": 0.6553997993469238,
+      "loss_xval": 1.8046875,
+      "num_input_tokens_seen": 37319032,
+      "step": 216
+    },
+    {
+      "epoch": 0.08673061550759392,
+      "grad_norm": 80.29115001940868,
+      "learning_rate": 4.871806061450314e-06,
+      "loss": 1.9519,
+      "num_input_tokens_seen": 37490120,
+      "step": 217
+    },
+    {
+      "epoch": 0.08673061550759392,
+      "loss": 2.127835273742676,
+      "loss_ce": 0.6957064270973206,
+      "loss_xval": 1.4296875,
+      "num_input_tokens_seen": 37490120,
+      "step": 217
+    },
+    {
+      "epoch": 0.08713029576338929,
+      "grad_norm": 129.0998061036388,
+      "learning_rate": 4.875969551255842e-06,
+      "loss": 2.172,
+      "num_input_tokens_seen": 37663176,
+      "step": 218
+    },
+    {
+      "epoch": 0.08713029576338929,
+      "loss": 1.8447304964065552,
+      "loss_ce": 0.7093545198440552,
+      "loss_xval": 1.1328125,
+      "num_input_tokens_seen": 37663176,
+      "step": 218
+    },
+    {
+      "epoch": 0.08752997601918465,
+      "grad_norm": 85.55333189294885,
+      "learning_rate": 4.8801139861214465e-06,
+      "loss": 2.1141,
+      "num_input_tokens_seen": 37835776,
+      "step": 219
+    },
+    {
+      "epoch": 0.08752997601918465,
+      "loss": 1.9705400466918945,
+      "loss_ce": 0.6758623123168945,
+      "loss_xval": 1.296875,
+      "num_input_tokens_seen": 37835776,
+      "step": 219
+    },
+    {
+      "epoch": 0.08792965627498002,
+      "grad_norm": 175.8233267376353,
+      "learning_rate": 4.884239539669352e-06,
+      "loss": 1.8671,
+      "num_input_tokens_seen": 38008872,
+      "step": 220
+    },
+    {
+      "epoch": 0.08792965627498002,
+      "loss": 1.9375450611114502,
+      "loss_ce": 0.6650841236114502,
+      "loss_xval": 1.2734375,
+      "num_input_tokens_seen": 38008872,
+      "step": 220
+    },
+    {
+      "epoch": 0.08832933653077538,
+      "grad_norm": 145.7069843294875,
+      "learning_rate": 4.888346383159558e-06,
+      "loss": 2.1846,
+      "num_input_tokens_seen": 38181760,
+      "step": 221
+    },
+    {
+      "epoch": 0.08832933653077538,
+      "loss": 2.246717929840088,
+      "loss_ce": 0.6512590646743774,
+      "loss_xval": 1.59375,
+      "num_input_tokens_seen": 38181760,
+      "step": 221
+    },
+    {
+      "epoch": 0.08872901678657075,
+      "grad_norm": 191.30221701933354,
+      "learning_rate": 4.892434685532505e-06,
+      "loss": 2.1738,
+      "num_input_tokens_seen": 38355136,
+      "step": 222
+    },
+    {
+      "epoch": 0.08872901678657075,
+      "loss": 2.435502052307129,
+      "loss_ce": 0.6669473648071289,
+      "loss_xval": 1.765625,
+      "num_input_tokens_seen": 38355136,
+      "step": 222
+    },
+    {
+      "epoch": 0.0891286970423661,
+      "grad_norm": 327.47100310412145,
+      "learning_rate": 4.896504613450767e-06,
+      "loss": 2.1095,
+      "num_input_tokens_seen": 38524896,
+      "step": 223
+    },
+    {
+      "epoch": 0.0891286970423661,
+      "loss": 2.2737462520599365,
+      "loss_ce": 0.646793007850647,
+      "loss_xval": 1.625,
+      "num_input_tokens_seen": 38524896,
+      "step": 223
+    },
+    {
+      "epoch": 0.08952837729816147,
+      "grad_norm": 134.50077594904644,
+      "learning_rate": 4.900556331339819e-06,
+      "loss": 1.9673,
+      "num_input_tokens_seen": 38697752,
+      "step": 224
+    },
+    {
+      "epoch": 0.08952837729816147,
+      "loss": 1.9093546867370605,
+      "loss_ce": 0.6168742179870605,
+      "loss_xval": 1.2890625,
+      "num_input_tokens_seen": 38697752,
+      "step": 224
+    },
+    {
+      "epoch": 0.08992805755395683,
+      "grad_norm": 266.2162340533468,
+      "learning_rate": 4.904590001427903e-06,
+      "loss": 2.0047,
+      "num_input_tokens_seen": 38870744,
+      "step": 225
+    },
+    {
+      "epoch": 0.08992805755395683,
+      "loss": 1.9634662866592407,
+      "loss_ce": 0.619227945804596,
+      "loss_xval": 1.34375,
+      "num_input_tokens_seen": 38870744,
+      "step": 225
+    },
+    {
+      "epoch": 0.0903277378097522,
+      "grad_norm": 297.0352644872155,
+      "learning_rate": 4.908605783784996e-06,
+      "loss": 2.0244,
+      "num_input_tokens_seen": 39043776,
+      "step": 226
+    },
+    {
+      "epoch": 0.0903277378097522,
+      "loss": 1.9414169788360596,
+      "loss_ce": 0.63819420337677,
+      "loss_xval": 1.3046875,
+      "num_input_tokens_seen": 39043776,
+      "step": 226
+    },
+    {
+      "epoch": 0.09072741806554756,
+      "grad_norm": 69.86260872464577,
+      "learning_rate": 4.912603836360931e-06,
+      "loss": 1.8326,
+      "num_input_tokens_seen": 39216696,
+      "step": 227
+    },
+    {
+      "epoch": 0.09072741806554756,
+      "loss": 1.9535454511642456,
+      "loss_ce": 0.583916425704956,
+      "loss_xval": 1.3671875,
+      "num_input_tokens_seen": 39216696,
+      "step": 227
+    },
+    {
+      "epoch": 0.09112709832134293,
+      "grad_norm": 188.86005864559968,
+      "learning_rate": 4.916584315022672e-06,
+      "loss": 1.8476,
+      "num_input_tokens_seen": 39389624,
+      "step": 228
+    },
+    {
+      "epoch": 0.09112709832134293,
+      "loss": 1.6824400424957275,
+      "loss_ce": 0.5689146518707275,
+      "loss_xval": 1.1171875,
+      "num_input_tokens_seen": 39389624,
+      "step": 228
+    },
+    {
+      "epoch": 0.09152677857713828,
+      "grad_norm": 104.91403215825835,
+      "learning_rate": 4.920547373590778e-06,
+      "loss": 1.9768,
+      "num_input_tokens_seen": 39562616,
+      "step": 229
+    },
+    {
+      "epoch": 0.09152677857713828,
+      "loss": 2.0511388778686523,
+      "loss_ce": 0.6551427245140076,
+      "loss_xval": 1.3984375,
+      "num_input_tokens_seen": 39562616,
+      "step": 229
+    },
+    {
+      "epoch": 0.09192645883293366,
+      "grad_norm": 138.43126034850636,
+      "learning_rate": 4.924493163875066e-06,
+      "loss": 1.6764,
+      "num_input_tokens_seen": 39735632,
+      "step": 230
+    },
+    {
+      "epoch": 0.09192645883293366,
+      "loss": 1.7603843212127686,
+      "loss_ce": 0.5760581493377686,
+      "loss_xval": 1.1875,
+      "num_input_tokens_seen": 39735632,
+      "step": 230
+    },
+    {
+      "epoch": 0.09232613908872901,
+      "grad_norm": 112.73730815561031,
+      "learning_rate": 4.92842183570951e-06,
+      "loss": 2.2555,
+      "num_input_tokens_seen": 39908488,
+      "step": 231
+    },
+    {
+      "epoch": 0.09232613908872901,
+      "loss": 2.1147522926330566,
+      "loss_ce": 0.5903382301330566,
+      "loss_xval": 1.5234375,
+      "num_input_tokens_seen": 39908488,
+      "step": 231
+    },
+    {
+      "epoch": 0.09272581934452438,
+      "grad_norm": 210.33274716994967,
+      "learning_rate": 4.932333536986379e-06,
+      "loss": 1.8486,
+      "num_input_tokens_seen": 40081488,
+      "step": 232
+    },
+    {
+      "epoch": 0.09272581934452438,
+      "loss": 1.7108758687973022,
+      "loss_ce": 0.604186475276947,
+      "loss_xval": 1.109375,
+      "num_input_tokens_seen": 40081488,
+      "step": 232
+    },
+    {
+      "epoch": 0.09312549960031974,
+      "grad_norm": 295.7627724529692,
+      "learning_rate": 4.936228413689641e-06,
+      "loss": 2.1929,
+      "num_input_tokens_seen": 40254872,
+      "step": 233
+    },
+    {
+      "epoch": 0.09312549960031974,
+      "loss": 2.279324531555176,
+      "loss_ce": 0.6152620315551758,
+      "loss_xval": 1.6640625,
+      "num_input_tokens_seen": 40254872,
+      "step": 233
+    },
+    {
+      "epoch": 0.09352517985611511,
+      "grad_norm": 94.5253042766975,
+      "learning_rate": 4.940106609927657e-06,
+      "loss": 1.8654,
+      "num_input_tokens_seen": 40428056,
+      "step": 234
+    },
+    {
+      "epoch": 0.09352517985611511,
+      "loss": 1.7779114246368408,
+      "loss_ce": 0.5865051746368408,
+      "loss_xval": 1.1875,
+      "num_input_tokens_seen": 40428056,
+      "step": 234
+    },
+    {
+      "epoch": 0.09392486011191047,
+      "grad_norm": 218.99104092091028,
+      "learning_rate": 4.943968267965172e-06,
+      "loss": 1.9661,
+      "num_input_tokens_seen": 40600888,
+      "step": 235
+    },
+    {
+      "epoch": 0.09392486011191047,
+      "loss": 2.0361690521240234,
+      "loss_ce": 0.5542352199554443,
+      "loss_xval": 1.484375,
+      "num_input_tokens_seen": 40600888,
+      "step": 235
+    },
+    {
+      "epoch": 0.09432454036770584,
+      "grad_norm": 166.17032002216988,
+      "learning_rate": 4.947813528254631e-06,
+      "loss": 2.1058,
+      "num_input_tokens_seen": 40773440,
+      "step": 236
+    },
+    {
+      "epoch": 0.09432454036770584,
+      "loss": 1.6222901344299316,
+      "loss_ce": 0.5912842154502869,
+      "loss_xval": 1.03125,
+      "num_input_tokens_seen": 40773440,
+      "step": 236
+    },
+    {
+      "epoch": 0.09472422062350119,
+      "grad_norm": 84.32664481341867,
+      "learning_rate": 4.95164252946683e-06,
+      "loss": 1.5917,
+      "num_input_tokens_seen": 40946384,
+      "step": 237
+    },
+    {
+      "epoch": 0.09472422062350119,
+      "loss": 1.9710441827774048,
+      "loss_ce": 0.56601482629776,
+      "loss_xval": 1.40625,
+      "num_input_tokens_seen": 40946384,
+      "step": 237
+    },
+    {
+      "epoch": 0.09512390087929656,
+      "grad_norm": 155.71448367542862,
+      "learning_rate": 4.955455408520925e-06,
+      "loss": 1.4781,
+      "num_input_tokens_seen": 41119280,
+      "step": 238
+    },
+    {
+      "epoch": 0.09512390087929656,
+      "loss": 1.3114783763885498,
+      "loss_ce": 0.5365760326385498,
+      "loss_xval": 0.7734375,
+      "num_input_tokens_seen": 41119280,
+      "step": 238
+    },
+    {
+      "epoch": 0.09552358113509192,
+      "grad_norm": 107.51330242252179,
+      "learning_rate": 4.959252300613805e-06,
+      "loss": 2.1855,
+      "num_input_tokens_seen": 41291848,
+      "step": 239
+    },
+    {
+      "epoch": 0.09552358113509192,
+      "loss": 2.2059006690979004,
+      "loss_ce": 0.5362229347229004,
+      "loss_xval": 1.671875,
+      "num_input_tokens_seen": 41291848,
+      "step": 239
+    },
+    {
+      "epoch": 0.09592326139088729,
+      "grad_norm": 62.6627619626531,
+      "learning_rate": 4.963033339248863e-06,
+      "loss": 1.7001,
+      "num_input_tokens_seen": 41464768,
+      "step": 240
+    },
+    {
+      "epoch": 0.09592326139088729,
+      "loss": 1.9659799337387085,
+      "loss_ce": 0.5311654210090637,
+      "loss_xval": 1.4375,
+      "num_input_tokens_seen": 41464768,
+      "step": 240
+    },
+    {
+      "epoch": 0.09632294164668265,
+      "grad_norm": 140.82973218984645,
+      "learning_rate": 4.96679865626416e-06,
+      "loss": 1.886,
+      "num_input_tokens_seen": 41637768,
+      "step": 241
+    },
+    {
+      "epoch": 0.09632294164668265,
+      "loss": 2.0564374923706055,
+      "loss_ce": 0.550822377204895,
+      "loss_xval": 1.5078125,
+      "num_input_tokens_seen": 41637768,
+      "step": 241
+    },
+    {
+      "epoch": 0.09672262190247802,
+      "grad_norm": 418.2780183282535,
+      "learning_rate": 4.970548381860003e-06,
+      "loss": 1.9494,
+      "num_input_tokens_seen": 41811136,
+      "step": 242
+    },
+    {
+      "epoch": 0.09672262190247802,
+      "loss": 2.3037490844726562,
+      "loss_ce": 0.5615614652633667,
+      "loss_xval": 1.7421875,
+      "num_input_tokens_seen": 41811136,
+      "step": 242
+    },
+    {
+      "epoch": 0.09712230215827339,
+      "grad_norm": 696.7436633406282,
+      "learning_rate": 4.974282644625969e-06,
+      "loss": 2.7664,
+      "num_input_tokens_seen": 41983952,
+      "step": 243
+    },
+    {
+      "epoch": 0.09712230215827339,
+      "loss": 3.1029319763183594,
+      "loss_ce": 0.5375022888183594,
+      "loss_xval": 2.5625,
+      "num_input_tokens_seen": 41983952,
+      "step": 243
+    },
+    {
+      "epoch": 0.09752198241406874,
+      "grad_norm": 650.7634262460341,
+      "learning_rate": 4.978001571567359e-06,
+      "loss": 2.7999,
+      "num_input_tokens_seen": 42156848,
+      "step": 244
+    },
+    {
+      "epoch": 0.09752198241406874,
+      "loss": 2.580700397491455,
+      "loss_ce": 0.5709348917007446,
+      "loss_xval": 2.015625,
+      "num_input_tokens_seen": 42156848,
+      "step": 244
+    },
+    {
+      "epoch": 0.09792166266986412,
+      "grad_norm": 88.52292597475672,
+      "learning_rate": 4.981705288131116e-06,
+      "loss": 1.7696,
+      "num_input_tokens_seen": 42329736,
+      "step": 245
+    },
+    {
+      "epoch": 0.09792166266986412,
+      "loss": 1.907859206199646,
+      "loss_ce": 0.625144362449646,
+      "loss_xval": 1.28125,
+      "num_input_tokens_seen": 42329736,
+      "step": 245
+    },
+    {
+      "epoch": 0.09832134292565947,
+      "grad_norm": 462.59926637475985,
+      "learning_rate": 4.98539391823122e-06,
+      "loss": 2.623,
+      "num_input_tokens_seen": 42502616,
+      "step": 246
+    },
+    {
+      "epoch": 0.09832134292565947,
+      "loss": 2.2705206871032715,
+      "loss_ce": 0.6870246529579163,
+      "loss_xval": 1.5859375,
+      "num_input_tokens_seen": 42502616,
+      "step": 246
+    },
+    {
+      "epoch": 0.09872102318145484,
+      "grad_norm": 219.64091631843007,
+      "learning_rate": 4.989067584273563e-06,
+      "loss": 2.1558,
+      "num_input_tokens_seen": 42675480,
+      "step": 247
+    },
+    {
+      "epoch": 0.09872102318145484,
+      "loss": 2.346247911453247,
+      "loss_ce": 0.6250565648078918,
+      "loss_xval": 1.71875,
+      "num_input_tokens_seen": 42675480,
+      "step": 247
+    },
+    {
+      "epoch": 0.0991207034372502,
+      "grad_norm": 452.2760431268779,
+      "learning_rate": 4.992726407180318e-06,
+      "loss": 2.4239,
+      "num_input_tokens_seen": 42848424,
+      "step": 248
+    },
+    {
+      "epoch": 0.0991207034372502,
+      "loss": 2.3382084369659424,
+      "loss_ce": 0.6443606615066528,
+      "loss_xval": 1.6953125,
+      "num_input_tokens_seen": 42848424,
+      "step": 248
+    },
+    {
+      "epoch": 0.09952038369304557,
+      "grad_norm": 289.58749315357915,
+      "learning_rate": 4.996370506413826e-06,
+      "loss": 2.1094,
+      "num_input_tokens_seen": 43021520,
+      "step": 249
+    },
+    {
+      "epoch": 0.09952038369304557,
+      "loss": 2.083463191986084,
+      "loss_ce": 0.6484045386314392,
+      "loss_xval": 1.4375,
+      "num_input_tokens_seen": 43021520,
+      "step": 249
+    },
+    {
+      "epoch": 0.09992006394884093,
+      "grad_norm": 305.5139012775951,
+      "learning_rate": 5e-06,
+      "loss": 2.3916,
+      "num_input_tokens_seen": 43194472,
+      "step": 250
+    },
+    {
+      "epoch": 0.09992006394884093,
+      "eval_websight_new_IoU": 0.02511245897039771,
+      "eval_websight_new_MAE_all": 0.06440733931958675,
+      "eval_websight_new_MAE_h": 0.030316845513880253,
+      "eval_websight_new_MAE_w": 0.1007080115377903,
+      "eval_websight_new_MAE_x": 0.058023618534207344,
+      "eval_websight_new_MAE_y": 0.06858088076114655,
+      "eval_websight_new_NUM_probability": 0.0004394065181259066,
+      "eval_websight_new_inside_bbox": 0.1302083358168602,
+      "eval_websight_new_loss": 1.9591528177261353,
+      "eval_websight_new_loss_ce": 0.8309407234191895,
+      "eval_websight_new_loss_xval": 0.973876953125,
+      "eval_websight_new_runtime": 59.2945,
+      "eval_websight_new_samples_per_second": 0.843,
+      "eval_websight_new_steps_per_second": 0.034,
+      "num_input_tokens_seen": 43194472,
+      "step": 250
+    },
+    {
+      "epoch": 0.09992006394884093,
+      "eval_seeclick_IoU": 0.0937136560678482,
+      "eval_seeclick_MAE_all": 0.11204610392451286,
+      "eval_seeclick_MAE_h": 0.04166124016046524,
+      "eval_seeclick_MAE_w": 0.16875187307596207,
+      "eval_seeclick_MAE_x": 0.1465640515089035,
+      "eval_seeclick_MAE_y": 0.09120727330446243,
+      "eval_seeclick_NUM_probability": 0.00042376687633804977,
+      "eval_seeclick_inside_bbox": 0.2517361119389534,
+      "eval_seeclick_loss": 4.182728290557861,
+      "eval_seeclick_loss_ce": 0.9389870762825012,
+      "eval_seeclick_loss_xval": 3.177978515625,
+      "eval_seeclick_runtime": 89.2398,
+      "eval_seeclick_samples_per_second": 0.56,
+      "eval_seeclick_steps_per_second": 0.022,
+      "num_input_tokens_seen": 43194472,
+      "step": 250
+    },
+    {
+      "epoch": 0.09992006394884093,
+      "eval_icons_IoU": 0.0013925364146416541,
+      "eval_icons_MAE_all": 0.053750623017549515,
+      "eval_icons_MAE_h": 0.015283203683793545,
+      "eval_icons_MAE_w": 0.02879231609404087,
+      "eval_icons_MAE_x": 0.09461009502410889,
+      "eval_icons_MAE_y": 0.07631688378751278,
+      "eval_icons_NUM_probability": 0.0005365281249396503,
+      "eval_icons_inside_bbox": 0.02777777798473835,
+      "eval_icons_loss": 1.4559746980667114,
+      "eval_icons_loss_ce": 0.7883208990097046,
+      "eval_icons_loss_xval": 0.63275146484375,
+      "eval_icons_runtime": 83.7242,
+      "eval_icons_samples_per_second": 0.597,
+      "eval_icons_steps_per_second": 0.024,
+      "num_input_tokens_seen": 43194472,
+      "step": 250
+    },
+    {
+      "epoch": 0.09992006394884093,
+      "loss": 1.3925867080688477,
+      "loss_ce": 0.7909021377563477,
+      "loss_xval": 0.6015625,
+      "num_input_tokens_seen": 43194472,
+      "step": 250
+    },
+    {
+      "epoch": 0.1003197442046363,
+      "grad_norm": 420.7423871157765,
+      "learning_rate": 5e-06,
+      "loss": 2.5456,
+      "num_input_tokens_seen": 43367312,
+      "step": 251
+    },
+    {
+      "epoch": 0.1003197442046363,
+      "loss": 2.7929365634918213,
+      "loss_ce": 0.6552413105964661,
+      "loss_xval": 2.140625,
+      "num_input_tokens_seen": 43367312,
+      "step": 251
+    },
+    {
+      "epoch": 0.10071942446043165,
+      "grad_norm": 7157.590435326808,
+      "learning_rate": 5e-06,
+      "loss": 3.7782,
+      "num_input_tokens_seen": 43540136,
+      "step": 252
+    },
+    {
+      "epoch": 0.10071942446043165,
+      "loss": 3.858090877532959,
+      "loss_ce": 0.6344579458236694,
+      "loss_xval": 3.21875,
+      "num_input_tokens_seen": 43540136,
+      "step": 252
+    },
+    {
+      "epoch": 0.10111910471622702,
+      "grad_norm": 1371.1194141036922,
+      "learning_rate": 5e-06,
+      "loss": 8.4469,
+      "num_input_tokens_seen": 43713352,
+      "step": 253
+    },
+    {
+      "epoch": 0.10111910471622702,
+      "loss": 7.681779861450195,
+      "loss_ce": 1.0880297422409058,
+      "loss_xval": 6.59375,
+      "num_input_tokens_seen": 43713352,
+      "step": 253
+    },
+    {
+      "epoch": 0.10151878497202238,
+      "grad_norm": 389.4763597106653,
+      "learning_rate": 5e-06,
+      "loss": 5.2771,
+      "num_input_tokens_seen": 43886232,
+      "step": 254
+    },
+    {
+      "epoch": 0.10151878497202238,
+      "loss": 5.221000671386719,
+      "loss_ce": 1.2112352848052979,
+      "loss_xval": 4.0,
+      "num_input_tokens_seen": 43886232,
+      "step": 254
+    },
+    {
+      "epoch": 0.10191846522781775,
+      "grad_norm": 1409.542196888878,
+      "learning_rate": 5e-06,
+      "loss": 7.2904,
+      "num_input_tokens_seen": 44055544,
+      "step": 255
+    },
+    {
+      "epoch": 0.10191846522781775,
+      "loss": 7.3611297607421875,
+      "loss_ce": 1.2146453857421875,
+      "loss_xval": 6.15625,
+      "num_input_tokens_seen": 44055544,
+      "step": 255
+    },
+    {
+      "epoch": 0.10231814548361311,
+      "grad_norm": 324.9012802617059,
+      "learning_rate": 5e-06,
+      "loss": 5.3018,
+      "num_input_tokens_seen": 44228576,
+      "step": 256
+    },
+    {
+      "epoch": 0.10231814548361311,
+      "loss": 5.863863945007324,
+      "loss_ce": 1.2427700757980347,
+      "loss_xval": 4.625,
+      "num_input_tokens_seen": 44228576,
+      "step": 256
+    },
+    {
+      "epoch": 0.10271782573940848,
+      "grad_norm": 1193.3422190631172,
+      "learning_rate": 5e-06,
+      "loss": 6.202,
+      "num_input_tokens_seen": 44401408,
+      "step": 257
+    },
+    {
+      "epoch": 0.10271782573940848,
+      "loss": 6.257023811340332,
+      "loss_ce": 1.2023365497589111,
+      "loss_xval": 5.0625,
+      "num_input_tokens_seen": 44401408,
+      "step": 257
+    },
+    {
+      "epoch": 0.10311750599520383,
+      "grad_norm": 618.3582068326372,
+      "learning_rate": 5e-06,
+      "loss": 4.5653,
+      "num_input_tokens_seen": 44574456,
+      "step": 258
+    },
+    {
+      "epoch": 0.10311750599520383,
+      "loss": 4.771925449371338,
+      "loss_ce": 1.170362949371338,
+      "loss_xval": 3.59375,
+      "num_input_tokens_seen": 44574456,
+      "step": 258
+    },
+    {
+      "epoch": 0.1035171862509992,
+      "grad_norm": 519.3942566880261,
+      "learning_rate": 5e-06,
+      "loss": 4.8413,
+      "num_input_tokens_seen": 44747248,
+      "step": 259
+    },
+    {
+      "epoch": 0.1035171862509992,
+      "loss": 4.076366901397705,
+      "loss_ce": 1.152538537979126,
+      "loss_xval": 2.921875,
+      "num_input_tokens_seen": 44747248,
+      "step": 259
+    },
+    {
+      "epoch": 0.10391686650679456,
+      "grad_norm": 794.491302525678,
+      "learning_rate": 5e-06,
+      "loss": 5.0691,
+      "num_input_tokens_seen": 44920312,
+      "step": 260
+    },
+    {
+      "epoch": 0.10391686650679456,
+      "loss": 5.723645210266113,
+      "loss_ce": 1.1572389602661133,
+      "loss_xval": 4.5625,
+      "num_input_tokens_seen": 44920312,
+      "step": 260
+    },
+    {
+      "epoch": 0.10431654676258993,
+      "grad_norm": 233.2312194034501,
+      "learning_rate": 5e-06,
+      "loss": 3.5956,
+      "num_input_tokens_seen": 45093192,
+      "step": 261
+    },
+    {
+      "epoch": 0.10431654676258993,
+      "loss": 3.4732885360717773,
+      "loss_ce": 1.1500463485717773,
+      "loss_xval": 2.328125,
+      "num_input_tokens_seen": 45093192,
+      "step": 261
+    },
+    {
+      "epoch": 0.10471622701838529,
+      "grad_norm": 400.30987966580153,
+      "learning_rate": 5e-06,
+      "loss": 4.4252,
+      "num_input_tokens_seen": 45266064,
+      "step": 262
+    },
+    {
+      "epoch": 0.10471622701838529,
+      "loss": 4.673203945159912,
+      "loss_ce": 1.167344331741333,
+      "loss_xval": 3.5,
+      "num_input_tokens_seen": 45266064,
+      "step": 262
+    },
+    {
+      "epoch": 0.10511590727418066,
+      "grad_norm": 546.3231363919651,
+      "learning_rate": 5e-06,
+      "loss": 4.737,
+      "num_input_tokens_seen": 45439016,
+      "step": 263
+    },
+    {
+      "epoch": 0.10511590727418066,
+      "loss": 5.174367904663086,
+      "loss_ce": 1.1450711488723755,
+      "loss_xval": 4.03125,
+      "num_input_tokens_seen": 45439016,
+      "step": 263
+    },
+    {
+      "epoch": 0.10551558752997602,
+      "grad_norm": 241.3773646667893,
+      "learning_rate": 5e-06,
+      "loss": 3.0476,
+      "num_input_tokens_seen": 45612712,
+      "step": 264
+    },
+    {
+      "epoch": 0.10551558752997602,
+      "loss": 3.1645121574401855,
+      "loss_ce": 1.1503520011901855,
+      "loss_xval": 2.015625,
+      "num_input_tokens_seen": 45612712,
+      "step": 264
+    },
+    {
+      "epoch": 0.10591526778577139,
+      "grad_norm": 291.824625291368,
+      "learning_rate": 5e-06,
+      "loss": 3.1524,
+      "num_input_tokens_seen": 45785736,
+      "step": 265
+    },
+    {
+      "epoch": 0.10591526778577139,
+      "loss": 3.5120248794555664,
+      "loss_ce": 1.1692512035369873,
+      "loss_xval": 2.34375,
+      "num_input_tokens_seen": 45785736,
+      "step": 265
+    },
+    {
+      "epoch": 0.10631494804156674,
+      "grad_norm": 323.654467074144,
+      "learning_rate": 5e-06,
+      "loss": 2.7766,
+      "num_input_tokens_seen": 45958904,
+      "step": 266
+    },
+    {
+      "epoch": 0.10631494804156674,
+      "loss": 2.4206995964050293,
+      "loss_ce": 1.1362760066986084,
+      "loss_xval": 1.28125,
+      "num_input_tokens_seen": 45958904,
+      "step": 266
+    },
+    {
+      "epoch": 0.10671462829736211,
+      "grad_norm": 261.4508945724977,
+      "learning_rate": 5e-06,
+      "loss": 2.9974,
+      "num_input_tokens_seen": 46132264,
+      "step": 267
+    },
+    {
+      "epoch": 0.10671462829736211,
+      "loss": 2.7609076499938965,
+      "loss_ce": 1.150556206703186,
+      "loss_xval": 1.609375,
+      "num_input_tokens_seen": 46132264,
+      "step": 267
+    },
+    {
+      "epoch": 0.10711430855315747,
+      "grad_norm": 225.15151507021258,
+      "learning_rate": 5e-06,
+      "loss": 2.637,
+      "num_input_tokens_seen": 46305184,
+      "step": 268
+    },
+    {
+      "epoch": 0.10711430855315747,
+      "loss": 2.379305362701416,
+      "loss_ce": 1.1512782573699951,
+      "loss_xval": 1.2265625,
+      "num_input_tokens_seen": 46305184,
+      "step": 268
+    },
+    {
+      "epoch": 0.10751398880895284,
+      "grad_norm": 296.01349816516694,
+      "learning_rate": 5e-06,
+      "loss": 2.8834,
+      "num_input_tokens_seen": 46478368,
+      "step": 269
+    },
+    {
+      "epoch": 0.10751398880895284,
+      "loss": 3.2463014125823975,
+      "loss_ce": 1.113977074623108,
+      "loss_xval": 2.125,
+      "num_input_tokens_seen": 46478368,
+      "step": 269
+    },
+    {
+      "epoch": 0.1079136690647482,
+      "grad_norm": 155.6721663099127,
+      "learning_rate": 5e-06,
+      "loss": 3.2604,
+      "num_input_tokens_seen": 46651192,
+      "step": 270
+    },
+    {
+      "epoch": 0.1079136690647482,
+      "loss": 3.4313535690307617,
+      "loss_ce": 1.0978577136993408,
+      "loss_xval": 2.328125,
+      "num_input_tokens_seen": 46651192,
+      "step": 270
+    },
+    {
+      "epoch": 0.10831334932054357,
+      "grad_norm": 159.3586976784072,
+      "learning_rate": 5e-06,
+      "loss": 2.9097,
+      "num_input_tokens_seen": 46823960,
+      "step": 271
+    },
+    {
+      "epoch": 0.10831334932054357,
+      "loss": 2.574904441833496,
+      "loss_ce": 1.068800926208496,
+      "loss_xval": 1.5078125,
+      "num_input_tokens_seen": 46823960,
+      "step": 271
+    },
+    {
+      "epoch": 0.10871302957633892,
+      "grad_norm": 100.09567673766682,
+      "learning_rate": 5e-06,
+      "loss": 2.8126,
+      "num_input_tokens_seen": 46996704,
+      "step": 272
+    },
+    {
+      "epoch": 0.10871302957633892,
+      "loss": 3.1134049892425537,
+      "loss_ce": 1.0472428798675537,
+      "loss_xval": 2.0625,
+      "num_input_tokens_seen": 46996704,
+      "step": 272
+    },
+    {
+      "epoch": 0.1091127098321343,
+      "grad_norm": 180.69118269302496,
+      "learning_rate": 5e-06,
+      "loss": 2.3287,
+      "num_input_tokens_seen": 47169304,
+      "step": 273
+    },
+    {
+      "epoch": 0.1091127098321343,
+      "loss": 2.5099315643310547,
+      "loss_ce": 1.0426464080810547,
+      "loss_xval": 1.46875,
+      "num_input_tokens_seen": 47169304,
+      "step": 273
+    },
+    {
+      "epoch": 0.10951239008792965,
+      "grad_norm": 88.69240950555843,
+      "learning_rate": 5e-06,
+      "loss": 2.7934,
+      "num_input_tokens_seen": 47342552,
+      "step": 274
+    },
+    {
+      "epoch": 0.10951239008792965,
+      "loss": 3.1992688179016113,
+      "loss_ce": 1.0791513919830322,
+      "loss_xval": 2.125,
+      "num_input_tokens_seen": 47342552,
+      "step": 274
+    },
+    {
+      "epoch": 0.10991207034372502,
+      "grad_norm": 68.31354191387534,
+      "learning_rate": 5e-06,
+      "loss": 2.3395,
+      "num_input_tokens_seen": 47515488,
+      "step": 275
+    },
+    {
+      "epoch": 0.10991207034372502,
+      "loss": 2.1528122425079346,
+      "loss_ce": 1.0068161487579346,
+      "loss_xval": 1.1484375,
+      "num_input_tokens_seen": 47515488,
+      "step": 275
+    },
+    {
+      "epoch": 0.11031175059952038,
+      "grad_norm": 98.29379090415762,
+      "learning_rate": 5e-06,
+      "loss": 2.5491,
+      "num_input_tokens_seen": 47687864,
+      "step": 276
+    },
+    {
+      "epoch": 0.11031175059952038,
+      "loss": 2.4284067153930664,
+      "loss_ce": 1.0075082778930664,
+      "loss_xval": 1.421875,
+      "num_input_tokens_seen": 47687864,
+      "step": 276
+    },
+    {
+      "epoch": 0.11071143085531575,
+      "grad_norm": 208.59052885258336,
+      "learning_rate": 5e-06,
+      "loss": 2.4267,
+      "num_input_tokens_seen": 47860776,
+      "step": 277
+    },
+    {
+      "epoch": 0.11071143085531575,
+      "loss": 2.307206630706787,
+      "loss_ce": 0.9878706932067871,
+      "loss_xval": 1.3203125,
+      "num_input_tokens_seen": 47860776,
+      "step": 277
+    },
+    {
+      "epoch": 0.1111111111111111,
+      "grad_norm": 64.62028957246228,
+      "learning_rate": 5e-06,
+      "loss": 1.8629,
+      "num_input_tokens_seen": 48033416,
+      "step": 278
+    },
+    {
+      "epoch": 0.1111111111111111,
+      "loss": 1.5986448526382446,
+      "loss_ce": 0.9834105372428894,
+      "loss_xval": 0.6171875,
+      "num_input_tokens_seen": 48033416,
+      "step": 278
+    },
+    {
+      "epoch": 0.11151079136690648,
+      "grad_norm": 99.98342503248348,
+      "learning_rate": 5e-06,
+      "loss": 2.3711,
+      "num_input_tokens_seen": 48206160,
+      "step": 279
+    },
+    {
+      "epoch": 0.11151079136690648,
+      "loss": 2.391204357147217,
+      "loss_ce": 0.9517512321472168,
+      "loss_xval": 1.4375,
+      "num_input_tokens_seen": 48206160,
+      "step": 279
+    },
+    {
+      "epoch": 0.11191047162270183,
+      "grad_norm": 115.96544018388516,
+      "learning_rate": 5e-06,
+      "loss": 2.4155,
+      "num_input_tokens_seen": 48379424,
+      "step": 280
+    },
+    {
+      "epoch": 0.11191047162270183,
+      "loss": 2.3940885066986084,
+      "loss_ce": 0.947799563407898,
+      "loss_xval": 1.4453125,
+      "num_input_tokens_seen": 48379424,
+      "step": 280
+    },
+    {
+      "epoch": 0.1123101518784972,
+      "grad_norm": 104.52004608173208,
+      "learning_rate": 5e-06,
+      "loss": 2.3488,
+      "num_input_tokens_seen": 48552112,
+      "step": 281
+    },
+    {
+      "epoch": 0.1123101518784972,
+      "loss": 1.9197896718978882,
+      "loss_ce": 0.9357808828353882,
+      "loss_xval": 0.984375,
+      "num_input_tokens_seen": 48552112,
+      "step": 281
+    },
+    {
+      "epoch": 0.11270983213429256,
+      "grad_norm": 64.65365518524405,
+      "learning_rate": 5e-06,
+      "loss": 2.0232,
+      "num_input_tokens_seen": 48724952,
+      "step": 282
+    },
+    {
+      "epoch": 0.11270983213429256,
+      "loss": 2.230132818222046,
+      "loss_ce": 0.9171445369720459,
+      "loss_xval": 1.3125,
+      "num_input_tokens_seen": 48724952,
+      "step": 282
+    },
+    {
+      "epoch": 0.11310951239008793,
+      "grad_norm": 81.10524607428229,
+      "learning_rate": 5e-06,
+      "loss": 1.8553,
+      "num_input_tokens_seen": 48897816,
+      "step": 283
+    },
+    {
+      "epoch": 0.11310951239008793,
+      "loss": 1.7465626001358032,
+      "loss_ce": 0.9167286157608032,
+      "loss_xval": 0.828125,
+      "num_input_tokens_seen": 48897816,
+      "step": 283
+    },
+    {
+      "epoch": 0.1135091926458833,
+      "grad_norm": 88.08567804606139,
+      "learning_rate": 5e-06,
+      "loss": 2.2449,
+      "num_input_tokens_seen": 49071056,
+      "step": 284
+    },
+    {
+      "epoch": 0.1135091926458833,
+      "loss": 2.423125743865967,
+      "loss_ce": 0.8782038688659668,
+      "loss_xval": 1.546875,
+      "num_input_tokens_seen": 49071056,
+      "step": 284
+    },
+    {
+      "epoch": 0.11390887290167866,
+      "grad_norm": 56.69224113163489,
+      "learning_rate": 5e-06,
+      "loss": 2.3233,
+      "num_input_tokens_seen": 49244160,
+      "step": 285
+    },
+    {
+      "epoch": 0.11390887290167866,
+      "loss": 2.5701351165771484,
+      "loss_ce": 0.8718929290771484,
+      "loss_xval": 1.6953125,
+      "num_input_tokens_seen": 49244160,
+      "step": 285
+    },
+    {
+      "epoch": 0.11430855315747403,
+      "grad_norm": 117.84651651002588,
+      "learning_rate": 5e-06,
+      "loss": 2.0369,
+      "num_input_tokens_seen": 49416784,
+      "step": 286
+    },
+    {
+      "epoch": 0.11430855315747403,
+      "loss": 2.136676788330078,
+      "loss_ce": 0.8520088195800781,
+      "loss_xval": 1.28125,
+      "num_input_tokens_seen": 49416784,
+      "step": 286
+    },
+    {
+      "epoch": 0.11470823341326938,
+      "grad_norm": 81.01654553435571,
+      "learning_rate": 5e-06,
+      "loss": 2.112,
+      "num_input_tokens_seen": 49589688,
+      "step": 287
+    },
+    {
+      "epoch": 0.11470823341326938,
+      "loss": 1.9272973537445068,
+      "loss_ce": 0.8110864162445068,
+      "loss_xval": 1.1171875,
+      "num_input_tokens_seen": 49589688,
+      "step": 287
+    },
+    {
+      "epoch": 0.11510791366906475,
+      "grad_norm": 105.66559786842068,
+      "learning_rate": 5e-06,
+      "loss": 2.2775,
+      "num_input_tokens_seen": 49762488,
+      "step": 288
+    },
+    {
+      "epoch": 0.11510791366906475,
+      "loss": 2.5139994621276855,
+      "loss_ce": 0.7979352474212646,
+      "loss_xval": 1.71875,
+      "num_input_tokens_seen": 49762488,
+      "step": 288
+    },
+    {
+      "epoch": 0.11550759392486011,
+      "grad_norm": 97.41645579108356,
+      "learning_rate": 5e-06,
+      "loss": 2.2071,
+      "num_input_tokens_seen": 49935664,
+      "step": 289
+    },
+    {
+      "epoch": 0.11550759392486011,
+      "loss": 2.298358678817749,
+      "loss_ce": 0.8047064542770386,
+      "loss_xval": 1.4921875,
+      "num_input_tokens_seen": 49935664,
+      "step": 289
+    },
+    {
+      "epoch": 0.11590727418065548,
+      "grad_norm": 118.02443280432219,
+      "learning_rate": 5e-06,
+      "loss": 1.915,
+      "num_input_tokens_seen": 50108424,
+      "step": 290
+    },
+    {
+      "epoch": 0.11590727418065548,
+      "loss": 1.942828893661499,
+      "loss_ce": 0.788532018661499,
+      "loss_xval": 1.15625,
+      "num_input_tokens_seen": 50108424,
+      "step": 290
+    },
+    {
+      "epoch": 0.11630695443645084,
+      "grad_norm": 56.77553608993919,
+      "learning_rate": 5e-06,
+      "loss": 1.932,
+      "num_input_tokens_seen": 50281560,
+      "step": 291
+    },
+    {
+      "epoch": 0.11630695443645084,
+      "loss": 1.5962605476379395,
+      "loss_ce": 0.7529988288879395,
+      "loss_xval": 0.84375,
+      "num_input_tokens_seen": 50281560,
+      "step": 291
+    },
+    {
+      "epoch": 0.11670663469224621,
+      "grad_norm": 86.75564799614305,
+      "learning_rate": 5e-06,
+      "loss": 1.9127,
+      "num_input_tokens_seen": 50454736,
+      "step": 292
+    },
+    {
+      "epoch": 0.11670663469224621,
+      "loss": 1.680945634841919,
+      "loss_ce": 0.752234697341919,
+      "loss_xval": 0.9296875,
+      "num_input_tokens_seen": 50454736,
+      "step": 292
+    },
+    {
+      "epoch": 0.11710631494804156,
+      "grad_norm": 85.07023337957867,
+      "learning_rate": 5e-06,
+      "loss": 2.2476,
+      "num_input_tokens_seen": 50627480,
+      "step": 293
+    },
+    {
+      "epoch": 0.11710631494804156,
+      "loss": 2.6010489463806152,
+      "loss_ce": 0.7497307062149048,
+      "loss_xval": 1.8515625,
+      "num_input_tokens_seen": 50627480,
+      "step": 293
+    },
+    {
+      "epoch": 0.11750599520383694,
+      "grad_norm": 90.42009042380998,
+      "learning_rate": 5e-06,
+      "loss": 1.9658,
+      "num_input_tokens_seen": 50800168,
+      "step": 294
+    },
+    {
+      "epoch": 0.11750599520383694,
+      "loss": 1.597025752067566,
+      "loss_ce": 0.7454632520675659,
+      "loss_xval": 0.8515625,
+      "num_input_tokens_seen": 50800168,
+      "step": 294
+    },
+    {
+      "epoch": 0.11790567545963229,
+      "grad_norm": 82.83818839637908,
+      "learning_rate": 5e-06,
+      "loss": 1.7579,
+      "num_input_tokens_seen": 50973280,
+      "step": 295
+    },
+    {
+      "epoch": 0.11790567545963229,
+      "loss": 1.7075116634368896,
+      "loss_ce": 0.7070235013961792,
+      "loss_xval": 1.0,
+      "num_input_tokens_seen": 50973280,
+      "step": 295
+    },
+    {
+      "epoch": 0.11830535571542766,
+      "grad_norm": 171.28458309049162,
+      "learning_rate": 5e-06,
+      "loss": 1.87,
+      "num_input_tokens_seen": 51146272,
+      "step": 296
+    },
+    {
+      "epoch": 0.11830535571542766,
+      "loss": 1.3094793558120728,
+      "loss_ce": 0.6739814281463623,
+      "loss_xval": 0.63671875,
+      "num_input_tokens_seen": 51146272,
+      "step": 296
+    },
+    {
+      "epoch": 0.11870503597122302,
+      "grad_norm": 108.10320516499523,
+      "learning_rate": 5e-06,
+      "loss": 1.9295,
+      "num_input_tokens_seen": 51319280,
+      "step": 297
+    },
+    {
+      "epoch": 0.11870503597122302,
+      "loss": 1.6906158924102783,
+      "loss_ce": 0.6525299549102783,
+      "loss_xval": 1.0390625,
+      "num_input_tokens_seen": 51319280,
+      "step": 297
+    },
+    {
+      "epoch": 0.11910471622701839,
+      "grad_norm": 209.76838886070274,
+      "learning_rate": 5e-06,
+      "loss": 1.8786,
+      "num_input_tokens_seen": 51492232,
+      "step": 298
+    },
+    {
+      "epoch": 0.11910471622701839,
+      "loss": 1.683868646621704,
+      "loss_ce": 0.6523745059967041,
+      "loss_xval": 1.03125,
+      "num_input_tokens_seen": 51492232,
+      "step": 298
+    },
+    {
+      "epoch": 0.11950439648281375,
+      "grad_norm": 473.78852226640424,
+      "learning_rate": 5e-06,
+      "loss": 2.029,
+      "num_input_tokens_seen": 51665016,
+      "step": 299
+    },
+    {
+      "epoch": 0.11950439648281375,
+      "loss": 2.0970144271850586,
+      "loss_ce": 0.5896900296211243,
+      "loss_xval": 1.5078125,
+      "num_input_tokens_seen": 51665016,
+      "step": 299
+    },
+    {
+      "epoch": 0.11990407673860912,
+      "grad_norm": 358.2945807266524,
+      "learning_rate": 5e-06,
+      "loss": 2.0276,
+      "num_input_tokens_seen": 51837904,
+      "step": 300
+    },
+    {
+      "epoch": 0.11990407673860912,
+      "loss": 1.9197452068328857,
+      "loss_ce": 0.6052920818328857,
+      "loss_xval": 1.3125,
+      "num_input_tokens_seen": 51837904,
+      "step": 300
+    },
+    {
+      "epoch": 0.12030375699440447,
+      "grad_norm": 114.31359760931073,
+      "learning_rate": 5e-06,
+      "loss": 1.9761,
+      "num_input_tokens_seen": 52011016,
+      "step": 301
+    },
+    {
+      "epoch": 0.12030375699440447,
+      "loss": 2.001715660095215,
+      "loss_ce": 0.6130439043045044,
+      "loss_xval": 1.390625,
+      "num_input_tokens_seen": 52011016,
+      "step": 301
+    },
+    {
+      "epoch": 0.12070343725019984,
+      "grad_norm": 287.61305918926126,
+      "learning_rate": 5e-06,
+      "loss": 2.2437,
+      "num_input_tokens_seen": 52183608,
+      "step": 302
+    },
+    {
+      "epoch": 0.12070343725019984,
+      "loss": 2.397970676422119,
+      "loss_ce": 0.5862032771110535,
+      "loss_xval": 1.8125,
+      "num_input_tokens_seen": 52183608,
+      "step": 302
+    },
+    {
+      "epoch": 0.1211031175059952,
+      "grad_norm": 69.49781036705235,
+      "learning_rate": 5e-06,
+      "loss": 2.0359,
+      "num_input_tokens_seen": 52356680,
+      "step": 303
+    },
+    {
+      "epoch": 0.1211031175059952,
+      "loss": 2.0368640422821045,
+      "loss_ce": 0.6423327922821045,
+      "loss_xval": 1.390625,
+      "num_input_tokens_seen": 52356680,
+      "step": 303
+    },
+    {
+      "epoch": 0.12150279776179057,
+      "grad_norm": 249.25827639483862,
+      "learning_rate": 5e-06,
+      "loss": 1.9618,
+      "num_input_tokens_seen": 52529992,
+      "step": 304
+    },
+    {
+      "epoch": 0.12150279776179057,
+      "loss": 1.9398987293243408,
+      "loss_ce": 0.6230041980743408,
+      "loss_xval": 1.3203125,
+      "num_input_tokens_seen": 52529992,
+      "step": 304
+    },
+    {
+      "epoch": 0.12190247801758593,
+      "grad_norm": 93.74391986745098,
+      "learning_rate": 5e-06,
+      "loss": 1.6661,
+      "num_input_tokens_seen": 52703208,
+      "step": 305
+    },
+    {
+      "epoch": 0.12190247801758593,
+      "loss": 1.5010509490966797,
+      "loss_ce": 0.6054210066795349,
+      "loss_xval": 0.89453125,
+      "num_input_tokens_seen": 52703208,
+      "step": 305
+    },
+    {
+      "epoch": 0.1223021582733813,
+      "grad_norm": 170.71986052407345,
+      "learning_rate": 5e-06,
+      "loss": 1.752,
+      "num_input_tokens_seen": 52875752,
+      "step": 306
+    },
+    {
+      "epoch": 0.1223021582733813,
+      "loss": 1.5768327713012695,
+      "loss_ce": 0.6339616775512695,
+      "loss_xval": 0.94140625,
+      "num_input_tokens_seen": 52875752,
+      "step": 306
+    },
+    {
+      "epoch": 0.12270183852917665,
+      "grad_norm": 71.67655156139799,
+      "learning_rate": 5e-06,
+      "loss": 1.8598,
+      "num_input_tokens_seen": 53048824,
+      "step": 307
+    },
+    {
+      "epoch": 0.12270183852917665,
+      "loss": 1.722001552581787,
+      "loss_ce": 0.6446090340614319,
+      "loss_xval": 1.078125,
+      "num_input_tokens_seen": 53048824,
+      "step": 307
+    },
+    {
+      "epoch": 0.12310151878497202,
+      "grad_norm": 137.84224023687867,
+      "learning_rate": 5e-06,
+      "loss": 2.1068,
+      "num_input_tokens_seen": 53221872,
+      "step": 308
+    },
+    {
+      "epoch": 0.12310151878497202,
+      "loss": 2.6642374992370605,
+      "loss_ce": 0.6627727746963501,
+      "loss_xval": 2.0,
+      "num_input_tokens_seen": 53221872,
+      "step": 308
+    },
+    {
+      "epoch": 0.12350119904076738,
+      "grad_norm": 120.78443169609713,
+      "learning_rate": 5e-06,
+      "loss": 1.5313,
+      "num_input_tokens_seen": 53394760,
+      "step": 309
+    },
+    {
+      "epoch": 0.12350119904076738,
+      "loss": 1.376590609550476,
+      "loss_ce": 0.5723915100097656,
+      "loss_xval": 0.8046875,
+      "num_input_tokens_seen": 53394760,
+      "step": 309
+    },
+    {
+      "epoch": 0.12390087929656275,
+      "grad_norm": 149.46277474052187,
+      "learning_rate": 5e-06,
+      "loss": 1.587,
+      "num_input_tokens_seen": 53568000,
+      "step": 310
+    },
+    {
+      "epoch": 0.12390087929656275,
+      "loss": 1.5170848369598389,
+      "loss_ce": 0.5693309903144836,
+      "loss_xval": 0.94921875,
+      "num_input_tokens_seen": 53568000,
+      "step": 310
+    },
+    {
+      "epoch": 0.12430055955235811,
+      "grad_norm": 164.71563984387302,
+      "learning_rate": 5e-06,
+      "loss": 1.6372,
+      "num_input_tokens_seen": 53740792,
+      "step": 311
+    },
+    {
+      "epoch": 0.12430055955235811,
+      "loss": 1.6750078201293945,
+      "loss_ce": 0.578328013420105,
+      "loss_xval": 1.09375,
+      "num_input_tokens_seen": 53740792,
+      "step": 311
+    },
+    {
+      "epoch": 0.12470023980815348,
+      "grad_norm": 121.0108527291859,
+      "learning_rate": 5e-06,
+      "loss": 1.863,
+      "num_input_tokens_seen": 53913616,
+      "step": 312
+    },
+    {
+      "epoch": 0.12470023980815348,
+      "loss": 1.7013659477233887,
+      "loss_ce": 0.5402331352233887,
+      "loss_xval": 1.1640625,
+      "num_input_tokens_seen": 53913616,
+      "step": 312
+    },
+    {
+      "epoch": 0.12509992006394885,
+      "grad_norm": 202.9204004913828,
+      "learning_rate": 5e-06,
+      "loss": 1.7032,
+      "num_input_tokens_seen": 54086312,
+      "step": 313
+    },
+    {
+      "epoch": 0.12509992006394885,
+      "loss": 1.3899582624435425,
+      "loss_ce": 0.49823465943336487,
+      "loss_xval": 0.890625,
+      "num_input_tokens_seen": 54086312,
+      "step": 313
+    },
+    {
+      "epoch": 0.1254996003197442,
+      "grad_norm": 137.11461244391282,
+      "learning_rate": 5e-06,
+      "loss": 1.8513,
+      "num_input_tokens_seen": 54259016,
+      "step": 314
+    },
+    {
+      "epoch": 0.1254996003197442,
+      "loss": 1.7766376733779907,
+      "loss_ce": 0.5368915796279907,
+      "loss_xval": 1.2421875,
+      "num_input_tokens_seen": 54259016,
+      "step": 314
+    },
+    {
+      "epoch": 0.12589928057553956,
+      "grad_norm": 110.41993010150011,
+      "learning_rate": 5e-06,
+      "loss": 1.8425,
+      "num_input_tokens_seen": 54432112,
+      "step": 315
+    },
+    {
+      "epoch": 0.12589928057553956,
+      "loss": 1.9745423793792725,
+      "loss_ce": 0.4867495894432068,
+      "loss_xval": 1.484375,
+      "num_input_tokens_seen": 54432112,
+      "step": 315
+    },
+    {
+      "epoch": 0.12629896083133493,
+      "grad_norm": 75.64074697829528,
+      "learning_rate": 5e-06,
+      "loss": 1.8845,
+      "num_input_tokens_seen": 54604632,
+      "step": 316
+    },
+    {
+      "epoch": 0.12629896083133493,
+      "loss": 1.714593768119812,
+      "loss_ce": 0.4909610152244568,
+      "loss_xval": 1.2265625,
+      "num_input_tokens_seen": 54604632,
+      "step": 316
+    },
+    {
+      "epoch": 0.1266986410871303,
+      "grad_norm": 147.26310133007271,
+      "learning_rate": 5e-06,
+      "loss": 1.3572,
+      "num_input_tokens_seen": 54777480,
+      "step": 317
+    },
+    {
+      "epoch": 0.1266986410871303,
+      "loss": 1.3109509944915771,
+      "loss_ce": 0.4650038480758667,
+      "loss_xval": 0.84765625,
+      "num_input_tokens_seen": 54777480,
+      "step": 317
+    },
+    {
+      "epoch": 0.12709832134292565,
+      "grad_norm": 159.3543242719045,
+      "learning_rate": 5e-06,
+      "loss": 1.607,
+      "num_input_tokens_seen": 54947464,
+      "step": 318
+    },
+    {
+      "epoch": 0.12709832134292565,
+      "loss": 1.791764736175537,
+      "loss_ce": 0.4758467674255371,
+      "loss_xval": 1.3125,
+      "num_input_tokens_seen": 54947464,
+      "step": 318
+    },
+    {
+      "epoch": 0.12749800159872102,
+      "grad_norm": 53.98166505832464,
+      "learning_rate": 5e-06,
+      "loss": 1.5758,
+      "num_input_tokens_seen": 55120368,
+      "step": 319
+    },
+    {
+      "epoch": 0.12749800159872102,
+      "loss": 1.6858811378479004,
+      "loss_ce": 0.45150619745254517,
+      "loss_xval": 1.234375,
+      "num_input_tokens_seen": 55120368,
+      "step": 319
+    },
+    {
+      "epoch": 0.1278976818545164,
+      "grad_norm": 178.3612818823336,
+      "learning_rate": 5e-06,
+      "loss": 1.7526,
+      "num_input_tokens_seen": 55293312,
+      "step": 320
+    },
+    {
+      "epoch": 0.1278976818545164,
+      "loss": 2.1778581142425537,
+      "loss_ce": 0.4437272548675537,
+      "loss_xval": 1.734375,
+      "num_input_tokens_seen": 55293312,
+      "step": 320
+    },
+    {
+      "epoch": 0.12829736211031176,
+      "grad_norm": 111.81551605653638,
+      "learning_rate": 5e-06,
+      "loss": 1.8185,
+      "num_input_tokens_seen": 55466064,
+      "step": 321
+    },
+    {
+      "epoch": 0.12829736211031176,
+      "loss": 1.8632432222366333,
+      "loss_ce": 0.4272081255912781,
+      "loss_xval": 1.4375,
+      "num_input_tokens_seen": 55466064,
+      "step": 321
+    },
+    {
+      "epoch": 0.1286970423661071,
+      "grad_norm": 115.38757013402358,
+      "learning_rate": 5e-06,
+      "loss": 1.433,
+      "num_input_tokens_seen": 55639048,
+      "step": 322
+    },
+    {
+      "epoch": 0.1286970423661071,
+      "loss": 1.242377758026123,
+      "loss_ce": 0.4625926613807678,
+      "loss_xval": 0.78125,
+      "num_input_tokens_seen": 55639048,
+      "step": 322
+    },
+    {
+      "epoch": 0.12909672262190247,
+      "grad_norm": 162.44283787518899,
+      "learning_rate": 5e-06,
+      "loss": 1.3945,
+      "num_input_tokens_seen": 55812136,
+      "step": 323
+    },
+    {
+      "epoch": 0.12909672262190247,
+      "loss": 1.231302261352539,
+      "loss_ce": 0.44077491760253906,
+      "loss_xval": 0.7890625,
+      "num_input_tokens_seen": 55812136,
+      "step": 323
+    },
+    {
+      "epoch": 0.12949640287769784,
+      "grad_norm": 125.96863724523318,
+      "learning_rate": 5e-06,
+      "loss": 1.2947,
+      "num_input_tokens_seen": 55984928,
+      "step": 324
+    },
+    {
+      "epoch": 0.12949640287769784,
+      "loss": 1.1521010398864746,
+      "loss_ce": 0.4384779930114746,
+      "loss_xval": 0.71484375,
+      "num_input_tokens_seen": 55984928,
+      "step": 324
+    },
+    {
+      "epoch": 0.1298960831334932,
+      "grad_norm": 397.9317077984938,
+      "learning_rate": 5e-06,
+      "loss": 1.9657,
+      "num_input_tokens_seen": 56157800,
+      "step": 325
+    },
+    {
+      "epoch": 0.1298960831334932,
+      "loss": 1.3564872741699219,
+      "loss_ce": 0.4021415710449219,
+      "loss_xval": 0.953125,
+      "num_input_tokens_seen": 56157800,
+      "step": 325
+    },
+    {
+      "epoch": 0.13029576338928858,
+      "grad_norm": 249.17242046790918,
+      "learning_rate": 5e-06,
+      "loss": 1.8821,
+      "num_input_tokens_seen": 56330728,
+      "step": 326
+    },
+    {
+      "epoch": 0.13029576338928858,
+      "loss": 2.29518461227417,
+      "loss_ce": 0.3835635483264923,
+      "loss_xval": 1.9140625,
+      "num_input_tokens_seen": 56330728,
+      "step": 326
+    },
+    {
+      "epoch": 0.13069544364508393,
+      "grad_norm": 205.64286668663732,
+      "learning_rate": 5e-06,
+      "loss": 1.6595,
+      "num_input_tokens_seen": 56503560,
+      "step": 327
+    },
+    {
+      "epoch": 0.13069544364508393,
+      "loss": 2.169922351837158,
+      "loss_ce": 0.3920902609825134,
+      "loss_xval": 1.78125,
+      "num_input_tokens_seen": 56503560,
+      "step": 327
+    },
+    {
+      "epoch": 0.1310951239008793,
+      "grad_norm": 301.92393796778066,
+      "learning_rate": 5e-06,
+      "loss": 1.8751,
+      "num_input_tokens_seen": 56676496,
+      "step": 328
+    },
+    {
+      "epoch": 0.1310951239008793,
+      "loss": 1.8017125129699707,
+      "loss_ce": 0.42768919467926025,
+      "loss_xval": 1.375,
+      "num_input_tokens_seen": 56676496,
+      "step": 328
+    },
+    {
+      "epoch": 0.13149480415667467,
+      "grad_norm": 103.48048918281846,
+      "learning_rate": 5e-06,
+      "loss": 1.6365,
+      "num_input_tokens_seen": 56849424,
+      "step": 329
+    },
+    {
+      "epoch": 0.13149480415667467,
+      "loss": 1.7497020959854126,
+      "loss_ce": 0.42157718539237976,
+      "loss_xval": 1.328125,
+      "num_input_tokens_seen": 56849424,
+      "step": 329
+    },
+    {
+      "epoch": 0.13189448441247004,
+      "grad_norm": 171.99654308412548,
+      "learning_rate": 5e-06,
+      "loss": 1.9507,
+      "num_input_tokens_seen": 57021856,
+      "step": 330
+    },
+    {
+      "epoch": 0.13189448441247004,
+      "loss": 2.358372688293457,
+      "loss_ce": 0.41257184743881226,
+      "loss_xval": 1.9453125,
+      "num_input_tokens_seen": 57021856,
+      "step": 330
+    },
+    {
+      "epoch": 0.13229416466826538,
+      "grad_norm": 130.04743280621042,
+      "learning_rate": 5e-06,
+      "loss": 1.7586,
+      "num_input_tokens_seen": 57194984,
+      "step": 331
+    },
+    {
+      "epoch": 0.13229416466826538,
+      "loss": 1.5979559421539307,
+      "loss_ce": 0.4109441637992859,
+      "loss_xval": 1.1875,
+      "num_input_tokens_seen": 57194984,
+      "step": 331
+    },
+    {
+      "epoch": 0.13269384492406075,
+      "grad_norm": 95.61726348027165,
+      "learning_rate": 5e-06,
+      "loss": 1.8431,
+      "num_input_tokens_seen": 57367960,
+      "step": 332
+    },
+    {
+      "epoch": 0.13269384492406075,
+      "loss": 2.026491165161133,
+      "loss_ce": 0.4075947403907776,
+      "loss_xval": 1.6171875,
+      "num_input_tokens_seen": 57367960,
+      "step": 332
+    },
+    {
+      "epoch": 0.13309352517985612,
+      "grad_norm": 179.26524203097776,
+      "learning_rate": 5e-06,
+      "loss": 1.8041,
+      "num_input_tokens_seen": 57540624,
+      "step": 333
+    },
+    {
+      "epoch": 0.13309352517985612,
+      "loss": 1.6417033672332764,
+      "loss_ce": 0.41160082817077637,
+      "loss_xval": 1.2265625,
+      "num_input_tokens_seen": 57540624,
+      "step": 333
+    },
+    {
+      "epoch": 0.1334932054356515,
+      "grad_norm": 103.72564142699332,
+      "learning_rate": 5e-06,
+      "loss": 1.462,
+      "num_input_tokens_seen": 57713368,
+      "step": 334
+    },
+    {
+      "epoch": 0.1334932054356515,
+      "loss": 1.3674639463424683,
+      "loss_ce": 0.37429988384246826,
+      "loss_xval": 0.9921875,
+      "num_input_tokens_seen": 57713368,
+      "step": 334
+    },
+    {
+      "epoch": 0.13389288569144683,
+      "grad_norm": 226.10650455556296,
+      "learning_rate": 5e-06,
+      "loss": 1.5788,
+      "num_input_tokens_seen": 57886048,
+      "step": 335
+    },
+    {
+      "epoch": 0.13389288569144683,
+      "loss": 1.418921947479248,
+      "loss_ce": 0.3932870626449585,
+      "loss_xval": 1.0234375,
+      "num_input_tokens_seen": 57886048,
+      "step": 335
+    },
+    {
+      "epoch": 0.1342925659472422,
+      "grad_norm": 463.12575740719353,
+      "learning_rate": 5e-06,
+      "loss": 1.933,
+      "num_input_tokens_seen": 58058832,
+      "step": 336
+    },
+    {
+      "epoch": 0.1342925659472422,
+      "loss": 1.5288450717926025,
+      "loss_ce": 0.3584350347518921,
+      "loss_xval": 1.171875,
+      "num_input_tokens_seen": 58058832,
+      "step": 336
+    },
+    {
+      "epoch": 0.13469224620303757,
+      "grad_norm": 290.28182300021234,
+      "learning_rate": 5e-06,
+      "loss": 1.7178,
+      "num_input_tokens_seen": 58231872,
+      "step": 337
+    },
+    {
+      "epoch": 0.13469224620303757,
+      "loss": 1.5614473819732666,
+      "loss_ce": 0.3695529103279114,
+      "loss_xval": 1.1953125,
+      "num_input_tokens_seen": 58231872,
+      "step": 337
+    },
+    {
+      "epoch": 0.13509192645883294,
+      "grad_norm": 143.59463691949978,
+      "learning_rate": 5e-06,
+      "loss": 1.743,
+      "num_input_tokens_seen": 58404472,
+      "step": 338
+    },
+    {
+      "epoch": 0.13509192645883294,
+      "loss": 1.9069617986679077,
+      "loss_ce": 0.38645392656326294,
+      "loss_xval": 1.5234375,
+      "num_input_tokens_seen": 58404472,
+      "step": 338
+    },
+    {
+      "epoch": 0.1354916067146283,
+      "grad_norm": 345.1671201338629,
+      "learning_rate": 5e-06,
+      "loss": 1.9162,
+      "num_input_tokens_seen": 58577064,
+      "step": 339
+    },
+    {
+      "epoch": 0.1354916067146283,
+      "loss": 1.4432034492492676,
+      "loss_ce": 0.3567776679992676,
+      "loss_xval": 1.0859375,
+      "num_input_tokens_seen": 58577064,
+      "step": 339
+    },
+    {
+      "epoch": 0.13589128697042366,
+      "grad_norm": 139.11908462967634,
+      "learning_rate": 5e-06,
+      "loss": 1.5235,
+      "num_input_tokens_seen": 58750152,
+      "step": 340
+    },
+    {
+      "epoch": 0.13589128697042366,
+      "loss": 1.5724246501922607,
+      "loss_ce": 0.3890751004219055,
+      "loss_xval": 1.1796875,
+      "num_input_tokens_seen": 58750152,
+      "step": 340
+    },
+    {
+      "epoch": 0.13629096722621903,
+      "grad_norm": 254.4500953030448,
+      "learning_rate": 5e-06,
+      "loss": 1.4418,
+      "num_input_tokens_seen": 58922968,
+      "step": 341
+    },
+    {
+      "epoch": 0.13629096722621903,
+      "loss": 1.34968101978302,
+      "loss_ce": 0.38410484790802,
+      "loss_xval": 0.96484375,
+      "num_input_tokens_seen": 58922968,
+      "step": 341
+    },
+    {
+      "epoch": 0.1366906474820144,
+      "grad_norm": 100.59331456194423,
+      "learning_rate": 5e-06,
+      "loss": 1.3907,
+      "num_input_tokens_seen": 59092360,
+      "step": 342
+    },
+    {
+      "epoch": 0.1366906474820144,
+      "loss": 1.5428651571273804,
+      "loss_ce": 0.3946716785430908,
+      "loss_xval": 1.1484375,
+      "num_input_tokens_seen": 59092360,
+      "step": 342
+    },
+    {
+      "epoch": 0.13709032773780974,
+      "grad_norm": 171.42095258220323,
+      "learning_rate": 5e-06,
+      "loss": 1.9297,
+      "num_input_tokens_seen": 59265264,
+      "step": 343
+    },
+    {
+      "epoch": 0.13709032773780974,
+      "loss": 2.0073769092559814,
+      "loss_ce": 0.3777381181716919,
+      "loss_xval": 1.6328125,
+      "num_input_tokens_seen": 59265264,
+      "step": 343
+    },
+    {
+      "epoch": 0.1374900079936051,
+      "grad_norm": 182.6528152043041,
+      "learning_rate": 5e-06,
+      "loss": 1.6114,
+      "num_input_tokens_seen": 59438328,
+      "step": 344
+    },
+    {
+      "epoch": 0.1374900079936051,
+      "loss": 1.540045976638794,
+      "loss_ce": 0.35742881894111633,
+      "loss_xval": 1.1796875,
+      "num_input_tokens_seen": 59438328,
+      "step": 344
+    },
+    {
+      "epoch": 0.13788968824940048,
+      "grad_norm": 234.01657762932578,
+      "learning_rate": 5e-06,
+      "loss": 1.4521,
+      "num_input_tokens_seen": 59611160,
+      "step": 345
+    },
+    {
+      "epoch": 0.13788968824940048,
+      "loss": 1.1887354850769043,
+      "loss_ce": 0.4055323600769043,
+      "loss_xval": 0.78125,
+      "num_input_tokens_seen": 59611160,
+      "step": 345
+    },
+    {
+      "epoch": 0.13828936850519585,
+      "grad_norm": 135.3533298151207,
+      "learning_rate": 5e-06,
+      "loss": 1.5234,
+      "num_input_tokens_seen": 59784352,
+      "step": 346
+    },
+    {
+      "epoch": 0.13828936850519585,
+      "loss": 1.3803753852844238,
+      "loss_ce": 0.4030805230140686,
+      "loss_xval": 0.9765625,
+      "num_input_tokens_seen": 59784352,
+      "step": 346
+    },
+    {
+      "epoch": 0.1386890487609912,
+      "grad_norm": 186.93581432030666,
+      "learning_rate": 5e-06,
+      "loss": 1.5216,
+      "num_input_tokens_seen": 59957304,
+      "step": 347
+    },
+    {
+      "epoch": 0.1386890487609912,
+      "loss": 1.4391629695892334,
+      "loss_ce": 0.37886011600494385,
+      "loss_xval": 1.0625,
+      "num_input_tokens_seen": 59957304,
+      "step": 347
+    },
+    {
+      "epoch": 0.13908872901678657,
+      "grad_norm": 119.53453883928591,
+      "learning_rate": 5e-06,
+      "loss": 2.1058,
+      "num_input_tokens_seen": 60130160,
+      "step": 348
+    },
+    {
+      "epoch": 0.13908872901678657,
+      "loss": 2.4009146690368652,
+      "loss_ce": 0.3730825185775757,
+      "loss_xval": 2.03125,
+      "num_input_tokens_seen": 60130160,
+      "step": 348
+    },
+    {
+      "epoch": 0.13948840927258194,
+      "grad_norm": 82.97817397860176,
+      "learning_rate": 5e-06,
+      "loss": 1.5156,
+      "num_input_tokens_seen": 60302752,
+      "step": 349
+    },
+    {
+      "epoch": 0.13948840927258194,
+      "loss": 1.3989337682724,
+      "loss_ce": 0.3671955168247223,
+      "loss_xval": 1.03125,
+      "num_input_tokens_seen": 60302752,
+      "step": 349
+    },
+    {
+      "epoch": 0.1398880895283773,
+      "grad_norm": 178.42499123342392,
+      "learning_rate": 5e-06,
+      "loss": 1.2829,
+      "num_input_tokens_seen": 60475776,
+      "step": 350
+    },
+    {
+      "epoch": 0.1398880895283773,
+      "loss": 1.3339847326278687,
+      "loss_ce": 0.38024938106536865,
+      "loss_xval": 0.953125,
+      "num_input_tokens_seen": 60475776,
+      "step": 350
+    },
+    {
+      "epoch": 0.14028776978417265,
+      "grad_norm": 220.105087076434,
+      "learning_rate": 5e-06,
+      "loss": 1.8338,
+      "num_input_tokens_seen": 60648632,
+      "step": 351
+    },
+    {
+      "epoch": 0.14028776978417265,
+      "loss": 1.7666809558868408,
+      "loss_ce": 0.39265748858451843,
+      "loss_xval": 1.375,
+      "num_input_tokens_seen": 60648632,
+      "step": 351
+    },
+    {
+      "epoch": 0.14068745003996802,
+      "grad_norm": 117.69512479208115,
+      "learning_rate": 5e-06,
+      "loss": 1.5094,
+      "num_input_tokens_seen": 60821424,
+      "step": 352
+    },
+    {
+      "epoch": 0.14068745003996802,
+      "loss": 1.3380788564682007,
+      "loss_ce": 0.3004812002182007,
+      "loss_xval": 1.0390625,
+      "num_input_tokens_seen": 60821424,
+      "step": 352
+    },
+    {
+      "epoch": 0.1410871302957634,
+      "grad_norm": 54.734844905000614,
+      "learning_rate": 5e-06,
+      "loss": 1.5579,
+      "num_input_tokens_seen": 60994352,
+      "step": 353
+    },
+    {
+      "epoch": 0.1410871302957634,
+      "loss": 1.776560664176941,
+      "loss_ce": 0.33783990144729614,
+      "loss_xval": 1.4375,
+      "num_input_tokens_seen": 60994352,
+      "step": 353
+    },
+    {
+      "epoch": 0.14148681055155876,
+      "grad_norm": 71.4528673149511,
+      "learning_rate": 5e-06,
+      "loss": 1.9286,
+      "num_input_tokens_seen": 61167184,
+      "step": 354
+    },
+    {
+      "epoch": 0.14148681055155876,
+      "loss": 1.7447428703308105,
+      "loss_ce": 0.3264079689979553,
+      "loss_xval": 1.421875,
+      "num_input_tokens_seen": 61167184,
+      "step": 354
+    },
+    {
+      "epoch": 0.1418864908073541,
+      "grad_norm": 144.41906447638016,
+      "learning_rate": 5e-06,
+      "loss": 1.3293,
+      "num_input_tokens_seen": 61340288,
+      "step": 355
+    },
+    {
+      "epoch": 0.1418864908073541,
+      "loss": 1.5950350761413574,
+      "loss_ce": 0.30743736028671265,
+      "loss_xval": 1.2890625,
+      "num_input_tokens_seen": 61340288,
+      "step": 355
+    },
+    {
+      "epoch": 0.14228617106314947,
+      "grad_norm": 97.59406386460213,
+      "learning_rate": 5e-06,
+      "loss": 1.3858,
+      "num_input_tokens_seen": 61513160,
+      "step": 356
+    },
+    {
+      "epoch": 0.14228617106314947,
+      "loss": 1.4868381023406982,
+      "loss_ce": 0.26979708671569824,
+      "loss_xval": 1.21875,
+      "num_input_tokens_seen": 61513160,
+      "step": 356
+    },
+    {
+      "epoch": 0.14268585131894485,
+      "grad_norm": 113.54612045662563,
+      "learning_rate": 5e-06,
+      "loss": 1.3206,
+      "num_input_tokens_seen": 61686344,
+      "step": 357
+    },
+    {
+      "epoch": 0.14268585131894485,
+      "loss": 1.2290370464324951,
+      "loss_ce": 0.24270889163017273,
+      "loss_xval": 0.984375,
+      "num_input_tokens_seen": 61686344,
+      "step": 357
+    },
+    {
+      "epoch": 0.14308553157474022,
+      "grad_norm": 156.8539131457891,
+      "learning_rate": 5e-06,
+      "loss": 1.611,
+      "num_input_tokens_seen": 61859496,
+      "step": 358
+    },
+    {
+      "epoch": 0.14308553157474022,
+      "loss": 1.502457618713379,
+      "loss_ce": 0.25953781604766846,
+      "loss_xval": 1.2421875,
+      "num_input_tokens_seen": 61859496,
+      "step": 358
+    },
+    {
+      "epoch": 0.14348521183053556,
+      "grad_norm": 316.9389502143624,
+      "learning_rate": 5e-06,
+      "loss": 1.2872,
+      "num_input_tokens_seen": 62032208,
+      "step": 359
+    },
+    {
+      "epoch": 0.14348521183053556,
+      "loss": 1.4252452850341797,
+      "loss_ce": 0.2567882835865021,
+      "loss_xval": 1.171875,
+      "num_input_tokens_seen": 62032208,
+      "step": 359
+    },
+    {
+      "epoch": 0.14388489208633093,
+      "grad_norm": 271.7727423648551,
+      "learning_rate": 5e-06,
+      "loss": 1.571,
+      "num_input_tokens_seen": 62205280,
+      "step": 360
+    },
+    {
+      "epoch": 0.14388489208633093,
+      "loss": 1.4632078409194946,
+      "loss_ce": 0.28254371881484985,
+      "loss_xval": 1.1796875,
+      "num_input_tokens_seen": 62205280,
+      "step": 360
+    },
+    {
+      "epoch": 0.1442845723421263,
+      "grad_norm": 55.46079000927162,
+      "learning_rate": 5e-06,
+      "loss": 1.6113,
+      "num_input_tokens_seen": 62378232,
+      "step": 361
+    },
+    {
+      "epoch": 0.1442845723421263,
+      "loss": 1.6278996467590332,
+      "loss_ce": 0.2782902717590332,
+      "loss_xval": 1.3515625,
+      "num_input_tokens_seen": 62378232,
+      "step": 361
+    },
+    {
+      "epoch": 0.14468425259792167,
+      "grad_norm": 436.3956415187697,
+      "learning_rate": 5e-06,
+      "loss": 1.3398,
+      "num_input_tokens_seen": 62550920,
+      "step": 362
+    },
+    {
+      "epoch": 0.14468425259792167,
+      "loss": 1.3358556032180786,
+      "loss_ce": 0.2723791003227234,
+      "loss_xval": 1.0625,
+      "num_input_tokens_seen": 62550920,
+      "step": 362
+    },
+    {
+      "epoch": 0.145083932853717,
+      "grad_norm": 755.5556492215647,
+      "learning_rate": 5e-06,
+      "loss": 2.0904,
+      "num_input_tokens_seen": 62724048,
+      "step": 363
+    },
+    {
+      "epoch": 0.145083932853717,
+      "loss": 1.9951095581054688,
+      "loss_ce": 0.29784390330314636,
+      "loss_xval": 1.6953125,
+      "num_input_tokens_seen": 62724048,
+      "step": 363
+    },
+    {
+      "epoch": 0.14548361310951238,
+      "grad_norm": 458.5396858968191,
+      "learning_rate": 5e-06,
+      "loss": 2.0173,
+      "num_input_tokens_seen": 62896912,
+      "step": 364
+    },
+    {
+      "epoch": 0.14548361310951238,
+      "loss": 1.844632863998413,
+      "loss_ce": 0.3143594264984131,
+      "loss_xval": 1.53125,
+      "num_input_tokens_seen": 62896912,
+      "step": 364
+    },
+    {
+      "epoch": 0.14588329336530775,
+      "grad_norm": 273.6763198754432,
+      "learning_rate": 5e-06,
+      "loss": 1.6539,
+      "num_input_tokens_seen": 63070104,
+      "step": 365
+    },
+    {
+      "epoch": 0.14588329336530775,
+      "loss": 1.8728796243667603,
+      "loss_ce": 0.32600462436676025,
+      "loss_xval": 1.546875,
+      "num_input_tokens_seen": 63070104,
+      "step": 365
+    },
+    {
+      "epoch": 0.14628297362110312,
+      "grad_norm": 336.10897238023637,
+      "learning_rate": 5e-06,
+      "loss": 1.7954,
+      "num_input_tokens_seen": 63243208,
+      "step": 366
+    },
+    {
+      "epoch": 0.14628297362110312,
+      "loss": 1.7886399030685425,
+      "loss_ce": 0.37140363454818726,
+      "loss_xval": 1.4140625,
+      "num_input_tokens_seen": 63243208,
+      "step": 366
+    },
+    {
+      "epoch": 0.1466826538768985,
+      "grad_norm": 235.21217327142335,
+      "learning_rate": 5e-06,
+      "loss": 1.4071,
+      "num_input_tokens_seen": 63415976,
+      "step": 367
+    },
+    {
+      "epoch": 0.1466826538768985,
+      "loss": 1.2615071535110474,
+      "loss_ce": 0.37381187081336975,
+      "loss_xval": 0.88671875,
+      "num_input_tokens_seen": 63415976,
+      "step": 367
+    },
+    {
+      "epoch": 0.14708233413269384,
+      "grad_norm": 227.78162811961886,
+      "learning_rate": 5e-06,
+      "loss": 1.4289,
+      "num_input_tokens_seen": 63589032,
+      "step": 368
+    },
+    {
+      "epoch": 0.14708233413269384,
+      "loss": 1.3692877292633057,
+      "loss_ce": 0.37600159645080566,
+      "loss_xval": 0.9921875,
+      "num_input_tokens_seen": 63589032,
+      "step": 368
+    },
+    {
+      "epoch": 0.1474820143884892,
+      "grad_norm": 332.6665441626038,
+      "learning_rate": 5e-06,
+      "loss": 1.5625,
+      "num_input_tokens_seen": 63762416,
+      "step": 369
+    },
+    {
+      "epoch": 0.1474820143884892,
+      "loss": 1.526054859161377,
+      "loss_ce": 0.3673633337020874,
+      "loss_xval": 1.15625,
+      "num_input_tokens_seen": 63762416,
+      "step": 369
+    },
+    {
+      "epoch": 0.14788169464428458,
+      "grad_norm": 236.40131995240245,
+      "learning_rate": 5e-06,
+      "loss": 1.8429,
+      "num_input_tokens_seen": 63935712,
+      "step": 370
+    },
+    {
+      "epoch": 0.14788169464428458,
+      "loss": 1.8038097620010376,
+      "loss_ce": 0.4258800745010376,
+      "loss_xval": 1.375,
+      "num_input_tokens_seen": 63935712,
+      "step": 370
+    },
+    {
+      "epoch": 0.14828137490007995,
+      "grad_norm": 347.91614795997964,
+      "learning_rate": 5e-06,
+      "loss": 1.458,
+      "num_input_tokens_seen": 64109008,
+      "step": 371
+    },
+    {
+      "epoch": 0.14828137490007995,
+      "loss": 1.3971425294876099,
+      "loss_ce": 0.383470743894577,
+      "loss_xval": 1.015625,
+      "num_input_tokens_seen": 64109008,
+      "step": 371
+    },
+    {
+      "epoch": 0.1486810551558753,
+      "grad_norm": 97.92030501492046,
+      "learning_rate": 5e-06,
+      "loss": 1.1957,
+      "num_input_tokens_seen": 64281584,
+      "step": 372
+    },
+    {
+      "epoch": 0.1486810551558753,
+      "loss": 1.3989770412445068,
+      "loss_ce": 0.36162352561950684,
+      "loss_xval": 1.0390625,
+      "num_input_tokens_seen": 64281584,
+      "step": 372
+    },
+    {
+      "epoch": 0.14908073541167066,
+      "grad_norm": 432.055973955712,
+      "learning_rate": 5e-06,
+      "loss": 1.6878,
+      "num_input_tokens_seen": 64454672,
+      "step": 373
+    },
+    {
+      "epoch": 0.14908073541167066,
+      "loss": 1.6717700958251953,
+      "loss_ce": 0.33412355184555054,
+      "loss_xval": 1.3359375,
+      "num_input_tokens_seen": 64454672,
+      "step": 373
+    },
+    {
+      "epoch": 0.14948041566746603,
+      "grad_norm": 75.76218741454379,
+      "learning_rate": 5e-06,
+      "loss": 1.5385,
+      "num_input_tokens_seen": 64627880,
+      "step": 374
+    },
+    {
+      "epoch": 0.14948041566746603,
+      "loss": 1.3063770532608032,
+      "loss_ce": 0.3713184893131256,
+      "loss_xval": 0.93359375,
+      "num_input_tokens_seen": 64627880,
+      "step": 374
+    },
+    {
+      "epoch": 0.1498800959232614,
+      "grad_norm": 434.32708742379594,
+      "learning_rate": 5e-06,
+      "loss": 1.9206,
+      "num_input_tokens_seen": 64800696,
+      "step": 375
+    },
+    {
+      "epoch": 0.1498800959232614,
+      "loss": 1.9140050411224365,
+      "loss_ce": 0.3580968379974365,
+      "loss_xval": 1.5546875,
+      "num_input_tokens_seen": 64800696,
+      "step": 375
+    },
+    {
+      "epoch": 0.15027977617905675,
+      "grad_norm": 231.0941828632733,
+      "learning_rate": 5e-06,
+      "loss": 1.5119,
+      "num_input_tokens_seen": 64973736,
+      "step": 376
+    },
+    {
+      "epoch": 0.15027977617905675,
+      "loss": 1.2229743003845215,
+      "loss_ce": 0.41560131311416626,
+      "loss_xval": 0.80859375,
+      "num_input_tokens_seen": 64973736,
+      "step": 376
+    },
+    {
+      "epoch": 0.15067945643485212,
+      "grad_norm": 308.04336921786705,
+      "learning_rate": 5e-06,
+      "loss": 1.717,
+      "num_input_tokens_seen": 65146824,
+      "step": 377
+    },
+    {
+      "epoch": 0.15067945643485212,
+      "loss": 1.522589087486267,
+      "loss_ce": 0.3834289610385895,
+      "loss_xval": 1.140625,
+      "num_input_tokens_seen": 65146824,
+      "step": 377
+    },
+    {
+      "epoch": 0.1510791366906475,
+      "grad_norm": 379.91211838660945,
+      "learning_rate": 5e-06,
+      "loss": 1.7196,
+      "num_input_tokens_seen": 65319824,
+      "step": 378
+    },
+    {
+      "epoch": 0.1510791366906475,
+      "loss": 1.6595503091812134,
+      "loss_ce": 0.37146443128585815,
+      "loss_xval": 1.2890625,
+      "num_input_tokens_seen": 65319824,
+      "step": 378
+    },
+    {
+      "epoch": 0.15147881694644286,
+      "grad_norm": 188.19279362317252,
+      "learning_rate": 5e-06,
+      "loss": 1.5226,
+      "num_input_tokens_seen": 65492824,
+      "step": 379
+    },
+    {
+      "epoch": 0.15147881694644286,
+      "loss": 1.2681467533111572,
+      "loss_ce": 0.4041330814361572,
+      "loss_xval": 0.86328125,
+      "num_input_tokens_seen": 65492824,
+      "step": 379
+    },
+    {
+      "epoch": 0.1518784972022382,
+      "grad_norm": 332.3973897757976,
+      "learning_rate": 5e-06,
+      "loss": 1.5562,
+      "num_input_tokens_seen": 65665920,
+      "step": 380
+    },
+    {
+      "epoch": 0.1518784972022382,
+      "loss": 1.71194326877594,
+      "loss_ce": 0.37405264377593994,
+      "loss_xval": 1.3359375,
+      "num_input_tokens_seen": 65665920,
+      "step": 380
+    },
+    {
+      "epoch": 0.15227817745803357,
+      "grad_norm": 71.6692089078513,
+      "learning_rate": 5e-06,
+      "loss": 1.5298,
+      "num_input_tokens_seen": 65839296,
+      "step": 381
+    },
+    {
+      "epoch": 0.15227817745803357,
+      "loss": 1.185120701789856,
+      "loss_ce": 0.37054553627967834,
+      "loss_xval": 0.81640625,
+      "num_input_tokens_seen": 65839296,
+      "step": 381
+    },
+    {
+      "epoch": 0.15267785771382894,
+      "grad_norm": 291.72669644168303,
+      "learning_rate": 5e-06,
+      "loss": 1.6519,
+      "num_input_tokens_seen": 66012896,
+      "step": 382
+    },
+    {
+      "epoch": 0.15267785771382894,
+      "loss": 1.4946725368499756,
+      "loss_ce": 0.3623483180999756,
+      "loss_xval": 1.1328125,
+      "num_input_tokens_seen": 66012896,
+      "step": 382
+    },
+    {
+      "epoch": 0.1530775379696243,
+      "grad_norm": 124.58060402399016,
+      "learning_rate": 5e-06,
+      "loss": 1.6748,
+      "num_input_tokens_seen": 66185720,
+      "step": 383
+    },
+    {
+      "epoch": 0.1530775379696243,
+      "loss": 1.6065537929534912,
+      "loss_ce": 0.3433701694011688,
+      "loss_xval": 1.265625,
+      "num_input_tokens_seen": 66185720,
+      "step": 383
+    },
+    {
+      "epoch": 0.15347721822541965,
+      "grad_norm": 303.4023928485621,
+      "learning_rate": 5e-06,
+      "loss": 1.3126,
+      "num_input_tokens_seen": 66358696,
+      "step": 384
+    },
+    {
+      "epoch": 0.15347721822541965,
+      "loss": 1.6531447172164917,
+      "loss_ce": 0.3508985936641693,
+      "loss_xval": 1.3046875,
+      "num_input_tokens_seen": 66358696,
+      "step": 384
+    },
+    {
+      "epoch": 0.15387689848121502,
+      "grad_norm": 186.7444010598904,
+      "learning_rate": 5e-06,
+      "loss": 1.4072,
+      "num_input_tokens_seen": 66531952,
+      "step": 385
+    },
+    {
+      "epoch": 0.15387689848121502,
+      "loss": 1.579591989517212,
+      "loss_ce": 0.35400599241256714,
+      "loss_xval": 1.2265625,
+      "num_input_tokens_seen": 66531952,
+      "step": 385
+    },
+    {
+      "epoch": 0.1542765787370104,
+      "grad_norm": 123.72761695126445,
+      "learning_rate": 5e-06,
+      "loss": 1.1076,
+      "num_input_tokens_seen": 66704848,
+      "step": 386
+    },
+    {
+      "epoch": 0.1542765787370104,
+      "loss": 1.1779499053955078,
+      "loss_ce": 0.3305378556251526,
+      "loss_xval": 0.84765625,
+      "num_input_tokens_seen": 66704848,
+      "step": 386
+    },
+    {
+      "epoch": 0.15467625899280577,
+      "grad_norm": 300.4351423438375,
+      "learning_rate": 5e-06,
+      "loss": 1.5436,
+      "num_input_tokens_seen": 66877552,
+      "step": 387
+    },
+    {
+      "epoch": 0.15467625899280577,
+      "loss": 1.4668437242507935,
+      "loss_ce": 0.30204877257347107,
+      "loss_xval": 1.1640625,
+      "num_input_tokens_seen": 66877552,
+      "step": 387
+    },
+    {
+      "epoch": 0.1550759392486011,
+      "grad_norm": 97.96015654356518,
+      "learning_rate": 5e-06,
+      "loss": 1.3898,
+      "num_input_tokens_seen": 67050520,
+      "step": 388
+    },
+    {
+      "epoch": 0.1550759392486011,
+      "loss": 1.3291375637054443,
+      "loss_ce": 0.28250670433044434,
+      "loss_xval": 1.046875,
+      "num_input_tokens_seen": 67050520,
+      "step": 388
+    },
+    {
+      "epoch": 0.15547561950439648,
+      "grad_norm": 256.48054637973087,
+      "learning_rate": 5e-06,
+      "loss": 1.0719,
+      "num_input_tokens_seen": 67223032,
+      "step": 389
+    },
+    {
+      "epoch": 0.15547561950439648,
+      "loss": 1.2077308893203735,
+      "loss_ce": 0.2790199816226959,
+      "loss_xval": 0.9296875,
+      "num_input_tokens_seen": 67223032,
+      "step": 389
+    },
+    {
+      "epoch": 0.15587529976019185,
+      "grad_norm": 83.61487152773492,
+      "learning_rate": 5e-06,
+      "loss": 1.4863,
+      "num_input_tokens_seen": 67396040,
+      "step": 390
+    },
+    {
+      "epoch": 0.15587529976019185,
+      "loss": 1.168054461479187,
+      "loss_ce": 0.236413836479187,
+      "loss_xval": 0.9296875,
+      "num_input_tokens_seen": 67396040,
+      "step": 390
+    },
+    {
+      "epoch": 0.15627498001598722,
+      "grad_norm": 216.848192893872,
+      "learning_rate": 5e-06,
+      "loss": 1.5421,
+      "num_input_tokens_seen": 67569016,
+      "step": 391
+    },
+    {
+      "epoch": 0.15627498001598722,
+      "loss": 1.3344125747680664,
+      "loss_ce": 0.2352915108203888,
+      "loss_xval": 1.1015625,
+      "num_input_tokens_seen": 67569016,
+      "step": 391
+    },
+    {
+      "epoch": 0.15667466027178256,
+      "grad_norm": 100.72676823977093,
+      "learning_rate": 5e-06,
+      "loss": 1.2574,
+      "num_input_tokens_seen": 67742032,
+      "step": 392
+    },
+    {
+      "epoch": 0.15667466027178256,
+      "loss": 1.4167189598083496,
+      "loss_ce": 0.22641140222549438,
+      "loss_xval": 1.1875,
+      "num_input_tokens_seen": 67742032,
+      "step": 392
+    },
+    {
+      "epoch": 0.15707434052757793,
+      "grad_norm": 217.73273930965593,
+      "learning_rate": 5e-06,
+      "loss": 1.1396,
+      "num_input_tokens_seen": 67914992,
+      "step": 393
+    },
+    {
+      "epoch": 0.15707434052757793,
+      "loss": 1.1209442615509033,
+      "loss_ce": 0.2234833538532257,
+      "loss_xval": 0.8984375,
+      "num_input_tokens_seen": 67914992,
+      "step": 393
+    },
+    {
+      "epoch": 0.1574740207833733,
+      "grad_norm": 273.2904839153481,
+      "learning_rate": 5e-06,
+      "loss": 1.3022,
+      "num_input_tokens_seen": 68087776,
+      "step": 394
+    },
+    {
+      "epoch": 0.1574740207833733,
+      "loss": 1.3209784030914307,
+      "loss_ce": 0.22258979082107544,
+      "loss_xval": 1.1015625,
+      "num_input_tokens_seen": 68087776,
+      "step": 394
+    },
+    {
+      "epoch": 0.15787370103916867,
+      "grad_norm": 102.6734241796819,
+      "learning_rate": 5e-06,
+      "loss": 1.3072,
+      "num_input_tokens_seen": 68260448,
+      "step": 395
+    },
+    {
+      "epoch": 0.15787370103916867,
+      "loss": 1.1156089305877686,
+      "loss_ce": 0.19959326088428497,
+      "loss_xval": 0.9140625,
+      "num_input_tokens_seen": 68260448,
+      "step": 395
+    },
+    {
+      "epoch": 0.15827338129496402,
+      "grad_norm": 373.9212850213255,
+      "learning_rate": 5e-06,
+      "loss": 0.9984,
+      "num_input_tokens_seen": 68433496,
+      "step": 396
+    },
+    {
+      "epoch": 0.15827338129496402,
+      "loss": 0.958846926689148,
+      "loss_ce": 0.17906175553798676,
+      "loss_xval": 0.78125,
+      "num_input_tokens_seen": 68433496,
+      "step": 396
+    },
+    {
+      "epoch": 0.1586730615507594,
+      "grad_norm": 212.68846306498975,
+      "learning_rate": 5e-06,
+      "loss": 1.2799,
+      "num_input_tokens_seen": 68606624,
+      "step": 397
+    },
+    {
+      "epoch": 0.1586730615507594,
+      "loss": 1.6309540271759033,
+      "loss_ce": 0.18429884314537048,
+      "loss_xval": 1.4453125,
+      "num_input_tokens_seen": 68606624,
+      "step": 397
+    },
+    {
+      "epoch": 0.15907274180655476,
+      "grad_norm": 201.40167739549648,
+      "learning_rate": 5e-06,
+      "loss": 1.0227,
+      "num_input_tokens_seen": 68779744,
+      "step": 398
+    },
+    {
+      "epoch": 0.15907274180655476,
+      "loss": 1.1671316623687744,
+      "loss_ce": 0.1776297688484192,
+      "loss_xval": 0.98828125,
+      "num_input_tokens_seen": 68779744,
+      "step": 398
+    },
+    {
+      "epoch": 0.15947242206235013,
+      "grad_norm": 329.1756886542891,
+      "learning_rate": 5e-06,
+      "loss": 1.1226,
+      "num_input_tokens_seen": 68949416,
+      "step": 399
+    },
+    {
+      "epoch": 0.15947242206235013,
+      "loss": 0.8560934662818909,
+      "loss_ce": 0.17335423827171326,
+      "loss_xval": 0.68359375,
+      "num_input_tokens_seen": 68949416,
+      "step": 399
+    },
+    {
+      "epoch": 0.15987210231814547,
+      "grad_norm": 243.90129646768855,
+      "learning_rate": 5e-06,
+      "loss": 1.6687,
+      "num_input_tokens_seen": 69122336,
+      "step": 400
+    },
+    {
+      "epoch": 0.15987210231814547,
+      "loss": 1.3468685150146484,
+      "loss_ce": 0.16937831044197083,
+      "loss_xval": 1.1796875,
+      "num_input_tokens_seen": 69122336,
+      "step": 400
+    },
+    {
+      "epoch": 0.16027178257394084,
+      "grad_norm": 182.98535991940025,
+      "learning_rate": 5e-06,
+      "loss": 1.9013,
+      "num_input_tokens_seen": 69295288,
+      "step": 401
+    },
+    {
+      "epoch": 0.16027178257394084,
+      "loss": 2.1146087646484375,
+      "loss_ce": 0.1907806098461151,
+      "loss_xval": 1.921875,
+      "num_input_tokens_seen": 69295288,
+      "step": 401
+    },
+    {
+      "epoch": 0.1606714628297362,
+      "grad_norm": 155.15210915585405,
+      "learning_rate": 5e-06,
+      "loss": 1.5412,
+      "num_input_tokens_seen": 69468232,
+      "step": 402
+    },
+    {
+      "epoch": 0.1606714628297362,
+      "loss": 1.1275564432144165,
+      "loss_ce": 0.18346473574638367,
+      "loss_xval": 0.9453125,
+      "num_input_tokens_seen": 69468232,
+      "step": 402
+    },
+    {
+      "epoch": 0.16107114308553158,
+      "grad_norm": 89.57021927047049,
+      "learning_rate": 5e-06,
+      "loss": 1.2666,
+      "num_input_tokens_seen": 69641208,
+      "step": 403
+    },
+    {
+      "epoch": 0.16107114308553158,
+      "loss": 1.3142218589782715,
+      "loss_ce": 0.18971017003059387,
+      "loss_xval": 1.125,
+      "num_input_tokens_seen": 69641208,
+      "step": 403
+    },
+    {
+      "epoch": 0.16147082334132695,
+      "grad_norm": 84.82452132970737,
+      "learning_rate": 5e-06,
+      "loss": 1.0387,
+      "num_input_tokens_seen": 69814296,
+      "step": 404
+    },
+    {
+      "epoch": 0.16147082334132695,
+      "loss": 0.96608567237854,
+      "loss_ce": 0.14345382153987885,
+      "loss_xval": 0.82421875,
+      "num_input_tokens_seen": 69814296,
+      "step": 404
+    },
+    {
+      "epoch": 0.1618705035971223,
+      "grad_norm": 156.2159444055507,
+      "learning_rate": 5e-06,
+      "loss": 1.807,
+      "num_input_tokens_seen": 69987120,
+      "step": 405
+    },
+    {
+      "epoch": 0.1618705035971223,
+      "loss": 1.702022910118103,
+      "loss_ce": 0.16247209906578064,
+      "loss_xval": 1.5390625,
+      "num_input_tokens_seen": 69987120,
+      "step": 405
+    },
+    {
+      "epoch": 0.16227018385291767,
+      "grad_norm": 58.20249101157415,
+      "learning_rate": 5e-06,
+      "loss": 1.1604,
+      "num_input_tokens_seen": 70160184,
+      "step": 406
+    },
+    {
+      "epoch": 0.16227018385291767,
+      "loss": 1.17859947681427,
+      "loss_ce": 0.1471053659915924,
+      "loss_xval": 1.03125,
+      "num_input_tokens_seen": 70160184,
+      "step": 406
+    },
+    {
+      "epoch": 0.16266986410871304,
+      "grad_norm": 266.83889920116616,
+      "learning_rate": 5e-06,
+      "loss": 1.0537,
+      "num_input_tokens_seen": 70333352,
+      "step": 407
+    },
+    {
+      "epoch": 0.16266986410871304,
+      "loss": 1.2187542915344238,
+      "loss_ce": 0.13623477518558502,
+      "loss_xval": 1.0859375,
+      "num_input_tokens_seen": 70333352,
+      "step": 407
+    },
+    {
+      "epoch": 0.1630695443645084,
+      "grad_norm": 422.83042391271886,
+      "learning_rate": 5e-06,
+      "loss": 1.3912,
+      "num_input_tokens_seen": 70506448,
+      "step": 408
+    },
+    {
+      "epoch": 0.1630695443645084,
+      "loss": 1.4533321857452393,
+      "loss_ce": 0.1320432424545288,
+      "loss_xval": 1.3203125,
+      "num_input_tokens_seen": 70506448,
+      "step": 408
+    },
+    {
+      "epoch": 0.16346922462030375,
+      "grad_norm": 390.3090358433531,
+      "learning_rate": 5e-06,
+      "loss": 1.2469,
+      "num_input_tokens_seen": 70679568,
+      "step": 409
+    },
+    {
+      "epoch": 0.16346922462030375,
+      "loss": 1.5814406871795654,
+      "loss_ce": 0.13808134198188782,
+      "loss_xval": 1.4453125,
+      "num_input_tokens_seen": 70679568,
+      "step": 409
+    },
+    {
+      "epoch": 0.16386890487609912,
+      "grad_norm": 154.26033869033284,
+      "learning_rate": 5e-06,
+      "loss": 1.1171,
+      "num_input_tokens_seen": 70852160,
+      "step": 410
+    },
+    {
+      "epoch": 0.16386890487609912,
+      "loss": 1.4136357307434082,
+      "loss_ce": 0.14141888916492462,
+      "loss_xval": 1.2734375,
+      "num_input_tokens_seen": 70852160,
+      "step": 410
+    },
+    {
+      "epoch": 0.1642685851318945,
+      "grad_norm": 174.6829188801557,
+      "learning_rate": 5e-06,
+      "loss": 1.2339,
+      "num_input_tokens_seen": 71024808,
+      "step": 411
+    },
+    {
+      "epoch": 0.1642685851318945,
+      "loss": 0.867920994758606,
+      "loss_ce": 0.12304795533418655,
+      "loss_xval": 0.74609375,
+      "num_input_tokens_seen": 71024808,
+      "step": 411
+    },
+    {
+      "epoch": 0.16466826538768986,
+      "grad_norm": 319.3999891226021,
+      "learning_rate": 5e-06,
+      "loss": 1.2699,
+      "num_input_tokens_seen": 71197624,
+      "step": 412
+    },
+    {
+      "epoch": 0.16466826538768986,
+      "loss": 1.155133843421936,
+      "loss_ce": 0.12876664102077484,
+      "loss_xval": 1.0234375,
+      "num_input_tokens_seen": 71197624,
+      "step": 412
+    },
+    {
+      "epoch": 0.1650679456434852,
+      "grad_norm": 320.57417407860714,
+      "learning_rate": 5e-06,
+      "loss": 1.322,
+      "num_input_tokens_seen": 71370280,
+      "step": 413
+    },
+    {
+      "epoch": 0.1650679456434852,
+      "loss": 1.4060778617858887,
+      "loss_ce": 0.13434943556785583,
+      "loss_xval": 1.2734375,
+      "num_input_tokens_seen": 71370280,
+      "step": 413
+    },
+    {
+      "epoch": 0.16546762589928057,
+      "grad_norm": 178.26232739789174,
+      "learning_rate": 5e-06,
+      "loss": 1.2397,
+      "num_input_tokens_seen": 71543160,
+      "step": 414
+    },
+    {
+      "epoch": 0.16546762589928057,
+      "loss": 0.9019365310668945,
+      "loss_ce": 0.12923146784305573,
+      "loss_xval": 0.7734375,
+      "num_input_tokens_seen": 71543160,
+      "step": 414
+    },
+    {
+      "epoch": 0.16586730615507594,
+      "grad_norm": 114.95281581821858,
+      "learning_rate": 5e-06,
+      "loss": 1.1288,
+      "num_input_tokens_seen": 71716120,
+      "step": 415
+    },
+    {
+      "epoch": 0.16586730615507594,
+      "loss": 1.384334921836853,
+      "loss_ce": 0.12664452195167542,
+      "loss_xval": 1.2578125,
+      "num_input_tokens_seen": 71716120,
+      "step": 415
+    },
+    {
+      "epoch": 0.16626698641087131,
+      "grad_norm": 242.53801499071906,
+      "learning_rate": 5e-06,
+      "loss": 1.287,
+      "num_input_tokens_seen": 71888592,
+      "step": 416
+    },
+    {
+      "epoch": 0.16626698641087131,
+      "loss": 1.0861682891845703,
+      "loss_ce": 0.14195440709590912,
+      "loss_xval": 0.9453125,
+      "num_input_tokens_seen": 71888592,
+      "step": 416
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "grad_norm": 305.69045590617145,
+      "learning_rate": 5e-06,
+      "loss": 1.0574,
+      "num_input_tokens_seen": 72061352,
+      "step": 417
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "loss": 0.9189929962158203,
+      "loss_ce": 0.1511707752943039,
+      "loss_xval": 0.76953125,
+      "num_input_tokens_seen": 72061352,
+      "step": 417
+    },
+    {
+      "epoch": 0.16706634692246203,
+      "grad_norm": 232.45571623460697,
+      "learning_rate": 5e-06,
+      "loss": 1.4015,
+      "num_input_tokens_seen": 72234232,
+      "step": 418
+    },
+    {
+      "epoch": 0.16706634692246203,
+      "loss": 0.8937399387359619,
+      "loss_ce": 0.15826627612113953,
+      "loss_xval": 0.734375,
+      "num_input_tokens_seen": 72234232,
+      "step": 418
+    },
+    {
+      "epoch": 0.1674660271782574,
+      "grad_norm": 104.88982706534415,
+      "learning_rate": 5e-06,
+      "loss": 1.3726,
+      "num_input_tokens_seen": 72406776,
+      "step": 419
+    },
+    {
+      "epoch": 0.1674660271782574,
+      "loss": 1.644016981124878,
+      "loss_ce": 0.1425521820783615,
+      "loss_xval": 1.5,
+      "num_input_tokens_seen": 72406776,
+      "step": 419
+    },
+    {
+      "epoch": 0.16786570743405277,
+      "grad_norm": 132.05241726760326,
+      "learning_rate": 5e-06,
+      "loss": 1.5023,
+      "num_input_tokens_seen": 72579768,
+      "step": 420
+    },
+    {
+      "epoch": 0.16786570743405277,
+      "loss": 1.6695343255996704,
+      "loss_ce": 0.14804987609386444,
+      "loss_xval": 1.5234375,
+      "num_input_tokens_seen": 72579768,
+      "step": 420
+    },
+    {
+      "epoch": 0.1682653876898481,
+      "grad_norm": 360.7322762424225,
+      "learning_rate": 5e-06,
+      "loss": 1.3444,
+      "num_input_tokens_seen": 72752160,
+      "step": 421
+    },
+    {
+      "epoch": 0.1682653876898481,
+      "loss": 1.3023874759674072,
+      "loss_ce": 0.138325035572052,
+      "loss_xval": 1.1640625,
+      "num_input_tokens_seen": 72752160,
+      "step": 421
+    },
+    {
+      "epoch": 0.16866506794564348,
+      "grad_norm": 534.9608711756771,
+      "learning_rate": 5e-06,
+      "loss": 1.3106,
+      "num_input_tokens_seen": 72925176,
+      "step": 422
+    },
+    {
+      "epoch": 0.16866506794564348,
+      "loss": 1.265779733657837,
+      "loss_ce": 0.10196132957935333,
+      "loss_xval": 1.1640625,
+      "num_input_tokens_seen": 72925176,
+      "step": 422
+    },
+    {
+      "epoch": 0.16906474820143885,
+      "grad_norm": 462.6432650379374,
+      "learning_rate": 5e-06,
+      "loss": 1.3916,
+      "num_input_tokens_seen": 73098032,
+      "step": 423
+    },
+    {
+      "epoch": 0.16906474820143885,
+      "loss": 1.118710994720459,
+      "loss_ce": 0.11578124761581421,
+      "loss_xval": 1.0,
+      "num_input_tokens_seen": 73098032,
+      "step": 423
+    },
+    {
+      "epoch": 0.16946442845723422,
+      "grad_norm": 101.64068942565726,
+      "learning_rate": 5e-06,
+      "loss": 1.0825,
+      "num_input_tokens_seen": 73270832,
+      "step": 424
+    },
+    {
+      "epoch": 0.16946442845723422,
+      "loss": 0.9654685854911804,
+      "loss_ce": 0.13453596830368042,
+      "loss_xval": 0.83203125,
+      "num_input_tokens_seen": 73270832,
+      "step": 424
+    },
+    {
+      "epoch": 0.16986410871302957,
+      "grad_norm": 201.11879256749876,
+      "learning_rate": 5e-06,
+      "loss": 1.1616,
+      "num_input_tokens_seen": 73443768,
+      "step": 425
+    },
+    {
+      "epoch": 0.16986410871302957,
+      "loss": 1.3148138523101807,
+      "loss_ce": 0.17748481035232544,
+      "loss_xval": 1.140625,
+      "num_input_tokens_seen": 73443768,
+      "step": 425
+    },
+    {
+      "epoch": 0.17026378896882494,
+      "grad_norm": 69.29811911831622,
+      "learning_rate": 5e-06,
+      "loss": 1.0085,
+      "num_input_tokens_seen": 73616680,
+      "step": 426
+    },
+    {
+      "epoch": 0.17026378896882494,
+      "loss": 1.0997118949890137,
+      "loss_ce": 0.2227586954832077,
+      "loss_xval": 0.875,
+      "num_input_tokens_seen": 73616680,
+      "step": 426
+    },
+    {
+      "epoch": 0.1706634692246203,
+      "grad_norm": 160.2507375587037,
+      "learning_rate": 5e-06,
+      "loss": 1.5514,
+      "num_input_tokens_seen": 73789392,
+      "step": 427
+    },
+    {
+      "epoch": 0.1706634692246203,
+      "loss": 2.2413222789764404,
+      "loss_ce": 0.21300186216831207,
+      "loss_xval": 2.03125,
+      "num_input_tokens_seen": 73789392,
+      "step": 427
+    },
+    {
+      "epoch": 0.17106314948041568,
+      "grad_norm": 58.93629582053553,
+      "learning_rate": 5e-06,
+      "loss": 1.3997,
+      "num_input_tokens_seen": 73962416,
+      "step": 428
+    },
+    {
+      "epoch": 0.17106314948041568,
+      "loss": 1.1142562627792358,
+      "loss_ce": 0.16332849860191345,
+      "loss_xval": 0.94921875,
+      "num_input_tokens_seen": 73962416,
+      "step": 428
+    },
+    {
+      "epoch": 0.17146282973621102,
+      "grad_norm": 136.2720034068254,
+      "learning_rate": 5e-06,
+      "loss": 1.2624,
+      "num_input_tokens_seen": 74135600,
+      "step": 429
+    },
+    {
+      "epoch": 0.17146282973621102,
+      "loss": 1.42500901222229,
+      "loss_ce": 0.1691497564315796,
+      "loss_xval": 1.2578125,
+      "num_input_tokens_seen": 74135600,
+      "step": 429
+    },
+    {
+      "epoch": 0.1718625099920064,
+      "grad_norm": 148.31464135041392,
+      "learning_rate": 5e-06,
+      "loss": 1.6033,
+      "num_input_tokens_seen": 74308904,
+      "step": 430
+    },
+    {
+      "epoch": 0.1718625099920064,
+      "loss": 1.8530278205871582,
+      "loss_ce": 0.15136760473251343,
+      "loss_xval": 1.703125,
+      "num_input_tokens_seen": 74308904,
+      "step": 430
+    },
+    {
+      "epoch": 0.17226219024780176,
+      "grad_norm": 90.69042515021651,
+      "learning_rate": 5e-06,
+      "loss": 1.0973,
+      "num_input_tokens_seen": 74482056,
+      "step": 431
+    },
+    {
+      "epoch": 0.17226219024780176,
+      "loss": 1.100707769393921,
+      "loss_ce": 0.16174298524856567,
+      "loss_xval": 0.9375,
+      "num_input_tokens_seen": 74482056,
+      "step": 431
+    },
+    {
+      "epoch": 0.17266187050359713,
+      "grad_norm": 76.132967101736,
+      "learning_rate": 5e-06,
+      "loss": 1.0927,
+      "num_input_tokens_seen": 74655264,
+      "step": 432
+    },
+    {
+      "epoch": 0.17266187050359713,
+      "loss": 0.9883812069892883,
+      "loss_ce": 0.13974839448928833,
+      "loss_xval": 0.84765625,
+      "num_input_tokens_seen": 74655264,
+      "step": 432
+    },
+    {
+      "epoch": 0.17306155075939247,
+      "grad_norm": 64.87876348409729,
+      "learning_rate": 5e-06,
+      "loss": 1.1213,
+      "num_input_tokens_seen": 74828240,
+      "step": 433
+    },
+    {
+      "epoch": 0.17306155075939247,
+      "loss": 1.2422434091567993,
+      "loss_ce": 0.1206614226102829,
+      "loss_xval": 1.125,
+      "num_input_tokens_seen": 74828240,
+      "step": 433
+    },
+    {
+      "epoch": 0.17346123101518784,
+      "grad_norm": 59.25309660695592,
+      "learning_rate": 5e-06,
+      "loss": 1.0091,
+      "num_input_tokens_seen": 75001712,
+      "step": 434
+    },
+    {
+      "epoch": 0.17346123101518784,
+      "loss": 0.9062660336494446,
+      "loss_ce": 0.11586074531078339,
+      "loss_xval": 0.7890625,
+      "num_input_tokens_seen": 75001712,
+      "step": 434
+    },
+    {
+      "epoch": 0.17386091127098321,
+      "grad_norm": 80.00118800339006,
+      "learning_rate": 5e-06,
+      "loss": 1.2468,
+      "num_input_tokens_seen": 75174536,
+      "step": 435
+    },
+    {
+      "epoch": 0.17386091127098321,
+      "loss": 1.3547441959381104,
+      "loss_ce": 0.09778615832328796,
+      "loss_xval": 1.2578125,
+      "num_input_tokens_seen": 75174536,
+      "step": 435
+    },
+    {
+      "epoch": 0.17426059152677859,
+      "grad_norm": 95.79254596327765,
+      "learning_rate": 5e-06,
+      "loss": 0.7757,
+      "num_input_tokens_seen": 75347544,
+      "step": 436
+    },
+    {
+      "epoch": 0.17426059152677859,
+      "loss": 0.7775790095329285,
+      "loss_ce": 0.08666104078292847,
+      "loss_xval": 0.69140625,
+      "num_input_tokens_seen": 75347544,
+      "step": 436
+    },
+    {
+      "epoch": 0.17466027178257393,
+      "grad_norm": 232.35516007250703,
+      "learning_rate": 5e-06,
+      "loss": 1.3154,
+      "num_input_tokens_seen": 75520632,
+      "step": 437
+    },
+    {
+      "epoch": 0.17466027178257393,
+      "loss": 1.4089746475219727,
+      "loss_ce": 0.07499027997255325,
+      "loss_xval": 1.3359375,
+      "num_input_tokens_seen": 75520632,
+      "step": 437
+    },
+    {
+      "epoch": 0.1750599520383693,
+      "grad_norm": 519.4242646802579,
+      "learning_rate": 5e-06,
+      "loss": 1.8545,
+      "num_input_tokens_seen": 75693864,
+      "step": 438
+    },
+    {
+      "epoch": 0.1750599520383693,
+      "loss": 1.427260160446167,
+      "loss_ce": 0.06446726620197296,
+      "loss_xval": 1.359375,
+      "num_input_tokens_seen": 75693864,
+      "step": 438
+    },
+    {
+      "epoch": 0.17545963229416467,
+      "grad_norm": 988.9550741607192,
+      "learning_rate": 5e-06,
+      "loss": 2.3758,
+      "num_input_tokens_seen": 75866888,
+      "step": 439
+    },
+    {
+      "epoch": 0.17545963229416467,
+      "loss": 2.490389347076416,
+      "loss_ce": 0.08120955526828766,
+      "loss_xval": 2.40625,
+      "num_input_tokens_seen": 75866888,
+      "step": 439
+    },
+    {
+      "epoch": 0.17585931254996004,
+      "grad_norm": 1106.2099257737912,
+      "learning_rate": 5e-06,
+      "loss": 2.9193,
+      "num_input_tokens_seen": 76039728,
+      "step": 440
+    },
+    {
+      "epoch": 0.17585931254996004,
+      "loss": 2.894068717956543,
+      "loss_ce": 0.11086547374725342,
+      "loss_xval": 2.78125,
+      "num_input_tokens_seen": 76039728,
+      "step": 440
+    },
+    {
+      "epoch": 0.17625899280575538,
+      "grad_norm": 105.21406614004921,
+      "learning_rate": 5e-06,
+      "loss": 1.5263,
+      "num_input_tokens_seen": 76212632,
+      "step": 441
+    },
+    {
+      "epoch": 0.17625899280575538,
+      "loss": 1.382925271987915,
+      "loss_ce": 0.13243699073791504,
+      "loss_xval": 1.25,
+      "num_input_tokens_seen": 76212632,
+      "step": 441
+    },
+    {
+      "epoch": 0.17665867306155075,
+      "grad_norm": 538.4292674538996,
+      "learning_rate": 5e-06,
+      "loss": 1.7185,
+      "num_input_tokens_seen": 76385848,
+      "step": 442
+    },
+    {
+      "epoch": 0.17665867306155075,
+      "loss": 1.966761589050293,
+      "loss_ce": 0.19283580780029297,
+      "loss_xval": 1.7734375,
+      "num_input_tokens_seen": 76385848,
+      "step": 442
+    },
+    {
+      "epoch": 0.17705835331734612,
+      "grad_norm": 254.3195195821683,
+      "learning_rate": 5e-06,
+      "loss": 1.2737,
+      "num_input_tokens_seen": 76558752,
+      "step": 443
+    },
+    {
+      "epoch": 0.17705835331734612,
+      "loss": 1.3162972927093506,
+      "loss_ce": 0.23280119895935059,
+      "loss_xval": 1.0859375,
+      "num_input_tokens_seen": 76558752,
+      "step": 443
+    },
+    {
+      "epoch": 0.1774580335731415,
+      "grad_norm": 522.1919334034071,
+      "learning_rate": 5e-06,
+      "loss": 1.7626,
+      "num_input_tokens_seen": 76731944,
+      "step": 444
+    },
+    {
+      "epoch": 0.1774580335731415,
+      "loss": 1.9908093214035034,
+      "loss_ce": 0.27547723054885864,
+      "loss_xval": 1.71875,
+      "num_input_tokens_seen": 76731944,
+      "step": 444
+    },
+    {
+      "epoch": 0.17785771382893686,
+      "grad_norm": 216.82852013498507,
+      "learning_rate": 5e-06,
+      "loss": 1.7808,
+      "num_input_tokens_seen": 76904696,
+      "step": 445
+    },
+    {
+      "epoch": 0.17785771382893686,
+      "loss": 1.9551982879638672,
+      "loss_ce": 0.29369932413101196,
+      "loss_xval": 1.6640625,
+      "num_input_tokens_seen": 76904696,
+      "step": 445
+    },
+    {
+      "epoch": 0.1782573940847322,
+      "grad_norm": 281.8149994961891,
+      "learning_rate": 5e-06,
+      "loss": 1.3799,
+      "num_input_tokens_seen": 77077232,
+      "step": 446
+    },
+    {
+      "epoch": 0.1782573940847322,
+      "loss": 1.4842294454574585,
+      "loss_ce": 0.2862313687801361,
+      "loss_xval": 1.1953125,
+      "num_input_tokens_seen": 77077232,
+      "step": 446
+    },
+    {
+      "epoch": 0.17865707434052758,
+      "grad_norm": 315.72186191273005,
+      "learning_rate": 5e-06,
+      "loss": 1.7867,
+      "num_input_tokens_seen": 77249936,
+      "step": 447
+    },
+    {
+      "epoch": 0.17865707434052758,
+      "loss": 1.7437907457351685,
+      "loss_ce": 0.30873218178749084,
+      "loss_xval": 1.4375,
+      "num_input_tokens_seen": 77249936,
+      "step": 447
+    },
+    {
+      "epoch": 0.17905675459632295,
+      "grad_norm": 59.192440355888245,
+      "learning_rate": 5e-06,
+      "loss": 1.3851,
+      "num_input_tokens_seen": 77423072,
+      "step": 448
+    },
+    {
+      "epoch": 0.17905675459632295,
+      "loss": 1.6609851121902466,
+      "loss_ce": 0.2824450731277466,
+      "loss_xval": 1.375,
+      "num_input_tokens_seen": 77423072,
+      "step": 448
+    },
+    {
+      "epoch": 0.17945643485211832,
+      "grad_norm": 299.73718753712205,
+      "learning_rate": 5e-06,
+      "loss": 1.5403,
+      "num_input_tokens_seen": 77595776,
+      "step": 449
+    },
+    {
+      "epoch": 0.17945643485211832,
+      "loss": 1.7367419004440308,
+      "loss_ce": 0.26506221294403076,
+      "loss_xval": 1.46875,
+      "num_input_tokens_seen": 77595776,
+      "step": 449
+    },
+    {
+      "epoch": 0.17985611510791366,
+      "grad_norm": 276.48273158856335,
+      "learning_rate": 5e-06,
+      "loss": 1.5309,
+      "num_input_tokens_seen": 77769064,
+      "step": 450
+    },
+    {
+      "epoch": 0.17985611510791366,
+      "loss": 1.32578706741333,
+      "loss_ce": 0.2933163046836853,
+      "loss_xval": 1.03125,
+      "num_input_tokens_seen": 77769064,
+      "step": 450
+    },
+    {
+      "epoch": 0.18025579536370903,
+      "grad_norm": 160.94325945974563,
+      "learning_rate": 5e-06,
+      "loss": 1.4696,
+      "num_input_tokens_seen": 77941696,
+      "step": 451
+    },
+    {
+      "epoch": 0.18025579536370903,
+      "loss": 1.3891505002975464,
+      "loss_ce": 0.3073633909225464,
+      "loss_xval": 1.078125,
+      "num_input_tokens_seen": 77941696,
+      "step": 451
+    },
+    {
+      "epoch": 0.1806554756195044,
+      "grad_norm": 312.55926221947135,
+      "learning_rate": 5e-06,
+      "loss": 1.3929,
+      "num_input_tokens_seen": 78114856,
+      "step": 452
+    },
+    {
+      "epoch": 0.1806554756195044,
+      "loss": 1.0724852085113525,
+      "loss_ce": 0.2741453945636749,
+      "loss_xval": 0.796875,
+      "num_input_tokens_seen": 78114856,
+      "step": 452
+    },
+    {
+      "epoch": 0.18105515587529977,
+      "grad_norm": 99.87397360747839,
+      "learning_rate": 5e-06,
+      "loss": 1.5163,
+      "num_input_tokens_seen": 78287864,
+      "step": 453
+    },
+    {
+      "epoch": 0.18105515587529977,
+      "loss": 1.1197184324264526,
+      "loss_ce": 0.28866374492645264,
+      "loss_xval": 0.83203125,
+      "num_input_tokens_seen": 78287864,
+      "step": 453
+    },
+    {
+      "epoch": 0.18145483613109512,
+      "grad_norm": 274.6263447275612,
+      "learning_rate": 5e-06,
+      "loss": 1.2871,
+      "num_input_tokens_seen": 78460704,
+      "step": 454
+    },
+    {
+      "epoch": 0.18145483613109512,
+      "loss": 1.456176519393921,
+      "loss_ce": 0.2547605335712433,
+      "loss_xval": 1.203125,
+      "num_input_tokens_seen": 78460704,
+      "step": 454
+    },
+    {
+      "epoch": 0.18185451638689049,
+      "grad_norm": 199.6778687760442,
+      "learning_rate": 5e-06,
+      "loss": 1.2305,
+      "num_input_tokens_seen": 78633736,
+      "step": 455
+    },
+    {
+      "epoch": 0.18185451638689049,
+      "loss": 1.268936276435852,
+      "loss_ce": 0.2605133652687073,
+      "loss_xval": 1.0078125,
+      "num_input_tokens_seen": 78633736,
+      "step": 455
+    },
+    {
+      "epoch": 0.18225419664268586,
+      "grad_norm": 84.40253001428162,
+      "learning_rate": 5e-06,
+      "loss": 1.0979,
+      "num_input_tokens_seen": 78806336,
+      "step": 456
+    },
+    {
+      "epoch": 0.18225419664268586,
+      "loss": 0.8699742555618286,
+      "loss_ce": 0.237527996301651,
+      "loss_xval": 0.6328125,
+      "num_input_tokens_seen": 78806336,
+      "step": 456
+    },
+    {
+      "epoch": 0.18265387689848123,
+      "grad_norm": 285.993440607779,
+      "learning_rate": 5e-06,
+      "loss": 1.8171,
+      "num_input_tokens_seen": 78979056,
+      "step": 457
+    },
+    {
+      "epoch": 0.18265387689848123,
+      "loss": 1.7808828353881836,
+      "loss_ce": 0.22766010463237762,
+      "loss_xval": 1.5546875,
+      "num_input_tokens_seen": 78979056,
+      "step": 457
+    },
+    {
+      "epoch": 0.18305355715427657,
+      "grad_norm": 90.58562385013235,
+      "learning_rate": 5e-06,
+      "loss": 0.5619,
+      "num_input_tokens_seen": 79148520,
+      "step": 458
+    },
+    {
+      "epoch": 0.18305355715427657,
+      "loss": 0.5432583093643188,
+      "loss_ce": 0.22099265456199646,
+      "loss_xval": 0.322265625,
+      "num_input_tokens_seen": 79148520,
+      "step": 458
+    },
+    {
+      "epoch": 0.18345323741007194,
+      "grad_norm": 215.2025403833186,
+      "learning_rate": 5e-06,
+      "loss": 1.2952,
+      "num_input_tokens_seen": 79321256,
+      "step": 459
+    },
+    {
+      "epoch": 0.18345323741007194,
+      "loss": 1.2274497747421265,
+      "loss_ce": 0.23355332016944885,
+      "loss_xval": 0.9921875,
+      "num_input_tokens_seen": 79321256,
+      "step": 459
+    },
+    {
+      "epoch": 0.1838529176658673,
+      "grad_norm": 143.1375353333749,
+      "learning_rate": 5e-06,
+      "loss": 1.2422,
+      "num_input_tokens_seen": 79494168,
+      "step": 460
+    },
+    {
+      "epoch": 0.1838529176658673,
+      "loss": 1.2271267175674438,
+      "loss_ce": 0.20149190723896027,
+      "loss_xval": 1.0234375,
+      "num_input_tokens_seen": 79494168,
+      "step": 460
+    },
+    {
+      "epoch": 0.18425259792166268,
+      "grad_norm": 108.0060854037686,
+      "learning_rate": 5e-06,
+      "loss": 1.5776,
+      "num_input_tokens_seen": 79663920,
+      "step": 461
+    },
+    {
+      "epoch": 0.18425259792166268,
+      "loss": 1.7579941749572754,
+      "loss_ce": 0.1915878802537918,
+      "loss_xval": 1.5625,
+      "num_input_tokens_seen": 79663920,
+      "step": 461
+    },
+    {
+      "epoch": 0.18465227817745802,
+      "grad_norm": 260.0743652424003,
+      "learning_rate": 5e-06,
+      "loss": 1.6427,
+      "num_input_tokens_seen": 79836992,
+      "step": 462
+    },
+    {
+      "epoch": 0.18465227817745802,
+      "loss": 1.4615955352783203,
+      "loss_ce": 0.1910877823829651,
+      "loss_xval": 1.2734375,
+      "num_input_tokens_seen": 79836992,
+      "step": 462
+    },
+    {
+      "epoch": 0.1850519584332534,
+      "grad_norm": 112.36519545386706,
+      "learning_rate": 5e-06,
+      "loss": 1.4147,
+      "num_input_tokens_seen": 80009824,
+      "step": 463
+    },
+    {
+      "epoch": 0.1850519584332534,
+      "loss": 1.2974412441253662,
+      "loss_ce": 0.1806199550628662,
+      "loss_xval": 1.1171875,
+      "num_input_tokens_seen": 80009824,
+      "step": 463
+    },
+    {
+      "epoch": 0.18545163868904876,
+      "grad_norm": 298.49579765479467,
+      "learning_rate": 5e-06,
+      "loss": 1.1115,
+      "num_input_tokens_seen": 80182856,
+      "step": 464
+    },
+    {
+      "epoch": 0.18545163868904876,
+      "loss": 1.4449951648712158,
+      "loss_ce": 0.1569093018770218,
+      "loss_xval": 1.2890625,
+      "num_input_tokens_seen": 80182856,
+      "step": 464
+    },
+    {
+      "epoch": 0.18585131894484413,
+      "grad_norm": 95.35891374971652,
+      "learning_rate": 5e-06,
+      "loss": 1.072,
+      "num_input_tokens_seen": 80355360,
+      "step": 465
+    },
+    {
+      "epoch": 0.18585131894484413,
+      "loss": 1.2684335708618164,
+      "loss_ce": 0.13220316171646118,
+      "loss_xval": 1.1328125,
+      "num_input_tokens_seen": 80355360,
+      "step": 465
+    },
+    {
+      "epoch": 0.18625099920063948,
+      "grad_norm": 172.78392931286916,
+      "learning_rate": 5e-06,
+      "loss": 1.2831,
+      "num_input_tokens_seen": 80528248,
+      "step": 466
+    },
+    {
+      "epoch": 0.18625099920063948,
+      "loss": 1.3320605754852295,
+      "loss_ce": 0.1433398425579071,
+      "loss_xval": 1.1875,
+      "num_input_tokens_seen": 80528248,
+      "step": 466
+    },
+    {
+      "epoch": 0.18665067945643485,
+      "grad_norm": 51.21602711363438,
+      "learning_rate": 5e-06,
+      "loss": 1.2468,
+      "num_input_tokens_seen": 80700880,
+      "step": 467
+    },
+    {
+      "epoch": 0.18665067945643485,
+      "loss": 1.1996004581451416,
+      "loss_ce": 0.13368244469165802,
+      "loss_xval": 1.0625,
+      "num_input_tokens_seen": 80700880,
+      "step": 467
+    },
+    {
+      "epoch": 0.18705035971223022,
+      "grad_norm": 162.93505295456467,
+      "learning_rate": 5e-06,
+      "loss": 0.9464,
+      "num_input_tokens_seen": 80873696,
+      "step": 468
+    },
+    {
+      "epoch": 0.18705035971223022,
+      "loss": 0.9175683259963989,
+      "loss_ce": 0.10885241627693176,
+      "loss_xval": 0.80859375,
+      "num_input_tokens_seen": 80873696,
+      "step": 468
+    },
+    {
+      "epoch": 0.1874500399680256,
+      "grad_norm": 87.58305241565736,
+      "learning_rate": 5e-06,
+      "loss": 1.1474,
+      "num_input_tokens_seen": 81046288,
+      "step": 469
+    },
+    {
+      "epoch": 0.1874500399680256,
+      "loss": 1.0319910049438477,
+      "loss_ce": 0.09424698352813721,
+      "loss_xval": 0.9375,
+      "num_input_tokens_seen": 81046288,
+      "step": 469
+    },
+    {
+      "epoch": 0.18784972022382093,
+      "grad_norm": 158.44691760619935,
+      "learning_rate": 5e-06,
+      "loss": 1.5434,
+      "num_input_tokens_seen": 81219400,
+      "step": 470
+    },
+    {
+      "epoch": 0.18784972022382093,
+      "loss": 1.065626621246338,
+      "loss_ce": 0.09528970718383789,
+      "loss_xval": 0.96875,
+      "num_input_tokens_seen": 81219400,
+      "step": 470
+    },
+    {
+      "epoch": 0.1882494004796163,
+      "grad_norm": 87.4090982666857,
+      "learning_rate": 5e-06,
+      "loss": 0.9658,
+      "num_input_tokens_seen": 81392432,
+      "step": 471
+    },
+    {
+      "epoch": 0.1882494004796163,
+      "loss": 0.8852615356445312,
+      "loss_ce": 0.09217070043087006,
+      "loss_xval": 0.79296875,
+      "num_input_tokens_seen": 81392432,
+      "step": 471
+    },
+    {
+      "epoch": 0.18864908073541167,
+      "grad_norm": 122.54682886858762,
+      "learning_rate": 5e-06,
+      "loss": 1.2232,
+      "num_input_tokens_seen": 81565384,
+      "step": 472
+    },
+    {
+      "epoch": 0.18864908073541167,
+      "loss": 1.1961512565612793,
+      "loss_ce": 0.08006230741739273,
+      "loss_xval": 1.1171875,
+      "num_input_tokens_seen": 81565384,
+      "step": 472
+    },
+    {
+      "epoch": 0.18904876099120704,
+      "grad_norm": 84.30592183743661,
+      "learning_rate": 5e-06,
+      "loss": 0.8992,
+      "num_input_tokens_seen": 81738112,
+      "step": 473
+    },
+    {
+      "epoch": 0.18904876099120704,
+      "loss": 1.047995924949646,
+      "loss_ce": 0.06899204850196838,
+      "loss_xval": 0.98046875,
+      "num_input_tokens_seen": 81738112,
+      "step": 473
+    },
+    {
+      "epoch": 0.18944844124700239,
+      "grad_norm": 53.15779481734767,
+      "learning_rate": 5e-06,
+      "loss": 0.8962,
+      "num_input_tokens_seen": 81911520,
+      "step": 474
+    },
+    {
+      "epoch": 0.18944844124700239,
+      "loss": 0.8450521230697632,
+      "loss_ce": 0.06404630839824677,
+      "loss_xval": 0.78125,
+      "num_input_tokens_seen": 81911520,
+      "step": 474
+    },
+    {
+      "epoch": 0.18984812150279776,
+      "grad_norm": 53.57707087954573,
+      "learning_rate": 5e-06,
+      "loss": 0.9375,
+      "num_input_tokens_seen": 82084208,
+      "step": 475
+    },
+    {
+      "epoch": 0.18984812150279776,
+      "loss": 0.9071247577667236,
+      "loss_ce": 0.06813547015190125,
+      "loss_xval": 0.83984375,
+      "num_input_tokens_seen": 82084208,
+      "step": 475
+    },
+    {
+      "epoch": 0.19024780175859313,
+      "grad_norm": 99.14610783345852,
+      "learning_rate": 5e-06,
+      "loss": 1.3425,
+      "num_input_tokens_seen": 82257544,
+      "step": 476
+    },
+    {
+      "epoch": 0.19024780175859313,
+      "loss": 1.4562163352966309,
+      "loss_ce": 0.05588666349649429,
+      "loss_xval": 1.3984375,
+      "num_input_tokens_seen": 82257544,
+      "step": 476
+    },
+    {
+      "epoch": 0.1906474820143885,
+      "grad_norm": 51.46105686314192,
+      "learning_rate": 5e-06,
+      "loss": 0.8211,
+      "num_input_tokens_seen": 82430560,
+      "step": 477
+    },
+    {
+      "epoch": 0.1906474820143885,
+      "loss": 0.915199339389801,
+      "loss_ce": 0.049842871725559235,
+      "loss_xval": 0.8671875,
+      "num_input_tokens_seen": 82430560,
+      "step": 477
+    },
+    {
+      "epoch": 0.19104716227018384,
+      "grad_norm": 91.19133630030953,
+      "learning_rate": 5e-06,
+      "loss": 0.6196,
+      "num_input_tokens_seen": 82603408,
+      "step": 478
+    },
+    {
+      "epoch": 0.19104716227018384,
+      "loss": 0.725679337978363,
+      "loss_ce": 0.04806704819202423,
+      "loss_xval": 0.67578125,
+      "num_input_tokens_seen": 82603408,
+      "step": 478
+    },
+    {
+      "epoch": 0.1914468425259792,
+      "grad_norm": 112.31624471773934,
+      "learning_rate": 5e-06,
+      "loss": 1.3017,
+      "num_input_tokens_seen": 82776032,
+      "step": 479
+    },
+    {
+      "epoch": 0.1914468425259792,
+      "loss": 1.3830339908599854,
+      "loss_ce": 0.04367845505475998,
+      "loss_xval": 1.3359375,
+      "num_input_tokens_seen": 82776032,
+      "step": 479
+    },
+    {
+      "epoch": 0.19184652278177458,
+      "grad_norm": 53.33397350743472,
+      "learning_rate": 5e-06,
+      "loss": 1.2791,
+      "num_input_tokens_seen": 82948864,
+      "step": 480
+    },
+    {
+      "epoch": 0.19184652278177458,
+      "loss": 1.2594175338745117,
+      "loss_ce": 0.044329725205898285,
+      "loss_xval": 1.21875,
+      "num_input_tokens_seen": 82948864,
+      "step": 480
+    },
+    {
+      "epoch": 0.19224620303756995,
+      "grad_norm": 58.189356919828406,
+      "learning_rate": 5e-06,
+      "loss": 0.7775,
+      "num_input_tokens_seen": 83122064,
+      "step": 481
+    },
+    {
+      "epoch": 0.19224620303756995,
+      "loss": 0.7105453014373779,
+      "loss_ce": 0.0419052317738533,
+      "loss_xval": 0.66796875,
+      "num_input_tokens_seen": 83122064,
+      "step": 481
+    },
+    {
+      "epoch": 0.1926458832933653,
+      "grad_norm": 157.82228179423655,
+      "learning_rate": 5e-06,
+      "loss": 1.1241,
+      "num_input_tokens_seen": 83295248,
+      "step": 482
+    },
+    {
+      "epoch": 0.1926458832933653,
+      "loss": 1.1308469772338867,
+      "loss_ce": 0.034655675292015076,
+      "loss_xval": 1.09375,
+      "num_input_tokens_seen": 83295248,
+      "step": 482
+    },
+    {
+      "epoch": 0.19304556354916066,
+      "grad_norm": 261.49086967978093,
+      "learning_rate": 5e-06,
+      "loss": 1.4113,
+      "num_input_tokens_seen": 83468488,
+      "step": 483
+    },
+    {
+      "epoch": 0.19304556354916066,
+      "loss": 1.4266133308410645,
+      "loss_ce": 0.036842815577983856,
+      "loss_xval": 1.390625,
+      "num_input_tokens_seen": 83468488,
+      "step": 483
+    },
+    {
+      "epoch": 0.19344524380495604,
+      "grad_norm": 259.4909482177068,
+      "learning_rate": 5e-06,
+      "loss": 1.1918,
+      "num_input_tokens_seen": 83641736,
+      "step": 484
+    },
+    {
+      "epoch": 0.19344524380495604,
+      "loss": 1.2513983249664307,
+      "loss_ce": 0.03948421776294708,
+      "loss_xval": 1.2109375,
+      "num_input_tokens_seen": 83641736,
+      "step": 484
+    },
+    {
+      "epoch": 0.1938449240607514,
+      "grad_norm": 209.39951992648977,
+      "learning_rate": 5e-06,
+      "loss": 0.9566,
+      "num_input_tokens_seen": 83815056,
+      "step": 485
+    },
+    {
+      "epoch": 0.1938449240607514,
+      "loss": 1.1501352787017822,
+      "loss_ce": 0.03856303542852402,
+      "loss_xval": 1.109375,
+      "num_input_tokens_seen": 83815056,
+      "step": 485
+    },
+    {
+      "epoch": 0.19424460431654678,
+      "grad_norm": 54.05007201034879,
+      "learning_rate": 5e-06,
+      "loss": 0.9943,
+      "num_input_tokens_seen": 83987984,
+      "step": 486
+    },
+    {
+      "epoch": 0.19424460431654678,
+      "loss": 1.3479745388031006,
+      "loss_ce": 0.037183478474617004,
+      "loss_xval": 1.3125,
+      "num_input_tokens_seen": 83987984,
+      "step": 486
+    },
+    {
+      "epoch": 0.19464428457234212,
+      "grad_norm": 145.86163072629424,
+      "learning_rate": 5e-06,
+      "loss": 1.1361,
+      "num_input_tokens_seen": 84160704,
+      "step": 487
+    },
+    {
+      "epoch": 0.19464428457234212,
+      "loss": 1.1853137016296387,
+      "loss_ce": 0.040294162929058075,
+      "loss_xval": 1.1484375,
+      "num_input_tokens_seen": 84160704,
+      "step": 487
+    },
+    {
+      "epoch": 0.1950439648281375,
+      "grad_norm": 305.17188970413605,
+      "learning_rate": 5e-06,
+      "loss": 0.9527,
+      "num_input_tokens_seen": 84333744,
+      "step": 488
+    },
+    {
+      "epoch": 0.1950439648281375,
+      "loss": 1.0381686687469482,
+      "loss_ce": 0.03060019761323929,
+      "loss_xval": 1.0078125,
+      "num_input_tokens_seen": 84333744,
+      "step": 488
+    },
+    {
+      "epoch": 0.19544364508393286,
+      "grad_norm": 367.7867921107738,
+      "learning_rate": 5e-06,
+      "loss": 0.9876,
+      "num_input_tokens_seen": 84506240,
+      "step": 489
+    },
+    {
+      "epoch": 0.19544364508393286,
+      "loss": 1.0127192735671997,
+      "loss_ce": 0.033227067440748215,
+      "loss_xval": 0.98046875,
+      "num_input_tokens_seen": 84506240,
+      "step": 489
+    },
+    {
+      "epoch": 0.19584332533972823,
+      "grad_norm": 109.77618272454248,
+      "learning_rate": 5e-06,
+      "loss": 0.9396,
+      "num_input_tokens_seen": 84679600,
+      "step": 490
+    },
+    {
+      "epoch": 0.19584332533972823,
+      "loss": 0.48934584856033325,
+      "loss_ce": 0.034755997359752655,
+      "loss_xval": 0.455078125,
+      "num_input_tokens_seen": 84679600,
+      "step": 490
+    },
+    {
+      "epoch": 0.19624300559552357,
+      "grad_norm": 195.19088075428,
+      "learning_rate": 5e-06,
+      "loss": 1.0253,
+      "num_input_tokens_seen": 84852344,
+      "step": 491
+    },
+    {
+      "epoch": 0.19624300559552357,
+      "loss": 1.0787075757980347,
+      "loss_ce": 0.03622712194919586,
+      "loss_xval": 1.0390625,
+      "num_input_tokens_seen": 84852344,
+      "step": 491
+    },
+    {
+      "epoch": 0.19664268585131894,
+      "grad_norm": 168.19680026401545,
+      "learning_rate": 5e-06,
+      "loss": 1.1053,
+      "num_input_tokens_seen": 85025032,
+      "step": 492
+    },
+    {
+      "epoch": 0.19664268585131894,
+      "loss": 1.0922410488128662,
+      "loss_ce": 0.037919752299785614,
+      "loss_xval": 1.0546875,
+      "num_input_tokens_seen": 85025032,
+      "step": 492
+    },
+    {
+      "epoch": 0.19704236610711431,
+      "grad_norm": 133.09158680380528,
+      "learning_rate": 5e-06,
+      "loss": 0.891,
+      "num_input_tokens_seen": 85197936,
+      "step": 493
+    },
+    {
+      "epoch": 0.19704236610711431,
+      "loss": 0.952610969543457,
+      "loss_ce": 0.050999678671360016,
+      "loss_xval": 0.90234375,
+      "num_input_tokens_seen": 85197936,
+      "step": 493
+    },
+    {
+      "epoch": 0.19744204636290968,
+      "grad_norm": 324.1718865120786,
+      "learning_rate": 5e-06,
+      "loss": 1.3506,
+      "num_input_tokens_seen": 85371064,
+      "step": 494
+    },
+    {
+      "epoch": 0.19744204636290968,
+      "loss": 1.3527730703353882,
+      "loss_ce": 0.04369105398654938,
+      "loss_xval": 1.3125,
+      "num_input_tokens_seen": 85371064,
+      "step": 494
+    },
+    {
+      "epoch": 0.19784172661870503,
+      "grad_norm": 223.13546731515177,
+      "learning_rate": 5e-06,
+      "loss": 0.9691,
+      "num_input_tokens_seen": 85544192,
+      "step": 495
+    },
+    {
+      "epoch": 0.19784172661870503,
+      "loss": 0.9390429258346558,
+      "loss_ce": 0.03682119399309158,
+      "loss_xval": 0.90234375,
+      "num_input_tokens_seen": 85544192,
+      "step": 495
+    },
+    {
+      "epoch": 0.1982414068745004,
+      "grad_norm": 101.21144573870228,
+      "learning_rate": 5e-06,
+      "loss": 0.9112,
+      "num_input_tokens_seen": 85717424,
+      "step": 496
+    },
+    {
+      "epoch": 0.1982414068745004,
+      "loss": 1.0302919149398804,
+      "loss_ce": 0.046039044857025146,
+      "loss_xval": 0.984375,
+      "num_input_tokens_seen": 85717424,
+      "step": 496
+    },
+    {
+      "epoch": 0.19864108713029577,
+      "grad_norm": 206.07249003860602,
+      "learning_rate": 5e-06,
+      "loss": 0.8683,
+      "num_input_tokens_seen": 85890344,
+      "step": 497
+    },
+    {
+      "epoch": 0.19864108713029577,
+      "loss": 0.8588770627975464,
+      "loss_ce": 0.03905284404754639,
+      "loss_xval": 0.8203125,
+      "num_input_tokens_seen": 85890344,
+      "step": 497
+    },
+    {
+      "epoch": 0.19904076738609114,
+      "grad_norm": 94.44663670538154,
+      "learning_rate": 5e-06,
+      "loss": 0.8524,
+      "num_input_tokens_seen": 86063192,
+      "step": 498
+    },
+    {
+      "epoch": 0.19904076738609114,
+      "loss": 0.6648346185684204,
+      "loss_ce": 0.03678285330533981,
+      "loss_xval": 0.62890625,
+      "num_input_tokens_seen": 86063192,
+      "step": 498
+    },
+    {
+      "epoch": 0.19944044764188648,
+      "grad_norm": 335.24198957414745,
+      "learning_rate": 5e-06,
+      "loss": 1.389,
+      "num_input_tokens_seen": 86236056,
+      "step": 499
+    },
+    {
+      "epoch": 0.19944044764188648,
+      "loss": 1.3793278932571411,
+      "loss_ce": 0.04241389036178589,
+      "loss_xval": 1.3359375,
+      "num_input_tokens_seen": 86236056,
+      "step": 499
+    },
+    {
+      "epoch": 0.19984012789768185,
+      "grad_norm": 65.37214172428197,
+      "learning_rate": 5e-06,
+      "loss": 1.2575,
+      "num_input_tokens_seen": 86408824,
+      "step": 500
+    },
+    {
+      "epoch": 0.19984012789768185,
+      "eval_websight_new_IoU": 0.08079056814312935,
+      "eval_websight_new_MAE_all": 0.06199362501502037,
+      "eval_websight_new_MAE_h": 0.05449218116700649,
+      "eval_websight_new_MAE_w": 0.09156358614563942,
+      "eval_websight_new_MAE_x": 0.025543496012687683,
+      "eval_websight_new_MAE_y": 0.07637524232268333,
+      "eval_websight_new_NUM_probability": 0.6408629715442657,
+      "eval_websight_new_inside_bbox": 0.046875,
+      "eval_websight_new_loss": 0.6728891134262085,
+      "eval_websight_new_loss_ce": 0.04726765863597393,
+      "eval_websight_new_loss_xval": 0.6082763671875,
+      "eval_websight_new_runtime": 57.3968,
+      "eval_websight_new_samples_per_second": 0.871,
+      "eval_websight_new_steps_per_second": 0.035,
+      "num_input_tokens_seen": 86408824,
+      "step": 500
+    },
+    {
+      "epoch": 0.19984012789768185,
+      "eval_seeclick_IoU": 0.11065776646137238,
+      "eval_seeclick_MAE_all": 0.10889718681573868,
+      "eval_seeclick_MAE_h": 0.06004502810537815,
+      "eval_seeclick_MAE_w": 0.16941364109516144,
+      "eval_seeclick_MAE_x": 0.11266724020242691,
+      "eval_seeclick_MAE_y": 0.09346283972263336,
+      "eval_seeclick_NUM_probability": 0.6323218941688538,
+      "eval_seeclick_inside_bbox": 0.0868055559694767,
+      "eval_seeclick_loss": 2.2744133472442627,
+      "eval_seeclick_loss_ce": 0.06857346370816231,
+      "eval_seeclick_loss_xval": 2.0810546875,
+      "eval_seeclick_runtime": 82.4728,
+      "eval_seeclick_samples_per_second": 0.606,
+      "eval_seeclick_steps_per_second": 0.024,
+      "num_input_tokens_seen": 86408824,
+      "step": 500
+    },
+    {
+      "epoch": 0.19984012789768185,
+      "eval_icons_IoU": 0.009586355474311858,
+      "eval_icons_MAE_all": 0.06707138940691948,
+      "eval_icons_MAE_h": 0.06313476897776127,
+      "eval_icons_MAE_w": 0.06441785581409931,
+      "eval_icons_MAE_x": 0.05763854831457138,
+      "eval_icons_MAE_y": 0.08309439569711685,
+      "eval_icons_NUM_probability": 0.6739359498023987,
+      "eval_icons_inside_bbox": 0.0,
+      "eval_icons_loss": 0.5873188972473145,
+      "eval_icons_loss_ce": 0.0424294825643301,
+      "eval_icons_loss_xval": 0.53759765625,
+      "eval_icons_runtime": 81.7973,
+      "eval_icons_samples_per_second": 0.611,
+      "eval_icons_steps_per_second": 0.024,
+      "num_input_tokens_seen": 86408824,
+      "step": 500
+    },
+    {
+      "epoch": 0.19984012789768185,
+      "loss": 0.6232744455337524,
+      "loss_ce": 0.044661134481430054,
+      "loss_xval": 0.578125,
+      "num_input_tokens_seen": 86408824,
+      "step": 500
+    },
+    {
+      "epoch": 0.20023980815347722,
+      "grad_norm": 415.0441899230684,
+      "learning_rate": 5e-06,
+      "loss": 1.1496,
+      "num_input_tokens_seen": 86581832,
+      "step": 501
+    },
+    {
+      "epoch": 0.20023980815347722,
+      "loss": 1.2457921504974365,
+      "loss_ce": 0.04388776421546936,
+      "loss_xval": 1.203125,
+      "num_input_tokens_seen": 86581832,
+      "step": 501
+    },
+    {
+      "epoch": 0.2006394884092726,
+      "grad_norm": 202.89775372810757,
+      "learning_rate": 5e-06,
+      "loss": 0.9393,
+      "num_input_tokens_seen": 86754704,
+      "step": 502
+    },
+    {
+      "epoch": 0.2006394884092726,
+      "loss": 0.5830790400505066,
+      "loss_ce": 0.045115165412425995,
+      "loss_xval": 0.5390625,
+      "num_input_tokens_seen": 86754704,
+      "step": 502
+    },
+    {
+      "epoch": 0.20103916866506794,
+      "grad_norm": 435.08701069154466,
+      "learning_rate": 5e-06,
+      "loss": 1.521,
+      "num_input_tokens_seen": 86927520,
+      "step": 503
+    },
+    {
+      "epoch": 0.20103916866506794,
+      "loss": 1.6471202373504639,
+      "loss_ce": 0.061182815581560135,
+      "loss_xval": 1.5859375,
+      "num_input_tokens_seen": 86927520,
+      "step": 503
+    },
+    {
+      "epoch": 0.2014388489208633,
+      "grad_norm": 354.9315963502709,
+      "learning_rate": 5e-06,
+      "loss": 1.4481,
+      "num_input_tokens_seen": 87100360,
+      "step": 504
+    },
+    {
+      "epoch": 0.2014388489208633,
+      "loss": 1.7939571142196655,
+      "loss_ce": 0.05225791037082672,
+      "loss_xval": 1.7421875,
+      "num_input_tokens_seen": 87100360,
+      "step": 504
+    },
+    {
+      "epoch": 0.20183852917665868,
+      "grad_norm": 277.1538917985221,
+      "learning_rate": 5e-06,
+      "loss": 0.8188,
+      "num_input_tokens_seen": 87273200,
+      "step": 505
+    },
+    {
+      "epoch": 0.20183852917665868,
+      "loss": 0.6681489944458008,
+      "loss_ce": 0.05096151679754257,
+      "loss_xval": 0.6171875,
+      "num_input_tokens_seen": 87273200,
+      "step": 505
+    },
+    {
+      "epoch": 0.20223820943245405,
+      "grad_norm": 215.04429897623527,
+      "learning_rate": 5e-06,
+      "loss": 0.896,
+      "num_input_tokens_seen": 87446384,
+      "step": 506
+    },
+    {
+      "epoch": 0.20223820943245405,
+      "loss": 0.977022111415863,
+      "loss_ce": 0.06540100276470184,
+      "loss_xval": 0.91015625,
+      "num_input_tokens_seen": 87446384,
+      "step": 506
+    },
+    {
+      "epoch": 0.2026378896882494,
+      "grad_norm": 276.63932282618924,
+      "learning_rate": 5e-06,
+      "loss": 1.2516,
+      "num_input_tokens_seen": 87619496,
+      "step": 507
+    },
+    {
+      "epoch": 0.2026378896882494,
+      "loss": 0.9704437255859375,
+      "loss_ce": 0.0629730224609375,
+      "loss_xval": 0.90625,
+      "num_input_tokens_seen": 87619496,
+      "step": 507
+    },
+    {
+      "epoch": 0.20303756994404476,
+      "grad_norm": 96.67338812468043,
+      "learning_rate": 5e-06,
+      "loss": 0.9473,
+      "num_input_tokens_seen": 87792584,
+      "step": 508
+    },
+    {
+      "epoch": 0.20303756994404476,
+      "loss": 0.8171831965446472,
+      "loss_ce": 0.08207576721906662,
+      "loss_xval": 0.734375,
+      "num_input_tokens_seen": 87792584,
+      "step": 508
+    },
+    {
+      "epoch": 0.20343725019984013,
+      "grad_norm": 363.8508621351222,
+      "learning_rate": 5e-06,
+      "loss": 1.5687,
+      "num_input_tokens_seen": 87965712,
+      "step": 509
+    },
+    {
+      "epoch": 0.20343725019984013,
+      "loss": 1.5893386602401733,
+      "loss_ce": 0.06773223727941513,
+      "loss_xval": 1.5234375,
+      "num_input_tokens_seen": 87965712,
+      "step": 509
+    },
+    {
+      "epoch": 0.2038369304556355,
+      "grad_norm": 265.10336368041925,
+      "learning_rate": 5e-06,
+      "loss": 0.9704,
+      "num_input_tokens_seen": 88138536,
+      "step": 510
+    },
+    {
+      "epoch": 0.2038369304556355,
+      "loss": 0.9591758847236633,
+      "loss_ce": 0.06952746957540512,
+      "loss_xval": 0.890625,
+      "num_input_tokens_seen": 88138536,
+      "step": 510
+    },
+    {
+      "epoch": 0.20423661071143084,
+      "grad_norm": 150.68109411527718,
+      "learning_rate": 5e-06,
+      "loss": 0.8909,
+      "num_input_tokens_seen": 88311912,
+      "step": 511
+    },
+    {
+      "epoch": 0.20423661071143084,
+      "loss": 1.0047615766525269,
+      "loss_ce": 0.07226639986038208,
+      "loss_xval": 0.93359375,
+      "num_input_tokens_seen": 88311912,
+      "step": 511
+    },
+    {
+      "epoch": 0.20463629096722621,
+      "grad_norm": 189.68353880999203,
+      "learning_rate": 5e-06,
+      "loss": 0.709,
+      "num_input_tokens_seen": 88484904,
+      "step": 512
+    },
+    {
+      "epoch": 0.20463629096722621,
+      "loss": 0.7475023865699768,
+      "loss_ce": 0.0678148865699768,
+      "loss_xval": 0.6796875,
+      "num_input_tokens_seen": 88484904,
+      "step": 512
+    },
+    {
+      "epoch": 0.20503597122302158,
+      "grad_norm": 49.74252850484498,
+      "learning_rate": 5e-06,
+      "loss": 1.1139,
+      "num_input_tokens_seen": 88658368,
+      "step": 513
+    },
+    {
+      "epoch": 0.20503597122302158,
+      "loss": 1.322534203529358,
+      "loss_ce": 0.06484372913837433,
+      "loss_xval": 1.2578125,
+      "num_input_tokens_seen": 88658368,
+      "step": 513
+    },
+    {
+      "epoch": 0.20543565147881696,
+      "grad_norm": 62.01670257125715,
+      "learning_rate": 5e-06,
+      "loss": 1.1007,
+      "num_input_tokens_seen": 88831128,
+      "step": 514
+    },
+    {
+      "epoch": 0.20543565147881696,
+      "loss": 0.8021764159202576,
+      "loss_ce": 0.05950063467025757,
+      "loss_xval": 0.7421875,
+      "num_input_tokens_seen": 88831128,
+      "step": 514
+    },
+    {
+      "epoch": 0.2058353317346123,
+      "grad_norm": 61.10824221702106,
+      "learning_rate": 5e-06,
+      "loss": 0.7747,
+      "num_input_tokens_seen": 89004360,
+      "step": 515
+    },
+    {
+      "epoch": 0.2058353317346123,
+      "loss": 0.8074045181274414,
+      "loss_ce": 0.055451322346925735,
+      "loss_xval": 0.75,
+      "num_input_tokens_seen": 89004360,
+      "step": 515
+    },
+    {
+      "epoch": 0.20623501199040767,
+      "grad_norm": 213.54170746936944,
+      "learning_rate": 5e-06,
+      "loss": 1.4733,
+      "num_input_tokens_seen": 89177432,
+      "step": 516
+    },
+    {
+      "epoch": 0.20623501199040767,
+      "loss": 1.8919177055358887,
+      "loss_ce": 0.07111698389053345,
+      "loss_xval": 1.8203125,
+      "num_input_tokens_seen": 89177432,
+      "step": 516
+    },
+    {
+      "epoch": 0.20663469224620304,
+      "grad_norm": 188.66997417165135,
+      "learning_rate": 5e-06,
+      "loss": 1.0141,
+      "num_input_tokens_seen": 89350448,
+      "step": 517
+    },
+    {
+      "epoch": 0.20663469224620304,
+      "loss": 0.9915530681610107,
+      "loss_ce": 0.06418493390083313,
+      "loss_xval": 0.92578125,
+      "num_input_tokens_seen": 89350448,
+      "step": 517
+    },
+    {
+      "epoch": 0.2070343725019984,
+      "grad_norm": 54.79378455267396,
+      "learning_rate": 5e-06,
+      "loss": 1.0231,
+      "num_input_tokens_seen": 89523664,
+      "step": 518
+    },
+    {
+      "epoch": 0.2070343725019984,
+      "loss": 1.0046730041503906,
+      "loss_ce": 0.051059648394584656,
+      "loss_xval": 0.953125,
+      "num_input_tokens_seen": 89523664,
+      "step": 518
+    },
+    {
+      "epoch": 0.20743405275779375,
+      "grad_norm": 97.26893599654822,
+      "learning_rate": 5e-06,
+      "loss": 1.3021,
+      "num_input_tokens_seen": 89696800,
+      "step": 519
+    },
+    {
+      "epoch": 0.20743405275779375,
+      "loss": 1.5230860710144043,
+      "loss_ce": 0.044448427855968475,
+      "loss_xval": 1.4765625,
+      "num_input_tokens_seen": 89696800,
+      "step": 519
+    },
+    {
+      "epoch": 0.20783373301358912,
+      "grad_norm": 122.63155997518379,
+      "learning_rate": 5e-06,
+      "loss": 1.1363,
+      "num_input_tokens_seen": 89869128,
+      "step": 520
+    },
+    {
+      "epoch": 0.20783373301358912,
+      "loss": 0.7199119329452515,
+      "loss_ce": 0.05108872056007385,
+      "loss_xval": 0.66796875,
+      "num_input_tokens_seen": 89869128,
+      "step": 520
+    },
+    {
+      "epoch": 0.2082334132693845,
+      "grad_norm": 43.22504973101311,
+      "learning_rate": 5e-06,
+      "loss": 1.0852,
+      "num_input_tokens_seen": 90042088,
+      "step": 521
+    },
+    {
+      "epoch": 0.2082334132693845,
+      "loss": 0.9542793035507202,
+      "loss_ce": 0.04509960114955902,
+      "loss_xval": 0.91015625,
+      "num_input_tokens_seen": 90042088,
+      "step": 521
+    },
+    {
+      "epoch": 0.20863309352517986,
+      "grad_norm": 237.56955165262985,
+      "learning_rate": 5e-06,
+      "loss": 1.1241,
+      "num_input_tokens_seen": 90215056,
+      "step": 522
+    },
+    {
+      "epoch": 0.20863309352517986,
+      "loss": 0.8590470552444458,
+      "loss_ce": 0.03726974129676819,
+      "loss_xval": 0.8203125,
+      "num_input_tokens_seen": 90215056,
+      "step": 522
+    },
+    {
+      "epoch": 0.2090327737809752,
+      "grad_norm": 263.0137742752679,
+      "learning_rate": 5e-06,
+      "loss": 1.3867,
+      "num_input_tokens_seen": 90387888,
+      "step": 523
+    },
+    {
+      "epoch": 0.2090327737809752,
+      "loss": 1.0127967596054077,
+      "loss_ce": 0.040872905403375626,
+      "loss_xval": 0.97265625,
+      "num_input_tokens_seen": 90387888,
+      "step": 523
+    },
+    {
+      "epoch": 0.20943245403677058,
+      "grad_norm": 44.95766707948507,
+      "learning_rate": 5e-06,
+      "loss": 1.0766,
+      "num_input_tokens_seen": 90561136,
+      "step": 524
+    },
+    {
+      "epoch": 0.20943245403677058,
+      "loss": 0.6546859741210938,
+      "loss_ce": 0.03603363782167435,
+      "loss_xval": 0.6171875,
+      "num_input_tokens_seen": 90561136,
+      "step": 524
+    },
+    {
+      "epoch": 0.20983213429256595,
+      "grad_norm": 112.87978212103138,
+      "learning_rate": 5e-06,
+      "loss": 0.6245,
+      "num_input_tokens_seen": 90734184,
+      "step": 525
+    },
+    {
+      "epoch": 0.20983213429256595,
+      "loss": 0.4749688506126404,
+      "loss_ce": 0.04808899015188217,
+      "loss_xval": 0.427734375,
+      "num_input_tokens_seen": 90734184,
+      "step": 525
+    },
+    {
+      "epoch": 0.21023181454836132,
+      "grad_norm": 92.99996671691841,
+      "learning_rate": 5e-06,
+      "loss": 1.0497,
+      "num_input_tokens_seen": 90907176,
+      "step": 526
+    },
+    {
+      "epoch": 0.21023181454836132,
+      "loss": 0.8723914623260498,
+      "loss_ce": 0.03266974911093712,
+      "loss_xval": 0.83984375,
+      "num_input_tokens_seen": 90907176,
+      "step": 526
+    },
+    {
+      "epoch": 0.2106314948041567,
+      "grad_norm": 132.48797337096062,
+      "learning_rate": 5e-06,
+      "loss": 1.291,
+      "num_input_tokens_seen": 91080520,
+      "step": 527
+    },
+    {
+      "epoch": 0.2106314948041567,
+      "loss": 1.0182774066925049,
+      "loss_ce": 0.03133901208639145,
+      "loss_xval": 0.98828125,
+      "num_input_tokens_seen": 91080520,
+      "step": 527
+    },
+    {
+      "epoch": 0.21103117505995203,
+      "grad_norm": 67.2411409745012,
+      "learning_rate": 5e-06,
+      "loss": 0.6511,
+      "num_input_tokens_seen": 91253584,
+      "step": 528
+    },
+    {
+      "epoch": 0.21103117505995203,
+      "loss": 0.7829042673110962,
+      "loss_ce": 0.0313173308968544,
+      "loss_xval": 0.75,
+      "num_input_tokens_seen": 91253584,
+      "step": 528
+    },
+    {
+      "epoch": 0.2114308553157474,
+      "grad_norm": 119.38443221614165,
+      "learning_rate": 5e-06,
+      "loss": 1.0069,
+      "num_input_tokens_seen": 91426584,
+      "step": 529
+    },
+    {
+      "epoch": 0.2114308553157474,
+      "loss": 1.0257318019866943,
+      "loss_ce": 0.02658626064658165,
+      "loss_xval": 1.0,
+      "num_input_tokens_seen": 91426584,
+      "step": 529
+    },
+    {
+      "epoch": 0.21183053557154277,
+      "grad_norm": 161.8946233726489,
+      "learning_rate": 5e-06,
+      "loss": 1.1522,
+      "num_input_tokens_seen": 91599784,
+      "step": 530
+    },
+    {
+      "epoch": 0.21183053557154277,
+      "loss": 1.1873421669006348,
+      "loss_ce": 0.024622494354844093,
+      "loss_xval": 1.1640625,
+      "num_input_tokens_seen": 91599784,
+      "step": 530
+    },
+    {
+      "epoch": 0.21223021582733814,
+      "grad_norm": 322.1567587058893,
+      "learning_rate": 5e-06,
+      "loss": 1.5258,
+      "num_input_tokens_seen": 91772792,
+      "step": 531
+    },
+    {
+      "epoch": 0.21223021582733814,
+      "loss": 1.6199225187301636,
+      "loss_ce": 0.03862369433045387,
+      "loss_xval": 1.578125,
+      "num_input_tokens_seen": 91772792,
+      "step": 531
+    },
+    {
+      "epoch": 0.21262989608313348,
+      "grad_norm": 162.02156030703074,
+      "learning_rate": 5e-06,
+      "loss": 0.8099,
+      "num_input_tokens_seen": 91945720,
+      "step": 532
+    },
+    {
+      "epoch": 0.21262989608313348,
+      "loss": 0.7622925639152527,
+      "loss_ce": 0.02779550477862358,
+      "loss_xval": 0.734375,
+      "num_input_tokens_seen": 91945720,
+      "step": 532
+    },
+    {
+      "epoch": 0.21302957633892886,
+      "grad_norm": 136.96122336871258,
+      "learning_rate": 5e-06,
+      "loss": 1.1803,
+      "num_input_tokens_seen": 92118664,
+      "step": 533
+    },
+    {
+      "epoch": 0.21302957633892886,
+      "loss": 1.2401918172836304,
+      "loss_ce": 0.021441802382469177,
+      "loss_xval": 1.21875,
+      "num_input_tokens_seen": 92118664,
+      "step": 533
+    },
+    {
+      "epoch": 0.21342925659472423,
+      "grad_norm": 234.78901205861808,
+      "learning_rate": 5e-06,
+      "loss": 0.9575,
+      "num_input_tokens_seen": 92288392,
+      "step": 534
+    },
+    {
+      "epoch": 0.21342925659472423,
+      "loss": 0.6059136390686035,
+      "loss_ce": 0.023638233542442322,
+      "loss_xval": 0.58203125,
+      "num_input_tokens_seen": 92288392,
+      "step": 534
+    },
+    {
+      "epoch": 0.2138289368505196,
+      "grad_norm": 144.7989394237274,
+      "learning_rate": 5e-06,
+      "loss": 0.8869,
+      "num_input_tokens_seen": 92461600,
+      "step": 535
+    },
+    {
+      "epoch": 0.2138289368505196,
+      "loss": 1.0061213970184326,
+      "loss_ce": 0.024554094299674034,
+      "loss_xval": 0.98046875,
+      "num_input_tokens_seen": 92461600,
+      "step": 535
+    },
+    {
+      "epoch": 0.21422861710631494,
+      "grad_norm": 55.48959721021269,
+      "learning_rate": 5e-06,
+      "loss": 0.4912,
+      "num_input_tokens_seen": 92634216,
+      "step": 536
+    },
+    {
+      "epoch": 0.21422861710631494,
+      "loss": 0.47603410482406616,
+      "loss_ce": 0.027242586016654968,
+      "loss_xval": 0.44921875,
+      "num_input_tokens_seen": 92634216,
+      "step": 536
+    },
+    {
+      "epoch": 0.2146282973621103,
+      "grad_norm": 125.22804174984209,
+      "learning_rate": 5e-06,
+      "loss": 0.7744,
+      "num_input_tokens_seen": 92807536,
+      "step": 537
+    },
+    {
+      "epoch": 0.2146282973621103,
+      "loss": 0.5036810636520386,
+      "loss_ce": 0.02418886497616768,
+      "loss_xval": 0.48046875,
+      "num_input_tokens_seen": 92807536,
+      "step": 537
+    },
+    {
+      "epoch": 0.21502797761790568,
+      "grad_norm": 211.76831446430648,
+      "learning_rate": 5e-06,
+      "loss": 1.0454,
+      "num_input_tokens_seen": 92980600,
+      "step": 538
+    },
+    {
+      "epoch": 0.21502797761790568,
+      "loss": 0.9494002461433411,
+      "loss_ce": 0.03143148496747017,
+      "loss_xval": 0.91796875,
+      "num_input_tokens_seen": 92980600,
+      "step": 538
+    },
+    {
+      "epoch": 0.21542765787370105,
+      "grad_norm": 83.53737940813463,
+      "learning_rate": 5e-06,
+      "loss": 0.8112,
+      "num_input_tokens_seen": 93153536,
+      "step": 539
+    },
+    {
+      "epoch": 0.21542765787370105,
+      "loss": 0.7787027955055237,
+      "loss_ce": 0.028214523568749428,
+      "loss_xval": 0.75,
+      "num_input_tokens_seen": 93153536,
+      "step": 539
+    },
+    {
+      "epoch": 0.2158273381294964,
+      "grad_norm": 221.1772186610306,
+      "learning_rate": 5e-06,
+      "loss": 1.2162,
+      "num_input_tokens_seen": 93326336,
+      "step": 540
+    },
+    {
+      "epoch": 0.2158273381294964,
+      "loss": 0.7756029367446899,
+      "loss_ce": 0.027067817747592926,
+      "loss_xval": 0.75,
+      "num_input_tokens_seen": 93326336,
+      "step": 540
+    },
+    {
+      "epoch": 0.21622701838529176,
+      "grad_norm": 250.30628691634345,
+      "learning_rate": 5e-06,
+      "loss": 0.8389,
+      "num_input_tokens_seen": 93499160,
+      "step": 541
+    },
+    {
+      "epoch": 0.21622701838529176,
+      "loss": 0.6384867429733276,
+      "loss_ce": 0.030210375785827637,
+      "loss_xval": 0.609375,
+      "num_input_tokens_seen": 93499160,
+      "step": 541
+    },
+    {
+      "epoch": 0.21662669864108713,
+      "grad_norm": 60.81920570311037,
+      "learning_rate": 5e-06,
+      "loss": 1.1726,
+      "num_input_tokens_seen": 93672248,
+      "step": 542
+    },
+    {
+      "epoch": 0.21662669864108713,
+      "loss": 1.3165156841278076,
+      "loss_ce": 0.03245798870921135,
+      "loss_xval": 1.28125,
+      "num_input_tokens_seen": 93672248,
+      "step": 542
+    },
+    {
+      "epoch": 0.2170263788968825,
+      "grad_norm": 245.3824525578725,
+      "learning_rate": 5e-06,
+      "loss": 1.0387,
+      "num_input_tokens_seen": 93845280,
+      "step": 543
+    },
+    {
+      "epoch": 0.2170263788968825,
+      "loss": 1.4534016847610474,
+      "loss_ce": 0.027132168412208557,
+      "loss_xval": 1.4296875,
+      "num_input_tokens_seen": 93845280,
+      "step": 543
+    },
+    {
+      "epoch": 0.21742605915267785,
+      "grad_norm": 96.9503832488851,
+      "learning_rate": 5e-06,
+      "loss": 1.6084,
+      "num_input_tokens_seen": 94018296,
+      "step": 544
+    },
+    {
+      "epoch": 0.21742605915267785,
+      "loss": 1.4025704860687256,
+      "loss_ce": 0.04173062741756439,
+      "loss_xval": 1.359375,
+      "num_input_tokens_seen": 94018296,
+      "step": 544
+    },
+    {
+      "epoch": 0.21782573940847322,
+      "grad_norm": 248.6582812449355,
+      "learning_rate": 5e-06,
+      "loss": 0.829,
+      "num_input_tokens_seen": 94191352,
+      "step": 545
+    },
+    {
+      "epoch": 0.21782573940847322,
+      "loss": 0.7271380424499512,
+      "loss_ce": 0.026942692697048187,
+      "loss_xval": 0.69921875,
+      "num_input_tokens_seen": 94191352,
+      "step": 545
+    },
+    {
+      "epoch": 0.2182254196642686,
+      "grad_norm": 139.37534365707833,
+      "learning_rate": 5e-06,
+      "loss": 0.8576,
+      "num_input_tokens_seen": 94364712,
+      "step": 546
+    },
+    {
+      "epoch": 0.2182254196642686,
+      "loss": 1.2029194831848145,
+      "loss_ce": 0.026039643213152885,
+      "loss_xval": 1.1796875,
+      "num_input_tokens_seen": 94364712,
+      "step": 546
+    },
+    {
+      "epoch": 0.21862509992006396,
+      "grad_norm": 161.00715928409278,
+      "learning_rate": 5e-06,
+      "loss": 1.2751,
+      "num_input_tokens_seen": 94534248,
+      "step": 547
+    },
+    {
+      "epoch": 0.21862509992006396,
+      "loss": 0.7849478125572205,
+      "loss_ce": 0.024938026443123817,
+      "loss_xval": 0.76171875,
+      "num_input_tokens_seen": 94534248,
+      "step": 547
+    },
+    {
+      "epoch": 0.2190247801758593,
+      "grad_norm": 120.74445345712077,
+      "learning_rate": 5e-06,
+      "loss": 0.972,
+      "num_input_tokens_seen": 94707432,
+      "step": 548
+    },
+    {
+      "epoch": 0.2190247801758593,
+      "loss": 1.0243523120880127,
+      "loss_ce": 0.04681321233510971,
+      "loss_xval": 0.9765625,
+      "num_input_tokens_seen": 94707432,
+      "step": 548
+    },
+    {
+      "epoch": 0.21942446043165467,
+      "grad_norm": 149.35126901028477,
+      "learning_rate": 5e-06,
+      "loss": 1.621,
+      "num_input_tokens_seen": 94880480,
+      "step": 549
+    },
+    {
+      "epoch": 0.21942446043165467,
+      "loss": 0.938992977142334,
+      "loss_ce": 0.02834843471646309,
+      "loss_xval": 0.91015625,
+      "num_input_tokens_seen": 94880480,
+      "step": 549
+    },
+    {
+      "epoch": 0.21982414068745004,
+      "grad_norm": 96.31882416543029,
+      "learning_rate": 5e-06,
+      "loss": 0.9228,
+      "num_input_tokens_seen": 95053720,
+      "step": 550
+    },
+    {
+      "epoch": 0.21982414068745004,
+      "loss": 0.6176514029502869,
+      "loss_ce": 0.026220720261335373,
+      "loss_xval": 0.58984375,
+      "num_input_tokens_seen": 95053720,
+      "step": 550
+    },
+    {
+      "epoch": 0.2202238209432454,
+      "grad_norm": 89.42353943704879,
+      "learning_rate": 5e-06,
+      "loss": 0.8391,
+      "num_input_tokens_seen": 95226696,
+      "step": 551
+    },
+    {
+      "epoch": 0.2202238209432454,
+      "loss": 1.1121536493301392,
+      "loss_ce": 0.025239594280719757,
+      "loss_xval": 1.0859375,
+      "num_input_tokens_seen": 95226696,
+      "step": 551
+    },
+    {
+      "epoch": 0.22062350119904076,
+      "grad_norm": 60.245937188446725,
+      "learning_rate": 5e-06,
+      "loss": 1.1905,
+      "num_input_tokens_seen": 95399936,
+      "step": 552
+    },
+    {
+      "epoch": 0.22062350119904076,
+      "loss": 1.1478040218353271,
+      "loss_ce": 0.03208138048648834,
+      "loss_xval": 1.1171875,
+      "num_input_tokens_seen": 95399936,
+      "step": 552
+    },
+    {
+      "epoch": 0.22102318145483613,
+      "grad_norm": 250.376146897708,
+      "learning_rate": 5e-06,
+      "loss": 0.8334,
+      "num_input_tokens_seen": 95573048,
+      "step": 553
+    },
+    {
+      "epoch": 0.22102318145483613,
+      "loss": 0.9694182872772217,
+      "loss_ce": 0.029293827712535858,
+      "loss_xval": 0.94140625,
+      "num_input_tokens_seen": 95573048,
+      "step": 553
+    },
+    {
+      "epoch": 0.2214228617106315,
+      "grad_norm": 472.12030978419017,
+      "learning_rate": 5e-06,
+      "loss": 1.3447,
+      "num_input_tokens_seen": 95746232,
+      "step": 554
+    },
+    {
+      "epoch": 0.2214228617106315,
+      "loss": 1.390291690826416,
+      "loss_ce": 0.031160805374383926,
+      "loss_xval": 1.359375,
+      "num_input_tokens_seen": 95746232,
+      "step": 554
+    },
+    {
+      "epoch": 0.22182254196642687,
+      "grad_norm": 200.19161843381832,
+      "learning_rate": 5e-06,
+      "loss": 1.1299,
+      "num_input_tokens_seen": 95919064,
+      "step": 555
+    },
+    {
+      "epoch": 0.22182254196642687,
+      "loss": 1.2493796348571777,
+      "loss_ce": 0.029714081436395645,
+      "loss_xval": 1.21875,
+      "num_input_tokens_seen": 95919064,
+      "step": 555
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 264.8729753389226,
+      "learning_rate": 5e-06,
+      "loss": 1.3297,
+      "num_input_tokens_seen": 96092128,
+      "step": 556
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "loss": 1.3867847919464111,
+      "loss_ce": 0.03546644374728203,
+      "loss_xval": 1.3515625,
+      "num_input_tokens_seen": 96092128,
+      "step": 556
+    },
+    {
+      "epoch": 0.22262190247801758,
+      "grad_norm": 292.84845504228457,
+      "learning_rate": 5e-06,
+      "loss": 1.2343,
+      "num_input_tokens_seen": 96261344,
+      "step": 557
+    },
+    {
+      "epoch": 0.22262190247801758,
+      "loss": 1.3330931663513184,
+      "loss_ce": 0.02938220463693142,
+      "loss_xval": 1.3046875,
+      "num_input_tokens_seen": 96261344,
+      "step": 557
+    },
+    {
+      "epoch": 0.22302158273381295,
+      "grad_norm": 60.53087991395975,
+      "learning_rate": 5e-06,
+      "loss": 0.841,
+      "num_input_tokens_seen": 96434288,
+      "step": 558
+    },
+    {
+      "epoch": 0.22302158273381295,
+      "loss": 0.9854141473770142,
+      "loss_ce": 0.032960571348667145,
+      "loss_xval": 0.953125,
+      "num_input_tokens_seen": 96434288,
+      "step": 558
+    },
+    {
+      "epoch": 0.22342126298960832,
+      "grad_norm": 197.24569669696305,
+      "learning_rate": 5e-06,
+      "loss": 1.209,
+      "num_input_tokens_seen": 96607664,
+      "step": 559
+    },
+    {
+      "epoch": 0.22342126298960832,
+      "loss": 0.886874794960022,
+      "loss_ce": 0.055820122361183167,
+      "loss_xval": 0.83203125,
+      "num_input_tokens_seen": 96607664,
+      "step": 559
+    },
+    {
+      "epoch": 0.22382094324540366,
+      "grad_norm": 90.62307871554165,
+      "learning_rate": 5e-06,
+      "loss": 0.8997,
+      "num_input_tokens_seen": 96780576,
+      "step": 560
+    },
+    {
+      "epoch": 0.22382094324540366,
+      "loss": 0.5703801512718201,
+      "loss_ce": 0.035590097308158875,
+      "loss_xval": 0.53515625,
+      "num_input_tokens_seen": 96780576,
+      "step": 560
+    },
+    {
+      "epoch": 0.22422062350119903,
+      "grad_norm": 210.46096711060173,
+      "learning_rate": 5e-06,
+      "loss": 0.8813,
+      "num_input_tokens_seen": 96953128,
+      "step": 561
+    },
+    {
+      "epoch": 0.22422062350119903,
+      "loss": 1.1930537223815918,
+      "loss_ce": 0.050475526601076126,
+      "loss_xval": 1.140625,
+      "num_input_tokens_seen": 96953128,
+      "step": 561
+    },
+    {
+      "epoch": 0.2246203037569944,
+      "grad_norm": 156.37219513558009,
+      "learning_rate": 5e-06,
+      "loss": 1.1836,
+      "num_input_tokens_seen": 97126480,
+      "step": 562
+    },
+    {
+      "epoch": 0.2246203037569944,
+      "loss": 0.6334319710731506,
+      "loss_ce": 0.04236753284931183,
+      "loss_xval": 0.58984375,
+      "num_input_tokens_seen": 97126480,
+      "step": 562
+    },
+    {
+      "epoch": 0.22501998401278978,
+      "grad_norm": 387.8888057437442,
+      "learning_rate": 5e-06,
+      "loss": 0.975,
+      "num_input_tokens_seen": 97299688,
+      "step": 563
+    },
+    {
+      "epoch": 0.22501998401278978,
+      "loss": 0.8660625219345093,
+      "loss_ce": 0.04672662168741226,
+      "loss_xval": 0.8203125,
+      "num_input_tokens_seen": 97299688,
+      "step": 563
+    },
+    {
+      "epoch": 0.22541966426858512,
+      "grad_norm": 64.648417204487,
+      "learning_rate": 5e-06,
+      "loss": 0.6787,
+      "num_input_tokens_seen": 97472888,
+      "step": 564
+    },
+    {
+      "epoch": 0.22541966426858512,
+      "loss": 0.90760338306427,
+      "loss_ce": 0.04456621780991554,
+      "loss_xval": 0.86328125,
+      "num_input_tokens_seen": 97472888,
+      "step": 564
+    },
+    {
+      "epoch": 0.2258193445243805,
+      "grad_norm": 411.13766405693985,
+      "learning_rate": 5e-06,
+      "loss": 1.0557,
+      "num_input_tokens_seen": 97646160,
+      "step": 565
+    },
+    {
+      "epoch": 0.2258193445243805,
+      "loss": 1.2993905544281006,
+      "loss_ce": 0.042066287249326706,
+      "loss_xval": 1.2578125,
+      "num_input_tokens_seen": 97646160,
+      "step": 565
+    },
+    {
+      "epoch": 0.22621902478017586,
+      "grad_norm": 217.77303028298573,
+      "learning_rate": 5e-06,
+      "loss": 0.8985,
+      "num_input_tokens_seen": 97818944,
+      "step": 566
+    },
+    {
+      "epoch": 0.22621902478017586,
+      "loss": 0.7498751282691956,
+      "loss_ce": 0.041379086673259735,
+      "loss_xval": 0.70703125,
+      "num_input_tokens_seen": 97818944,
+      "step": 566
+    },
+    {
+      "epoch": 0.22661870503597123,
+      "grad_norm": 245.13372340348388,
+      "learning_rate": 5e-06,
+      "loss": 0.8019,
+      "num_input_tokens_seen": 97991832,
+      "step": 567
+    },
+    {
+      "epoch": 0.22661870503597123,
+      "loss": 0.7386154532432556,
+      "loss_ce": 0.03329318016767502,
+      "loss_xval": 0.70703125,
+      "num_input_tokens_seen": 97991832,
+      "step": 567
+    },
+    {
+      "epoch": 0.2270183852917666,
+      "grad_norm": 257.82480324488694,
+      "learning_rate": 5e-06,
+      "loss": 1.2229,
+      "num_input_tokens_seen": 98164624,
+      "step": 568
+    },
+    {
+      "epoch": 0.2270183852917666,
+      "loss": 0.9997340440750122,
+      "loss_ce": 0.04294687137007713,
+      "loss_xval": 0.95703125,
+      "num_input_tokens_seen": 98164624,
+      "step": 568
+    },
+    {
+      "epoch": 0.22741806554756194,
+      "grad_norm": 34.59729056287196,
+      "learning_rate": 5e-06,
+      "loss": 0.9462,
+      "num_input_tokens_seen": 98337936,
+      "step": 569
+    },
+    {
+      "epoch": 0.22741806554756194,
+      "loss": 0.8521548509597778,
+      "loss_ce": 0.03757966682314873,
+      "loss_xval": 0.81640625,
+      "num_input_tokens_seen": 98337936,
+      "step": 569
+    },
+    {
+      "epoch": 0.2278177458033573,
+      "grad_norm": 111.7199151079931,
+      "learning_rate": 5e-06,
+      "loss": 0.853,
+      "num_input_tokens_seen": 98511288,
+      "step": 570
+    },
+    {
+      "epoch": 0.2278177458033573,
+      "loss": 0.8863071799278259,
+      "loss_ce": 0.03657577931880951,
+      "loss_xval": 0.8515625,
+      "num_input_tokens_seen": 98511288,
+      "step": 570
+    },
+    {
+      "epoch": 0.22821742605915268,
+      "grad_norm": 42.73190171410932,
+      "learning_rate": 5e-06,
+      "loss": 0.8986,
+      "num_input_tokens_seen": 98684336,
+      "step": 571
+    },
+    {
+      "epoch": 0.22821742605915268,
+      "loss": 1.1216399669647217,
+      "loss_ce": 0.041561778634786606,
+      "loss_xval": 1.078125,
+      "num_input_tokens_seen": 98684336,
+      "step": 571
+    },
+    {
+      "epoch": 0.22861710631494805,
+      "grad_norm": 176.58612953080763,
+      "learning_rate": 5e-06,
+      "loss": 1.2574,
+      "num_input_tokens_seen": 98853952,
+      "step": 572
+    },
+    {
+      "epoch": 0.22861710631494805,
+      "loss": 1.1767420768737793,
+      "loss_ce": 0.034652289003133774,
+      "loss_xval": 1.140625,
+      "num_input_tokens_seen": 98853952,
+      "step": 572
+    },
+    {
+      "epoch": 0.2290167865707434,
+      "grad_norm": 81.67430863927449,
+      "learning_rate": 5e-06,
+      "loss": 1.0762,
+      "num_input_tokens_seen": 99026888,
+      "step": 573
+    },
+    {
+      "epoch": 0.2290167865707434,
+      "loss": 1.4329999685287476,
+      "loss_ce": 0.07716501504182816,
+      "loss_xval": 1.359375,
+      "num_input_tokens_seen": 99026888,
+      "step": 573
+    },
+    {
+      "epoch": 0.22941646682653877,
+      "grad_norm": 274.37468677613424,
+      "learning_rate": 5e-06,
+      "loss": 1.2617,
+      "num_input_tokens_seen": 99199640,
+      "step": 574
+    },
+    {
+      "epoch": 0.22941646682653877,
+      "loss": 0.6166301965713501,
+      "loss_ce": 0.029716167598962784,
+      "loss_xval": 0.5859375,
+      "num_input_tokens_seen": 99199640,
+      "step": 574
+    },
+    {
+      "epoch": 0.22981614708233414,
+      "grad_norm": 26.081873724774624,
+      "learning_rate": 5e-06,
+      "loss": 0.6142,
+      "num_input_tokens_seen": 99372312,
+      "step": 575
+    },
+    {
+      "epoch": 0.22981614708233414,
+      "loss": 0.5156276822090149,
+      "loss_ce": 0.03149682283401489,
+      "loss_xval": 0.484375,
+      "num_input_tokens_seen": 99372312,
+      "step": 575
+    },
+    {
+      "epoch": 0.2302158273381295,
+      "grad_norm": 284.96481935200273,
+      "learning_rate": 5e-06,
+      "loss": 1.1397,
+      "num_input_tokens_seen": 99545160,
+      "step": 576
+    },
+    {
+      "epoch": 0.2302158273381295,
+      "loss": 1.3616349697113037,
+      "loss_ce": 0.034730590879917145,
+      "loss_xval": 1.328125,
+      "num_input_tokens_seen": 99545160,
+      "step": 576
+    },
+    {
+      "epoch": 0.23061550759392485,
+      "grad_norm": 44.124449238858176,
+      "learning_rate": 5e-06,
+      "loss": 0.7619,
+      "num_input_tokens_seen": 99718512,
+      "step": 577
+    },
+    {
+      "epoch": 0.23061550759392485,
+      "loss": 0.824275016784668,
+      "loss_ce": 0.029658352956175804,
+      "loss_xval": 0.79296875,
+      "num_input_tokens_seen": 99718512,
+      "step": 577
+    },
+    {
+      "epoch": 0.23101518784972022,
+      "grad_norm": 207.04912847362317,
+      "learning_rate": 5e-06,
+      "loss": 1.2726,
+      "num_input_tokens_seen": 99891440,
+      "step": 578
+    },
+    {
+      "epoch": 0.23101518784972022,
+      "loss": 1.4096300601959229,
+      "loss_ce": 0.02791622281074524,
+      "loss_xval": 1.3828125,
+      "num_input_tokens_seen": 99891440,
+      "step": 578
+    },
+    {
+      "epoch": 0.2314148681055156,
+      "grad_norm": 136.60800256923707,
+      "learning_rate": 5e-06,
+      "loss": 0.9458,
+      "num_input_tokens_seen": 100064696,
+      "step": 579
+    },
+    {
+      "epoch": 0.2314148681055156,
+      "loss": 0.8815451860427856,
+      "loss_ce": 0.027907539159059525,
+      "loss_xval": 0.85546875,
+      "num_input_tokens_seen": 100064696,
+      "step": 579
+    },
+    {
+      "epoch": 0.23181454836131096,
+      "grad_norm": 281.71610387045706,
+      "learning_rate": 5e-06,
+      "loss": 0.8355,
+      "num_input_tokens_seen": 100237384,
+      "step": 580
+    },
+    {
+      "epoch": 0.23181454836131096,
+      "loss": 0.7737770080566406,
+      "loss_ce": 0.025363922119140625,
+      "loss_xval": 0.75,
+      "num_input_tokens_seen": 100237384,
+      "step": 580
+    },
+    {
+      "epoch": 0.2322142286171063,
+      "grad_norm": 69.97613875254609,
+      "learning_rate": 5e-06,
+      "loss": 1.1513,
+      "num_input_tokens_seen": 100410504,
+      "step": 581
+    },
+    {
+      "epoch": 0.2322142286171063,
+      "loss": 1.1582691669464111,
+      "loss_ce": 0.026433231309056282,
+      "loss_xval": 1.1328125,
+      "num_input_tokens_seen": 100410504,
+      "step": 581
+    },
+    {
+      "epoch": 0.23261390887290168,
+      "grad_norm": 373.00175697859225,
+      "learning_rate": 5e-06,
+      "loss": 1.4461,
+      "num_input_tokens_seen": 100583328,
+      "step": 582
+    },
+    {
+      "epoch": 0.23261390887290168,
+      "loss": 1.4269239902496338,
+      "loss_ce": 0.023115256801247597,
+      "loss_xval": 1.40625,
+      "num_input_tokens_seen": 100583328,
+      "step": 582
+    },
+    {
+      "epoch": 0.23301358912869705,
+      "grad_norm": 149.603838664552,
+      "learning_rate": 5e-06,
+      "loss": 0.6656,
+      "num_input_tokens_seen": 100755664,
+      "step": 583
+    },
+    {
+      "epoch": 0.23301358912869705,
+      "loss": 0.7104263305664062,
+      "loss_ce": 0.024635307490825653,
+      "loss_xval": 0.6875,
+      "num_input_tokens_seen": 100755664,
+      "step": 583
+    },
+    {
+      "epoch": 0.23341326938449242,
+      "grad_norm": 315.2272192197468,
+      "learning_rate": 5e-06,
+      "loss": 0.7095,
+      "num_input_tokens_seen": 100925176,
+      "step": 584
+    },
+    {
+      "epoch": 0.23341326938449242,
+      "loss": 0.7385757565498352,
+      "loss_ce": 0.03300934657454491,
+      "loss_xval": 0.70703125,
+      "num_input_tokens_seen": 100925176,
+      "step": 584
+    },
+    {
+      "epoch": 0.23381294964028776,
+      "grad_norm": 158.70840429315962,
+      "learning_rate": 5e-06,
+      "loss": 1.2368,
+      "num_input_tokens_seen": 101097904,
+      "step": 585
+    },
+    {
+      "epoch": 0.23381294964028776,
+      "loss": 1.1981698274612427,
+      "loss_ce": 0.028125843033194542,
+      "loss_xval": 1.171875,
+      "num_input_tokens_seen": 101097904,
+      "step": 585
+    },
+    {
+      "epoch": 0.23421262989608313,
+      "grad_norm": 300.90753147063134,
+      "learning_rate": 5e-06,
+      "loss": 0.9731,
+      "num_input_tokens_seen": 101270824,
+      "step": 586
+    },
+    {
+      "epoch": 0.23421262989608313,
+      "loss": 1.0399353504180908,
+      "loss_ce": 0.031390391290187836,
+      "loss_xval": 1.0078125,
+      "num_input_tokens_seen": 101270824,
+      "step": 586
+    },
+    {
+      "epoch": 0.2346123101518785,
+      "grad_norm": 150.6022752310562,
+      "learning_rate": 5e-06,
+      "loss": 1.2954,
+      "num_input_tokens_seen": 101443832,
+      "step": 587
+    },
+    {
+      "epoch": 0.2346123101518785,
+      "loss": 0.8707741498947144,
+      "loss_ce": 0.031174514442682266,
+      "loss_xval": 0.83984375,
+      "num_input_tokens_seen": 101443832,
+      "step": 587
+    },
+    {
+      "epoch": 0.23501199040767387,
+      "grad_norm": 277.43328148547425,
+      "learning_rate": 5e-06,
+      "loss": 1.0352,
+      "num_input_tokens_seen": 101616416,
+      "step": 588
+    },
+    {
+      "epoch": 0.23501199040767387,
+      "loss": 1.0693809986114502,
+      "loss_ce": 0.0334923230111599,
+      "loss_xval": 1.0390625,
+      "num_input_tokens_seen": 101616416,
+      "step": 588
+    },
+    {
+      "epoch": 0.2354116706634692,
+      "grad_norm": 78.20054429498728,
+      "learning_rate": 5e-06,
+      "loss": 0.919,
+      "num_input_tokens_seen": 101789472,
+      "step": 589
+    },
+    {
+      "epoch": 0.2354116706634692,
+      "loss": 0.9403672814369202,
+      "loss_ce": 0.02972276508808136,
+      "loss_xval": 0.91015625,
+      "num_input_tokens_seen": 101789472,
+      "step": 589
+    },
+    {
+      "epoch": 0.23581135091926458,
+      "grad_norm": 248.8776432354872,
+      "learning_rate": 5e-06,
+      "loss": 1.3982,
+      "num_input_tokens_seen": 101962248,
+      "step": 590
+    },
+    {
+      "epoch": 0.23581135091926458,
+      "loss": 1.470240592956543,
+      "loss_ce": 0.030176982283592224,
+      "loss_xval": 1.4375,
+      "num_input_tokens_seen": 101962248,
+      "step": 590
+    },
+    {
+      "epoch": 0.23621103117505995,
+      "grad_norm": 34.509014167489795,
+      "learning_rate": 5e-06,
+      "loss": 0.7077,
+      "num_input_tokens_seen": 102131336,
+      "step": 591
+    },
+    {
+      "epoch": 0.23621103117505995,
+      "loss": 0.4956533908843994,
+      "loss_ce": 0.03294587880373001,
+      "loss_xval": 0.462890625,
+      "num_input_tokens_seen": 102131336,
+      "step": 591
+    },
+    {
+      "epoch": 0.23661071143085532,
+      "grad_norm": 315.0428753524298,
+      "learning_rate": 5e-06,
+      "loss": 0.9751,
+      "num_input_tokens_seen": 102303824,
+      "step": 592
+    },
+    {
+      "epoch": 0.23661071143085532,
+      "loss": 1.054516077041626,
+      "loss_ce": 0.03449662774801254,
+      "loss_xval": 1.0234375,
+      "num_input_tokens_seen": 102303824,
+      "step": 592
+    },
+    {
+      "epoch": 0.23701039168665067,
+      "grad_norm": 92.7050944230278,
+      "learning_rate": 5e-06,
+      "loss": 1.0229,
+      "num_input_tokens_seen": 102476784,
+      "step": 593
+    },
+    {
+      "epoch": 0.23701039168665067,
+      "loss": 1.73143470287323,
+      "loss_ce": 0.03075111284852028,
+      "loss_xval": 1.703125,
+      "num_input_tokens_seen": 102476784,
+      "step": 593
+    },
+    {
+      "epoch": 0.23741007194244604,
+      "grad_norm": 121.2204406389868,
+      "learning_rate": 5e-06,
+      "loss": 0.808,
+      "num_input_tokens_seen": 102649976,
+      "step": 594
+    },
+    {
+      "epoch": 0.23741007194244604,
+      "loss": 0.783922553062439,
+      "loss_ce": 0.03868328034877777,
+      "loss_xval": 0.74609375,
+      "num_input_tokens_seen": 102649976,
+      "step": 594
+    },
+    {
+      "epoch": 0.2378097521982414,
+      "grad_norm": 37.963372753565885,
+      "learning_rate": 5e-06,
+      "loss": 0.8382,
+      "num_input_tokens_seen": 102822584,
+      "step": 595
+    },
+    {
+      "epoch": 0.2378097521982414,
+      "loss": 0.7244482040405273,
+      "loss_ce": 0.03298095613718033,
+      "loss_xval": 0.69140625,
+      "num_input_tokens_seen": 102822584,
+      "step": 595
+    },
+    {
+      "epoch": 0.23820943245403678,
+      "grad_norm": 169.1225094579379,
+      "learning_rate": 5e-06,
+      "loss": 1.0284,
+      "num_input_tokens_seen": 102995352,
+      "step": 596
+    },
+    {
+      "epoch": 0.23820943245403678,
+      "loss": 1.4873781204223633,
+      "loss_ce": 0.03516869992017746,
+      "loss_xval": 1.453125,
+      "num_input_tokens_seen": 102995352,
+      "step": 596
+    },
+    {
+      "epoch": 0.23860911270983212,
+      "grad_norm": 56.84926795707111,
+      "learning_rate": 5e-06,
+      "loss": 0.8466,
+      "num_input_tokens_seen": 103167920,
+      "step": 597
+    },
+    {
+      "epoch": 0.23860911270983212,
+      "loss": 0.8535851240158081,
+      "loss_ce": 0.0333947092294693,
+      "loss_xval": 0.8203125,
+      "num_input_tokens_seen": 103167920,
+      "step": 597
+    },
+    {
+      "epoch": 0.2390087929656275,
+      "grad_norm": 245.5535091122652,
+      "learning_rate": 5e-06,
+      "loss": 0.8312,
+      "num_input_tokens_seen": 103340488,
+      "step": 598
+    },
+    {
+      "epoch": 0.2390087929656275,
+      "loss": 1.069108009338379,
+      "loss_ce": 0.027115818113088608,
+      "loss_xval": 1.0390625,
+      "num_input_tokens_seen": 103340488,
+      "step": 598
+    },
+    {
+      "epoch": 0.23940847322142286,
+      "grad_norm": 158.88384407024452,
+      "learning_rate": 5e-06,
+      "loss": 0.5671,
+      "num_input_tokens_seen": 103513496,
+      "step": 599
+    },
+    {
+      "epoch": 0.23940847322142286,
+      "loss": 0.4917399287223816,
+      "loss_ce": 0.042154960334300995,
+      "loss_xval": 0.44921875,
+      "num_input_tokens_seen": 103513496,
+      "step": 599
+    },
+    {
+      "epoch": 0.23980815347721823,
+      "grad_norm": 215.62794739008515,
+      "learning_rate": 5e-06,
+      "loss": 0.8888,
+      "num_input_tokens_seen": 103686592,
+      "step": 600
+    },
+    {
+      "epoch": 0.23980815347721823,
+      "loss": 0.6870980262756348,
+      "loss_ce": 0.024866603314876556,
+      "loss_xval": 0.6640625,
+      "num_input_tokens_seen": 103686592,
+      "step": 600
+    },
+    {
+      "epoch": 0.24020783373301358,
+      "grad_norm": 233.7424673976639,
+      "learning_rate": 5e-06,
+      "loss": 1.2323,
+      "num_input_tokens_seen": 103859464,
+      "step": 601
+    },
+    {
+      "epoch": 0.24020783373301358,
+      "loss": 1.235499382019043,
+      "loss_ce": 0.024195652455091476,
+      "loss_xval": 1.2109375,
+      "num_input_tokens_seen": 103859464,
+      "step": 601
+    },
+    {
+      "epoch": 0.24060751398880895,
+      "grad_norm": 191.42755343958055,
+      "learning_rate": 5e-06,
+      "loss": 0.907,
+      "num_input_tokens_seen": 104032384,
+      "step": 602
+    },
+    {
+      "epoch": 0.24060751398880895,
+      "loss": 0.9421808123588562,
+      "loss_ce": 0.03629700094461441,
+      "loss_xval": 0.90625,
+      "num_input_tokens_seen": 104032384,
+      "step": 602
+    },
+    {
+      "epoch": 0.24100719424460432,
+      "grad_norm": 308.9412242751799,
+      "learning_rate": 5e-06,
+      "loss": 1.2389,
+      "num_input_tokens_seen": 104205312,
+      "step": 603
+    },
+    {
+      "epoch": 0.24100719424460432,
+      "loss": 1.3211491107940674,
+      "loss_ce": 0.02378581464290619,
+      "loss_xval": 1.296875,
+      "num_input_tokens_seen": 104205312,
+      "step": 603
+    },
+    {
+      "epoch": 0.2414068745003997,
+      "grad_norm": 89.11609070631093,
+      "learning_rate": 5e-06,
+      "loss": 0.731,
+      "num_input_tokens_seen": 104377936,
+      "step": 604
+    },
+    {
+      "epoch": 0.2414068745003997,
+      "loss": 0.8285616040229797,
+      "loss_ce": 0.0302217286080122,
+      "loss_xval": 0.796875,
+      "num_input_tokens_seen": 104377936,
+      "step": 604
+    },
+    {
+      "epoch": 0.24180655475619503,
+      "grad_norm": 279.00947911880144,
+      "learning_rate": 5e-06,
+      "loss": 1.1599,
+      "num_input_tokens_seen": 104550768,
+      "step": 605
+    },
+    {
+      "epoch": 0.24180655475619503,
+      "loss": 1.0528864860534668,
+      "loss_ce": 0.024688273668289185,
+      "loss_xval": 1.03125,
+      "num_input_tokens_seen": 104550768,
+      "step": 605
+    },
+    {
+      "epoch": 0.2422062350119904,
+      "grad_norm": 80.1187354122152,
+      "learning_rate": 5e-06,
+      "loss": 0.8784,
+      "num_input_tokens_seen": 104723680,
+      "step": 606
+    },
+    {
+      "epoch": 0.2422062350119904,
+      "loss": 0.8573121428489685,
+      "loss_ce": 0.02589123696088791,
+      "loss_xval": 0.83203125,
+      "num_input_tokens_seen": 104723680,
+      "step": 606
+    },
+    {
+      "epoch": 0.24260591526778577,
+      "grad_norm": 255.05532627961566,
+      "learning_rate": 5e-06,
+      "loss": 1.1517,
+      "num_input_tokens_seen": 104896272,
+      "step": 607
+    },
+    {
+      "epoch": 0.24260591526778577,
+      "loss": 1.3371992111206055,
+      "loss_ce": 0.023966766893863678,
+      "loss_xval": 1.3125,
+      "num_input_tokens_seen": 104896272,
+      "step": 607
+    },
+    {
+      "epoch": 0.24300559552358114,
+      "grad_norm": 172.50234084378377,
+      "learning_rate": 5e-06,
+      "loss": 1.2108,
+      "num_input_tokens_seen": 105063968,
+      "step": 608
+    },
+    {
+      "epoch": 0.24300559552358114,
+      "loss": 1.5010284185409546,
+      "loss_ce": 0.023855600506067276,
+      "loss_xval": 1.4765625,
+      "num_input_tokens_seen": 105063968,
+      "step": 608
+    },
+    {
+      "epoch": 0.2434052757793765,
+      "grad_norm": 392.0650101886134,
+      "learning_rate": 5e-06,
+      "loss": 1.335,
+      "num_input_tokens_seen": 105237008,
+      "step": 609
+    },
+    {
+      "epoch": 0.2434052757793765,
+      "loss": 1.3141515254974365,
+      "loss_ce": 0.026797983795404434,
+      "loss_xval": 1.2890625,
+      "num_input_tokens_seen": 105237008,
+      "step": 609
+    },
+    {
+      "epoch": 0.24380495603517185,
+      "grad_norm": 61.45983002680283,
+      "learning_rate": 5e-06,
+      "loss": 0.8797,
+      "num_input_tokens_seen": 105409768,
+      "step": 610
+    },
+    {
+      "epoch": 0.24380495603517185,
+      "loss": 1.0218791961669922,
+      "loss_ce": 0.027372296899557114,
+      "loss_xval": 0.99609375,
+      "num_input_tokens_seen": 105409768,
+      "step": 610
+    },
+    {
+      "epoch": 0.24420463629096723,
+      "grad_norm": 301.269151881736,
+      "learning_rate": 5e-06,
+      "loss": 0.9493,
+      "num_input_tokens_seen": 105582552,
+      "step": 611
+    },
+    {
+      "epoch": 0.24420463629096723,
+      "loss": 1.1783733367919922,
+      "loss_ce": 0.026517830789089203,
+      "loss_xval": 1.1484375,
+      "num_input_tokens_seen": 105582552,
+      "step": 611
+    },
+    {
+      "epoch": 0.2446043165467626,
+      "grad_norm": 111.22066209378004,
+      "learning_rate": 5e-06,
+      "loss": 1.1837,
+      "num_input_tokens_seen": 105755840,
+      "step": 612
+    },
+    {
+      "epoch": 0.2446043165467626,
+      "loss": 1.2885253429412842,
+      "loss_ce": 0.032177697867155075,
+      "loss_xval": 1.2578125,
+      "num_input_tokens_seen": 105755840,
+      "step": 612
+    },
+    {
+      "epoch": 0.24500399680255797,
+      "grad_norm": 212.8848788943127,
+      "learning_rate": 5e-06,
+      "loss": 0.9066,
+      "num_input_tokens_seen": 105928728,
+      "step": 613
+    },
+    {
+      "epoch": 0.24500399680255797,
+      "loss": 1.120781660079956,
+      "loss_ce": 0.024956412613391876,
+      "loss_xval": 1.09375,
+      "num_input_tokens_seen": 105928728,
+      "step": 613
+    },
+    {
+      "epoch": 0.2454036770583533,
+      "grad_norm": 103.49456362295976,
+      "learning_rate": 5e-06,
+      "loss": 0.8015,
+      "num_input_tokens_seen": 106101936,
+      "step": 614
+    },
+    {
+      "epoch": 0.2454036770583533,
+      "loss": 0.8075883984565735,
+      "loss_ce": 0.026216331869363785,
+      "loss_xval": 0.78125,
+      "num_input_tokens_seen": 106101936,
+      "step": 614
+    },
+    {
+      "epoch": 0.24580335731414868,
+      "grad_norm": 248.325610563766,
+      "learning_rate": 5e-06,
+      "loss": 1.5101,
+      "num_input_tokens_seen": 106275008,
+      "step": 615
+    },
+    {
+      "epoch": 0.24580335731414868,
+      "loss": 1.5115883350372314,
+      "loss_ce": 0.02550426870584488,
+      "loss_xval": 1.484375,
+      "num_input_tokens_seen": 106275008,
+      "step": 615
+    },
+    {
+      "epoch": 0.24620303756994405,
+      "grad_norm": 167.96429221700566,
+      "learning_rate": 5e-06,
+      "loss": 1.2687,
+      "num_input_tokens_seen": 106447848,
+      "step": 616
+    },
+    {
+      "epoch": 0.24620303756994405,
+      "loss": 1.5167852640151978,
+      "loss_ce": 0.03192197158932686,
+      "loss_xval": 1.484375,
+      "num_input_tokens_seen": 106447848,
+      "step": 616
+    },
+    {
+      "epoch": 0.24660271782573942,
+      "grad_norm": 298.4988658186804,
+      "learning_rate": 5e-06,
+      "loss": 1.4475,
+      "num_input_tokens_seen": 106620640,
+      "step": 617
+    },
+    {
+      "epoch": 0.24660271782573942,
+      "loss": 1.7282776832580566,
+      "loss_ce": 0.03162240982055664,
+      "loss_xval": 1.6953125,
+      "num_input_tokens_seen": 106620640,
+      "step": 617
+    },
+    {
+      "epoch": 0.24700239808153476,
+      "grad_norm": 219.23244811627757,
+      "learning_rate": 5e-06,
+      "loss": 1.3819,
+      "num_input_tokens_seen": 106793448,
+      "step": 618
+    },
+    {
+      "epoch": 0.24700239808153476,
+      "loss": 0.7871071696281433,
+      "loss_ce": 0.026853220537304878,
+      "loss_xval": 0.76171875,
+      "num_input_tokens_seen": 106793448,
+      "step": 618
+    },
+    {
+      "epoch": 0.24740207833733013,
+      "grad_norm": 303.82496611640624,
+      "learning_rate": 5e-06,
+      "loss": 1.0851,
+      "num_input_tokens_seen": 106966416,
+      "step": 619
+    },
+    {
+      "epoch": 0.24740207833733013,
+      "loss": 1.2948808670043945,
+      "loss_ce": 0.02705862559378147,
+      "loss_xval": 1.265625,
+      "num_input_tokens_seen": 106966416,
+      "step": 619
+    },
+    {
+      "epoch": 0.2478017585931255,
+      "grad_norm": 169.45479385596363,
+      "learning_rate": 5e-06,
+      "loss": 1.7907,
+      "num_input_tokens_seen": 107139480,
+      "step": 620
+    },
+    {
+      "epoch": 0.2478017585931255,
+      "loss": 1.1137454509735107,
+      "loss_ce": 0.03098176047205925,
+      "loss_xval": 1.0859375,
+      "num_input_tokens_seen": 107139480,
+      "step": 620
+    },
+    {
+      "epoch": 0.24820143884892087,
+      "grad_norm": 280.20960363263634,
+      "learning_rate": 5e-06,
+      "loss": 1.0557,
+      "num_input_tokens_seen": 107312464,
+      "step": 621
+    },
+    {
+      "epoch": 0.24820143884892087,
+      "loss": 1.1125739812850952,
+      "loss_ce": 0.031031014397740364,
+      "loss_xval": 1.078125,
+      "num_input_tokens_seen": 107312464,
+      "step": 621
+    },
+    {
+      "epoch": 0.24860111910471622,
+      "grad_norm": 52.29310753242722,
+      "learning_rate": 5e-06,
+      "loss": 0.8947,
+      "num_input_tokens_seen": 107485336,
+      "step": 622
+    },
+    {
+      "epoch": 0.24860111910471622,
+      "loss": 0.861524760723114,
+      "loss_ce": 0.03401007875800133,
+      "loss_xval": 0.828125,
+      "num_input_tokens_seen": 107485336,
+      "step": 622
+    },
+    {
+      "epoch": 0.2490007993605116,
+      "grad_norm": 326.1027649366469,
+      "learning_rate": 5e-06,
+      "loss": 1.1985,
+      "num_input_tokens_seen": 107658200,
+      "step": 623
+    },
+    {
+      "epoch": 0.2490007993605116,
+      "loss": 1.141750693321228,
+      "loss_ce": 0.031765300780534744,
+      "loss_xval": 1.109375,
+      "num_input_tokens_seen": 107658200,
+      "step": 623
+    },
+    {
+      "epoch": 0.24940047961630696,
+      "grad_norm": 38.95977192063135,
+      "learning_rate": 5e-06,
+      "loss": 0.7603,
+      "num_input_tokens_seen": 107831376,
+      "step": 624
+    },
+    {
+      "epoch": 0.24940047961630696,
+      "loss": 0.727970540523529,
+      "loss_ce": 0.02875177562236786,
+      "loss_xval": 0.69921875,
+      "num_input_tokens_seen": 107831376,
+      "step": 624
+    },
+    {
+      "epoch": 0.24980015987210233,
+      "grad_norm": 252.07183773955228,
+      "learning_rate": 5e-06,
+      "loss": 1.5353,
+      "num_input_tokens_seen": 108004032,
+      "step": 625
+    },
+    {
+      "epoch": 0.24980015987210233,
+      "loss": 1.5708106756210327,
+      "loss_ce": 0.04151376336812973,
+      "loss_xval": 1.53125,
+      "num_input_tokens_seen": 108004032,
+      "step": 625
+    },
+    {
+      "epoch": 0.2501998401278977,
+      "grad_norm": 123.5509465218223,
+      "learning_rate": 5e-06,
+      "loss": 0.8309,
+      "num_input_tokens_seen": 108176984,
+      "step": 626
+    },
+    {
+      "epoch": 0.2501998401278977,
+      "loss": 0.5989866256713867,
+      "loss_ce": 0.031481776386499405,
+      "loss_xval": 0.56640625,
+      "num_input_tokens_seen": 108176984,
+      "step": 626
+    },
+    {
+      "epoch": 0.25059952038369304,
+      "grad_norm": 318.6509948375151,
+      "learning_rate": 5e-06,
+      "loss": 1.5763,
+      "num_input_tokens_seen": 108350144,
+      "step": 627
+    },
+    {
+      "epoch": 0.25059952038369304,
+      "loss": 2.1137542724609375,
+      "loss_ce": 0.03538517281413078,
+      "loss_xval": 2.078125,
+      "num_input_tokens_seen": 108350144,
+      "step": 627
+    },
+    {
+      "epoch": 0.2509992006394884,
+      "grad_norm": 61.521784410197895,
+      "learning_rate": 5e-06,
+      "loss": 0.9835,
+      "num_input_tokens_seen": 108523376,
+      "step": 628
+    },
+    {
+      "epoch": 0.2509992006394884,
+      "loss": 0.8479458093643188,
+      "loss_ce": 0.03227199614048004,
+      "loss_xval": 0.81640625,
+      "num_input_tokens_seen": 108523376,
+      "step": 628
+    },
+    {
+      "epoch": 0.2513988808952838,
+      "grad_norm": 126.59752275575777,
+      "learning_rate": 5e-06,
+      "loss": 1.0511,
+      "num_input_tokens_seen": 108696208,
+      "step": 629
+    },
+    {
+      "epoch": 0.2513988808952838,
+      "loss": 1.2120076417922974,
+      "loss_ce": 0.02963467314839363,
+      "loss_xval": 1.1796875,
+      "num_input_tokens_seen": 108696208,
+      "step": 629
+    },
+    {
+      "epoch": 0.2517985611510791,
+      "grad_norm": 83.31660909579162,
+      "learning_rate": 5e-06,
+      "loss": 0.9889,
+      "num_input_tokens_seen": 108869176,
+      "step": 630
+    },
+    {
+      "epoch": 0.2517985611510791,
+      "loss": 1.004129409790039,
+      "loss_ce": 0.03550145775079727,
+      "loss_xval": 0.96875,
+      "num_input_tokens_seen": 108869176,
+      "step": 630
+    },
+    {
+      "epoch": 0.2521982414068745,
+      "grad_norm": 114.49495819012182,
+      "learning_rate": 5e-06,
+      "loss": 0.8974,
+      "num_input_tokens_seen": 109042280,
+      "step": 631
+    },
+    {
+      "epoch": 0.2521982414068745,
+      "loss": 1.1485271453857422,
+      "loss_ce": 0.0317058339715004,
+      "loss_xval": 1.1171875,
+      "num_input_tokens_seen": 109042280,
+      "step": 631
+    },
+    {
+      "epoch": 0.25259792166266987,
+      "grad_norm": 158.50373331009686,
+      "learning_rate": 5e-06,
+      "loss": 0.9505,
+      "num_input_tokens_seen": 109215320,
+      "step": 632
+    },
+    {
+      "epoch": 0.25259792166266987,
+      "loss": 0.7758920192718506,
+      "loss_ce": 0.022229932248592377,
+      "loss_xval": 0.75390625,
+      "num_input_tokens_seen": 109215320,
+      "step": 632
+    },
+    {
+      "epoch": 0.2529976019184652,
+      "grad_norm": 124.3150224300894,
+      "learning_rate": 5e-06,
+      "loss": 1.041,
+      "num_input_tokens_seen": 109388376,
+      "step": 633
+    },
+    {
+      "epoch": 0.2529976019184652,
+      "loss": 0.7999504804611206,
+      "loss_ce": 0.022484708577394485,
+      "loss_xval": 0.77734375,
+      "num_input_tokens_seen": 109388376,
+      "step": 633
+    },
+    {
+      "epoch": 0.2533972821742606,
+      "grad_norm": 153.8473346571185,
+      "learning_rate": 5e-06,
+      "loss": 1.0814,
+      "num_input_tokens_seen": 109561424,
+      "step": 634
+    },
+    {
+      "epoch": 0.2533972821742606,
+      "loss": 0.7413469552993774,
+      "loss_ce": 0.02229173481464386,
+      "loss_xval": 0.71875,
+      "num_input_tokens_seen": 109561424,
+      "step": 634
+    },
+    {
+      "epoch": 0.25379696243005595,
+      "grad_norm": 123.4116823206711,
+      "learning_rate": 5e-06,
+      "loss": 0.6317,
+      "num_input_tokens_seen": 109734584,
+      "step": 635
+    },
+    {
+      "epoch": 0.25379696243005595,
+      "loss": 0.49806663393974304,
+      "loss_ce": 0.024433817714452744,
+      "loss_xval": 0.47265625,
+      "num_input_tokens_seen": 109734584,
+      "step": 635
+    },
+    {
+      "epoch": 0.2541966426858513,
+      "grad_norm": 155.95322284214282,
+      "learning_rate": 5e-06,
+      "loss": 0.9948,
+      "num_input_tokens_seen": 109907808,
+      "step": 636
+    },
+    {
+      "epoch": 0.2541966426858513,
+      "loss": 0.8807600736618042,
+      "loss_ce": 0.022056490182876587,
+      "loss_xval": 0.859375,
+      "num_input_tokens_seen": 109907808,
+      "step": 636
+    },
+    {
+      "epoch": 0.2545963229416467,
+      "grad_norm": 36.34285927695085,
+      "learning_rate": 5e-06,
+      "loss": 0.7191,
+      "num_input_tokens_seen": 110080336,
+      "step": 637
+    },
+    {
+      "epoch": 0.2545963229416467,
+      "loss": 0.7213298678398132,
+      "loss_ce": 0.021866969764232635,
+      "loss_xval": 0.69921875,
+      "num_input_tokens_seen": 110080336,
+      "step": 637
+    },
+    {
+      "epoch": 0.25499600319744203,
+      "grad_norm": 40.14733221133789,
+      "learning_rate": 5e-06,
+      "loss": 0.5536,
+      "num_input_tokens_seen": 110253400,
+      "step": 638
+    },
+    {
+      "epoch": 0.25499600319744203,
+      "loss": 0.7994478940963745,
+      "loss_ce": 0.017709653824567795,
+      "loss_xval": 0.78125,
+      "num_input_tokens_seen": 110253400,
+      "step": 638
+    },
+    {
+      "epoch": 0.25539568345323743,
+      "grad_norm": 123.57240267301728,
+      "learning_rate": 5e-06,
+      "loss": 0.9722,
+      "num_input_tokens_seen": 110426568,
+      "step": 639
+    },
+    {
+      "epoch": 0.25539568345323743,
+      "loss": 0.8483471274375916,
+      "loss_ce": 0.014118612743914127,
+      "loss_xval": 0.8359375,
+      "num_input_tokens_seen": 110426568,
+      "step": 639
+    },
+    {
+      "epoch": 0.2557953637090328,
+      "grad_norm": 75.02054811289982,
+      "learning_rate": 5e-06,
+      "loss": 0.7891,
+      "num_input_tokens_seen": 110599520,
+      "step": 640
+    },
+    {
+      "epoch": 0.2557953637090328,
+      "loss": 0.7000423669815063,
+      "loss_ce": 0.023406604304909706,
+      "loss_xval": 0.67578125,
+      "num_input_tokens_seen": 110599520,
+      "step": 640
+    },
+    {
+      "epoch": 0.2561950439648281,
+      "grad_norm": 91.74212057215723,
+      "learning_rate": 5e-06,
+      "loss": 1.2231,
+      "num_input_tokens_seen": 110772552,
+      "step": 641
+    },
+    {
+      "epoch": 0.2561950439648281,
+      "loss": 1.4409394264221191,
+      "loss_ce": 0.014792068861424923,
+      "loss_xval": 1.4296875,
+      "num_input_tokens_seen": 110772552,
+      "step": 641
+    },
+    {
+      "epoch": 0.2565947242206235,
+      "grad_norm": 157.31170807411007,
+      "learning_rate": 5e-06,
+      "loss": 0.8605,
+      "num_input_tokens_seen": 110945136,
+      "step": 642
+    },
+    {
+      "epoch": 0.2565947242206235,
+      "loss": 0.8512501120567322,
+      "loss_ce": 0.015312610194087029,
+      "loss_xval": 0.8359375,
+      "num_input_tokens_seen": 110945136,
+      "step": 642
+    },
+    {
+      "epoch": 0.25699440447641886,
+      "grad_norm": 58.06363263841326,
+      "learning_rate": 5e-06,
+      "loss": 1.0306,
+      "num_input_tokens_seen": 111118304,
+      "step": 643
+    },
+    {
+      "epoch": 0.25699440447641886,
+      "loss": 1.2408883571624756,
+      "loss_ce": 0.014325831085443497,
+      "loss_xval": 1.2265625,
+      "num_input_tokens_seen": 111118304,
+      "step": 643
+    },
+    {
+      "epoch": 0.2573940847322142,
+      "grad_norm": 83.05291570147797,
+      "learning_rate": 5e-06,
+      "loss": 0.8975,
+      "num_input_tokens_seen": 111291296,
+      "step": 644
+    },
+    {
+      "epoch": 0.2573940847322142,
+      "loss": 0.860167920589447,
+      "loss_ce": 0.012267546728253365,
+      "loss_xval": 0.84765625,
+      "num_input_tokens_seen": 111291296,
+      "step": 644
+    },
+    {
+      "epoch": 0.2577937649880096,
+      "grad_norm": 106.75725756616248,
+      "learning_rate": 5e-06,
+      "loss": 0.7986,
+      "num_input_tokens_seen": 111464416,
+      "step": 645
+    },
+    {
+      "epoch": 0.2577937649880096,
+      "loss": 0.8707510828971863,
+      "loss_ce": 0.014671968296170235,
+      "loss_xval": 0.85546875,
+      "num_input_tokens_seen": 111464416,
+      "step": 645
+    },
+    {
+      "epoch": 0.25819344524380494,
+      "grad_norm": 65.34641583085333,
+      "learning_rate": 5e-06,
+      "loss": 0.892,
+      "num_input_tokens_seen": 111637288,
+      "step": 646
+    },
+    {
+      "epoch": 0.25819344524380494,
+      "loss": 0.8701699376106262,
+      "loss_ce": 0.022757841274142265,
+      "loss_xval": 0.84765625,
+      "num_input_tokens_seen": 111637288,
+      "step": 646
+    },
+    {
+      "epoch": 0.25859312549960034,
+      "grad_norm": 69.58421071925531,
+      "learning_rate": 5e-06,
+      "loss": 0.7172,
+      "num_input_tokens_seen": 111810496,
+      "step": 647
+    },
+    {
+      "epoch": 0.25859312549960034,
+      "loss": 0.6108307242393494,
+      "loss_ce": 0.0166535172611475,
+      "loss_xval": 0.59375,
+      "num_input_tokens_seen": 111810496,
+      "step": 647
+    },
+    {
+      "epoch": 0.2589928057553957,
+      "grad_norm": 60.44211136131847,
+      "learning_rate": 5e-06,
+      "loss": 0.8919,
+      "num_input_tokens_seen": 111983536,
+      "step": 648
+    },
+    {
+      "epoch": 0.2589928057553957,
+      "loss": 1.001638412475586,
+      "loss_ce": 0.021535882726311684,
+      "loss_xval": 0.98046875,
+      "num_input_tokens_seen": 111983536,
+      "step": 648
+    },
+    {
+      "epoch": 0.259392486011191,
+      "grad_norm": 37.92595630946876,
+      "learning_rate": 5e-06,
+      "loss": 1.3082,
+      "num_input_tokens_seen": 112156504,
+      "step": 649
+    },
+    {
+      "epoch": 0.259392486011191,
+      "loss": 1.5613832473754883,
+      "loss_ce": 0.020733918994665146,
+      "loss_xval": 1.5390625,
+      "num_input_tokens_seen": 112156504,
+      "step": 649
+    },
+    {
+      "epoch": 0.2597921662669864,
+      "grad_norm": 28.670635237631853,
+      "learning_rate": 5e-06,
+      "loss": 1.019,
+      "num_input_tokens_seen": 112329664,
+      "step": 650
+    },
+    {
+      "epoch": 0.2597921662669864,
+      "loss": 1.3567280769348145,
+      "loss_ce": 0.021767208352684975,
+      "loss_xval": 1.3359375,
+      "num_input_tokens_seen": 112329664,
+      "step": 650
+    },
+    {
+      "epoch": 0.26019184652278177,
+      "grad_norm": 62.41074023562404,
+      "learning_rate": 5e-06,
+      "loss": 0.9244,
+      "num_input_tokens_seen": 112502960,
+      "step": 651
+    },
+    {
+      "epoch": 0.26019184652278177,
+      "loss": 0.9109457731246948,
+      "loss_ce": 0.013728970661759377,
+      "loss_xval": 0.8984375,
+      "num_input_tokens_seen": 112502960,
+      "step": 651
+    },
+    {
+      "epoch": 0.26059152677857716,
+      "grad_norm": 45.00813129699106,
+      "learning_rate": 5e-06,
+      "loss": 0.8637,
+      "num_input_tokens_seen": 112675584,
+      "step": 652
+    },
+    {
+      "epoch": 0.26059152677857716,
+      "loss": 0.6911357045173645,
+      "loss_ce": 0.02640179917216301,
+      "loss_xval": 0.6640625,
+      "num_input_tokens_seen": 112675584,
+      "step": 652
+    },
+    {
+      "epoch": 0.2609912070343725,
+      "grad_norm": 136.9051208047938,
+      "learning_rate": 5e-06,
+      "loss": 0.947,
+      "num_input_tokens_seen": 112848712,
+      "step": 653
+    },
+    {
+      "epoch": 0.2609912070343725,
+      "loss": 1.220213770866394,
+      "loss_ce": 0.015074612572789192,
+      "loss_xval": 1.203125,
+      "num_input_tokens_seen": 112848712,
+      "step": 653
+    },
+    {
+      "epoch": 0.26139088729016785,
+      "grad_norm": 191.51181392428464,
+      "learning_rate": 5e-06,
+      "loss": 1.027,
+      "num_input_tokens_seen": 113021672,
+      "step": 654
+    },
+    {
+      "epoch": 0.26139088729016785,
+      "loss": 0.8155316114425659,
+      "loss_ce": 0.02170836180448532,
+      "loss_xval": 0.79296875,
+      "num_input_tokens_seen": 113021672,
+      "step": 654
+    },
+    {
+      "epoch": 0.26179056754596325,
+      "grad_norm": 59.47364063857337,
+      "learning_rate": 5e-06,
+      "loss": 0.9311,
+      "num_input_tokens_seen": 113194640,
+      "step": 655
+    },
+    {
+      "epoch": 0.26179056754596325,
+      "loss": 0.7021055221557617,
+      "loss_ce": 0.0113096684217453,
+      "loss_xval": 0.69140625,
+      "num_input_tokens_seen": 113194640,
+      "step": 655
+    },
+    {
+      "epoch": 0.2621902478017586,
+      "grad_norm": 299.2925607489183,
+      "learning_rate": 5e-06,
+      "loss": 1.1994,
+      "num_input_tokens_seen": 113367520,
+      "step": 656
+    },
+    {
+      "epoch": 0.2621902478017586,
+      "loss": 1.1251329183578491,
+      "loss_ce": 0.012095760554075241,
+      "loss_xval": 1.109375,
+      "num_input_tokens_seen": 113367520,
+      "step": 656
+    },
+    {
+      "epoch": 0.26258992805755393,
+      "grad_norm": 152.9578503535034,
+      "learning_rate": 5e-06,
+      "loss": 0.6672,
+      "num_input_tokens_seen": 113540536,
+      "step": 657
+    },
+    {
+      "epoch": 0.26258992805755393,
+      "loss": 0.8924187421798706,
+      "loss_ce": 0.01619800738990307,
+      "loss_xval": 0.875,
+      "num_input_tokens_seen": 113540536,
+      "step": 657
+    },
+    {
+      "epoch": 0.26298960831334933,
+      "grad_norm": 174.0581314265997,
+      "learning_rate": 5e-06,
+      "loss": 1.0259,
+      "num_input_tokens_seen": 113713200,
+      "step": 658
+    },
+    {
+      "epoch": 0.26298960831334933,
+      "loss": 1.100234031677246,
+      "loss_ce": 0.011733030900359154,
+      "loss_xval": 1.0859375,
+      "num_input_tokens_seen": 113713200,
+      "step": 658
+    },
+    {
+      "epoch": 0.2633892885691447,
+      "grad_norm": 84.02652993262616,
+      "learning_rate": 5e-06,
+      "loss": 0.7989,
+      "num_input_tokens_seen": 113886064,
+      "step": 659
+    },
+    {
+      "epoch": 0.2633892885691447,
+      "loss": 0.5299695730209351,
+      "loss_ce": 0.014466674998402596,
+      "loss_xval": 0.515625,
+      "num_input_tokens_seen": 113886064,
+      "step": 659
+    },
+    {
+      "epoch": 0.2637889688249401,
+      "grad_norm": 236.5341573563948,
+      "learning_rate": 5e-06,
+      "loss": 1.0824,
+      "num_input_tokens_seen": 114058936,
+      "step": 660
+    },
+    {
+      "epoch": 0.2637889688249401,
+      "loss": 0.8847863674163818,
+      "loss_ce": 0.013448446989059448,
+      "loss_xval": 0.87109375,
+      "num_input_tokens_seen": 114058936,
+      "step": 660
+    },
+    {
+      "epoch": 0.2641886490807354,
+      "grad_norm": 169.64090644183318,
+      "learning_rate": 5e-06,
+      "loss": 1.0582,
+      "num_input_tokens_seen": 114231344,
+      "step": 661
+    },
+    {
+      "epoch": 0.2641886490807354,
+      "loss": 1.3163893222808838,
+      "loss_ce": 0.01853768527507782,
+      "loss_xval": 1.296875,
+      "num_input_tokens_seen": 114231344,
+      "step": 661
+    },
+    {
+      "epoch": 0.26458832933653076,
+      "grad_norm": 175.88382335589282,
+      "learning_rate": 5e-06,
+      "loss": 0.6119,
+      "num_input_tokens_seen": 114404496,
+      "step": 662
+    },
+    {
+      "epoch": 0.26458832933653076,
+      "loss": 0.6016393899917603,
+      "loss_ce": 0.019119868054986,
+      "loss_xval": 0.58203125,
+      "num_input_tokens_seen": 114404496,
+      "step": 662
+    },
+    {
+      "epoch": 0.26498800959232616,
+      "grad_norm": 195.8103408122979,
+      "learning_rate": 5e-06,
+      "loss": 1.1647,
+      "num_input_tokens_seen": 114577520,
+      "step": 663
+    },
+    {
+      "epoch": 0.26498800959232616,
+      "loss": 0.993999719619751,
+      "loss_ce": 0.018291711807250977,
+      "loss_xval": 0.9765625,
+      "num_input_tokens_seen": 114577520,
+      "step": 663
+    },
+    {
+      "epoch": 0.2653876898481215,
+      "grad_norm": 138.23767892074832,
+      "learning_rate": 5e-06,
+      "loss": 1.0253,
+      "num_input_tokens_seen": 114750672,
+      "step": 664
+    },
+    {
+      "epoch": 0.2653876898481215,
+      "loss": 1.1113959550857544,
+      "loss_ce": 0.018378403037786484,
+      "loss_xval": 1.09375,
+      "num_input_tokens_seen": 114750672,
+      "step": 664
+    },
+    {
+      "epoch": 0.26578737010391684,
+      "grad_norm": 190.91695554448776,
+      "learning_rate": 5e-06,
+      "loss": 1.0631,
+      "num_input_tokens_seen": 114923496,
+      "step": 665
+    },
+    {
+      "epoch": 0.26578737010391684,
+      "loss": 0.6147146821022034,
+      "loss_ce": 0.024016443639993668,
+      "loss_xval": 0.58984375,
+      "num_input_tokens_seen": 114923496,
+      "step": 665
+    },
+    {
+      "epoch": 0.26618705035971224,
+      "grad_norm": 102.45689102808429,
+      "learning_rate": 5e-06,
+      "loss": 0.8536,
+      "num_input_tokens_seen": 115096112,
+      "step": 666
+    },
+    {
+      "epoch": 0.26618705035971224,
+      "loss": 0.6601771116256714,
+      "loss_ce": 0.0206507109105587,
+      "loss_xval": 0.640625,
+      "num_input_tokens_seen": 115096112,
+      "step": 666
+    },
+    {
+      "epoch": 0.2665867306155076,
+      "grad_norm": 175.7561493345075,
+      "learning_rate": 5e-06,
+      "loss": 0.9328,
+      "num_input_tokens_seen": 115269536,
+      "step": 667
+    },
+    {
+      "epoch": 0.2665867306155076,
+      "loss": 1.2699246406555176,
+      "loss_ce": 0.029201963916420937,
+      "loss_xval": 1.2421875,
+      "num_input_tokens_seen": 115269536,
+      "step": 667
+    },
+    {
+      "epoch": 0.266986410871303,
+      "grad_norm": 75.22857527978371,
+      "learning_rate": 5e-06,
+      "loss": 0.661,
+      "num_input_tokens_seen": 115442560,
+      "step": 668
+    },
+    {
+      "epoch": 0.266986410871303,
+      "loss": 0.6588489413261414,
+      "loss_ce": 0.030308909714221954,
+      "loss_xval": 0.62890625,
+      "num_input_tokens_seen": 115442560,
+      "step": 668
+    },
+    {
+      "epoch": 0.2673860911270983,
+      "grad_norm": 146.67725635888027,
+      "learning_rate": 5e-06,
+      "loss": 0.968,
+      "num_input_tokens_seen": 115615360,
+      "step": 669
+    },
+    {
+      "epoch": 0.2673860911270983,
+      "loss": 1.12626314163208,
+      "loss_ce": 0.026165474206209183,
+      "loss_xval": 1.1015625,
+      "num_input_tokens_seen": 115615360,
+      "step": 669
+    },
+    {
+      "epoch": 0.26778577138289367,
+      "grad_norm": 133.73687162857127,
+      "learning_rate": 5e-06,
+      "loss": 0.8349,
+      "num_input_tokens_seen": 115788160,
+      "step": 670
+    },
+    {
+      "epoch": 0.26778577138289367,
+      "loss": 1.1909589767456055,
+      "loss_ce": 0.02347848378121853,
+      "loss_xval": 1.1640625,
+      "num_input_tokens_seen": 115788160,
+      "step": 670
+    },
+    {
+      "epoch": 0.26818545163868907,
+      "grad_norm": 270.0264431031233,
+      "learning_rate": 5e-06,
+      "loss": 1.0488,
+      "num_input_tokens_seen": 115960856,
+      "step": 671
+    },
+    {
+      "epoch": 0.26818545163868907,
+      "loss": 0.9442439675331116,
+      "loss_ce": 0.03384360671043396,
+      "loss_xval": 0.91015625,
+      "num_input_tokens_seen": 115960856,
+      "step": 671
+    },
+    {
+      "epoch": 0.2685851318944844,
+      "grad_norm": 118.67248768897453,
+      "learning_rate": 5e-06,
+      "loss": 0.9384,
+      "num_input_tokens_seen": 116133480,
+      "step": 672
+    },
+    {
+      "epoch": 0.2685851318944844,
+      "loss": 0.7503706216812134,
+      "loss_ce": 0.023441843688488007,
+      "loss_xval": 0.7265625,
+      "num_input_tokens_seen": 116133480,
+      "step": 672
+    },
+    {
+      "epoch": 0.26898481215027975,
+      "grad_norm": 410.22210699900944,
+      "learning_rate": 5e-06,
+      "loss": 0.984,
+      "num_input_tokens_seen": 116306376,
+      "step": 673
+    },
+    {
+      "epoch": 0.26898481215027975,
+      "loss": 1.0442287921905518,
+      "loss_ce": 0.017373330891132355,
+      "loss_xval": 1.0234375,
+      "num_input_tokens_seen": 116306376,
+      "step": 673
+    },
+    {
+      "epoch": 0.26938449240607515,
+      "grad_norm": 49.025436414803835,
+      "learning_rate": 5e-06,
+      "loss": 1.0499,
+      "num_input_tokens_seen": 116479536,
+      "step": 674
+    },
+    {
+      "epoch": 0.26938449240607515,
+      "loss": 1.7757625579833984,
+      "loss_ce": 0.01941489428281784,
+      "loss_xval": 1.7578125,
+      "num_input_tokens_seen": 116479536,
+      "step": 674
+    },
+    {
+      "epoch": 0.2697841726618705,
+      "grad_norm": 413.2558380877526,
+      "learning_rate": 5e-06,
+      "loss": 0.8974,
+      "num_input_tokens_seen": 116652840,
+      "step": 675
+    },
+    {
+      "epoch": 0.2697841726618705,
+      "loss": 1.0395095348358154,
+      "loss_ce": 0.024128668010234833,
+      "loss_xval": 1.015625,
+      "num_input_tokens_seen": 116652840,
+      "step": 675
+    },
+    {
+      "epoch": 0.2701838529176659,
+      "grad_norm": 121.24926053527112,
+      "learning_rate": 5e-06,
+      "loss": 1.2369,
+      "num_input_tokens_seen": 116825496,
+      "step": 676
+    },
+    {
+      "epoch": 0.2701838529176659,
+      "loss": 1.2461820840835571,
+      "loss_ce": 0.0210844948887825,
+      "loss_xval": 1.2265625,
+      "num_input_tokens_seen": 116825496,
+      "step": 676
+    },
+    {
+      "epoch": 0.27058353317346123,
+      "grad_norm": 268.47864300466,
+      "learning_rate": 5e-06,
+      "loss": 0.9889,
+      "num_input_tokens_seen": 116998824,
+      "step": 677
+    },
+    {
+      "epoch": 0.27058353317346123,
+      "loss": 0.8895606994628906,
+      "loss_ce": 0.021884921938180923,
+      "loss_xval": 0.8671875,
+      "num_input_tokens_seen": 116998824,
+      "step": 677
+    },
+    {
+      "epoch": 0.2709832134292566,
+      "grad_norm": 64.88427270509409,
+      "learning_rate": 5e-06,
+      "loss": 0.6857,
+      "num_input_tokens_seen": 117171936,
+      "step": 678
+    },
+    {
+      "epoch": 0.2709832134292566,
+      "loss": 0.778445839881897,
+      "loss_ce": 0.022342335432767868,
+      "loss_xval": 0.7578125,
+      "num_input_tokens_seen": 117171936,
+      "step": 678
+    },
+    {
+      "epoch": 0.271382893685052,
+      "grad_norm": 166.62187626988478,
+      "learning_rate": 5e-06,
+      "loss": 0.6886,
+      "num_input_tokens_seen": 117344920,
+      "step": 679
+    },
+    {
+      "epoch": 0.271382893685052,
+      "loss": 0.4085671603679657,
+      "loss_ce": 0.023191187530755997,
+      "loss_xval": 0.384765625,
+      "num_input_tokens_seen": 117344920,
+      "step": 679
+    },
+    {
+      "epoch": 0.2717825739408473,
+      "grad_norm": 52.26940993035468,
+      "learning_rate": 5e-06,
+      "loss": 1.0123,
+      "num_input_tokens_seen": 117517976,
+      "step": 680
+    },
+    {
+      "epoch": 0.2717825739408473,
+      "loss": 1.3288424015045166,
+      "loss_ce": 0.02269016206264496,
+      "loss_xval": 1.3046875,
+      "num_input_tokens_seen": 117517976,
+      "step": 680
+    },
+    {
+      "epoch": 0.27218225419664266,
+      "grad_norm": 142.4492173509578,
+      "learning_rate": 5e-06,
+      "loss": 0.7816,
+      "num_input_tokens_seen": 117690720,
+      "step": 681
+    },
+    {
+      "epoch": 0.27218225419664266,
+      "loss": 0.7112863063812256,
+      "loss_ce": 0.026471804827451706,
+      "loss_xval": 0.68359375,
+      "num_input_tokens_seen": 117690720,
+      "step": 681
+    },
+    {
+      "epoch": 0.27258193445243806,
+      "grad_norm": 70.93340773235381,
+      "learning_rate": 5e-06,
+      "loss": 0.8648,
+      "num_input_tokens_seen": 117863704,
+      "step": 682
+    },
+    {
+      "epoch": 0.27258193445243806,
+      "loss": 1.0744261741638184,
+      "loss_ce": 0.02364499494433403,
+      "loss_xval": 1.046875,
+      "num_input_tokens_seen": 117863704,
+      "step": 682
+    },
+    {
+      "epoch": 0.2729816147082334,
+      "grad_norm": 65.75630002146995,
+      "learning_rate": 5e-06,
+      "loss": 0.8312,
+      "num_input_tokens_seen": 118036656,
+      "step": 683
+    },
+    {
+      "epoch": 0.2729816147082334,
+      "loss": 0.5977785587310791,
+      "loss_ce": 0.023987047374248505,
+      "loss_xval": 0.57421875,
+      "num_input_tokens_seen": 118036656,
+      "step": 683
+    },
+    {
+      "epoch": 0.2733812949640288,
+      "grad_norm": 54.55328598333207,
+      "learning_rate": 5e-06,
+      "loss": 0.5361,
+      "num_input_tokens_seen": 118209616,
+      "step": 684
+    },
+    {
+      "epoch": 0.2733812949640288,
+      "loss": 0.4402380585670471,
+      "loss_ce": 0.01866826042532921,
+      "loss_xval": 0.421875,
+      "num_input_tokens_seen": 118209616,
+      "step": 684
+    },
+    {
+      "epoch": 0.27378097521982414,
+      "grad_norm": 72.43434827664534,
+      "learning_rate": 5e-06,
+      "loss": 0.8812,
+      "num_input_tokens_seen": 118382624,
+      "step": 685
+    },
+    {
+      "epoch": 0.27378097521982414,
+      "loss": 0.9849303364753723,
+      "loss_ce": 0.023275673389434814,
+      "loss_xval": 0.9609375,
+      "num_input_tokens_seen": 118382624,
+      "step": 685
+    },
+    {
+      "epoch": 0.2741806554756195,
+      "grad_norm": 65.98449745999218,
+      "learning_rate": 5e-06,
+      "loss": 0.9268,
+      "num_input_tokens_seen": 118555344,
+      "step": 686
+    },
+    {
+      "epoch": 0.2741806554756195,
+      "loss": 1.1211669445037842,
+      "loss_ce": 0.021313386037945747,
+      "loss_xval": 1.1015625,
+      "num_input_tokens_seen": 118555344,
+      "step": 686
+    },
+    {
+      "epoch": 0.2745803357314149,
+      "grad_norm": 63.9892841046574,
+      "learning_rate": 5e-06,
+      "loss": 0.8567,
+      "num_input_tokens_seen": 118728288,
+      "step": 687
+    },
+    {
+      "epoch": 0.2745803357314149,
+      "loss": 0.9254956245422363,
+      "loss_ce": 0.020466340705752373,
+      "loss_xval": 0.90625,
+      "num_input_tokens_seen": 118728288,
+      "step": 687
+    },
+    {
+      "epoch": 0.2749800159872102,
+      "grad_norm": 56.42397672481398,
+      "learning_rate": 5e-06,
+      "loss": 0.9393,
+      "num_input_tokens_seen": 118900712,
+      "step": 688
+    },
+    {
+      "epoch": 0.2749800159872102,
+      "loss": 0.8299415111541748,
+      "loss_ce": 0.01860113814473152,
+      "loss_xval": 0.8125,
+      "num_input_tokens_seen": 118900712,
+      "step": 688
+    },
+    {
+      "epoch": 0.2753796962430056,
+      "grad_norm": 91.65977622605617,
+      "learning_rate": 5e-06,
+      "loss": 0.8144,
+      "num_input_tokens_seen": 119073720,
+      "step": 689
+    },
+    {
+      "epoch": 0.2753796962430056,
+      "loss": 0.9090508818626404,
+      "loss_ce": 0.016350697726011276,
+      "loss_xval": 0.89453125,
+      "num_input_tokens_seen": 119073720,
+      "step": 689
+    },
+    {
+      "epoch": 0.27577937649880097,
+      "grad_norm": 39.025883096673645,
+      "learning_rate": 5e-06,
+      "loss": 0.6471,
+      "num_input_tokens_seen": 119246792,
+      "step": 690
+    },
+    {
+      "epoch": 0.27577937649880097,
+      "loss": 0.6969112157821655,
+      "loss_ce": 0.014599241316318512,
+      "loss_xval": 0.68359375,
+      "num_input_tokens_seen": 119246792,
+      "step": 690
+    },
+    {
+      "epoch": 0.2761790567545963,
+      "grad_norm": 36.73841496397389,
+      "learning_rate": 5e-06,
+      "loss": 0.6317,
+      "num_input_tokens_seen": 119419560,
+      "step": 691
+    },
+    {
+      "epoch": 0.2761790567545963,
+      "loss": 0.9147318005561829,
+      "loss_ce": 0.012082915753126144,
+      "loss_xval": 0.90234375,
+      "num_input_tokens_seen": 119419560,
+      "step": 691
+    },
+    {
+      "epoch": 0.2765787370103917,
+      "grad_norm": 168.6230690419483,
+      "learning_rate": 5e-06,
+      "loss": 0.7357,
+      "num_input_tokens_seen": 119592824,
+      "step": 692
+    },
+    {
+      "epoch": 0.2765787370103917,
+      "loss": 0.6877519488334656,
+      "loss_ce": 0.014412128366529942,
+      "loss_xval": 0.671875,
+      "num_input_tokens_seen": 119592824,
+      "step": 692
+    },
+    {
+      "epoch": 0.27697841726618705,
+      "grad_norm": 52.75849147183071,
+      "learning_rate": 5e-06,
+      "loss": 0.7668,
+      "num_input_tokens_seen": 119762056,
+      "step": 693
+    },
+    {
+      "epoch": 0.27697841726618705,
+      "loss": 0.33476799726486206,
+      "loss_ce": 0.009755777195096016,
+      "loss_xval": 0.32421875,
+      "num_input_tokens_seen": 119762056,
+      "step": 693
+    },
+    {
+      "epoch": 0.2773780975219824,
+      "grad_norm": 131.1361500389134,
+      "learning_rate": 5e-06,
+      "loss": 0.9371,
+      "num_input_tokens_seen": 119935104,
+      "step": 694
+    },
+    {
+      "epoch": 0.2773780975219824,
+      "loss": 1.146599531173706,
+      "loss_ce": 0.009636607021093369,
+      "loss_xval": 1.140625,
+      "num_input_tokens_seen": 119935104,
+      "step": 694
+    },
+    {
+      "epoch": 0.2777777777777778,
+      "grad_norm": 47.6259432845342,
+      "learning_rate": 5e-06,
+      "loss": 1.0213,
+      "num_input_tokens_seen": 120107776,
+      "step": 695
+    },
+    {
+      "epoch": 0.2777777777777778,
+      "loss": 0.7354253530502319,
+      "loss_ce": 0.011792542412877083,
+      "loss_xval": 0.72265625,
+      "num_input_tokens_seen": 120107776,
+      "step": 695
+    },
+    {
+      "epoch": 0.27817745803357313,
+      "grad_norm": 291.1641874227151,
+      "learning_rate": 5e-06,
+      "loss": 0.7937,
+      "num_input_tokens_seen": 120280744,
+      "step": 696
+    },
+    {
+      "epoch": 0.27817745803357313,
+      "loss": 0.6080259084701538,
+      "loss_ce": 0.01232281606644392,
+      "loss_xval": 0.59375,
+      "num_input_tokens_seen": 120280744,
+      "step": 696
+    },
+    {
+      "epoch": 0.27857713828936853,
+      "grad_norm": 129.99843252720103,
+      "learning_rate": 5e-06,
+      "loss": 0.8997,
+      "num_input_tokens_seen": 120453824,
+      "step": 697
+    },
+    {
+      "epoch": 0.27857713828936853,
+      "loss": 0.6489090919494629,
+      "loss_ce": 0.008528226986527443,
+      "loss_xval": 0.640625,
+      "num_input_tokens_seen": 120453824,
+      "step": 697
+    },
+    {
+      "epoch": 0.2789768185451639,
+      "grad_norm": 136.31513410825676,
+      "learning_rate": 5e-06,
+      "loss": 0.5905,
+      "num_input_tokens_seen": 120626520,
+      "step": 698
+    },
+    {
+      "epoch": 0.2789768185451639,
+      "loss": 0.7713261842727661,
+      "loss_ce": 0.007776360027492046,
+      "loss_xval": 0.76171875,
+      "num_input_tokens_seen": 120626520,
+      "step": 698
+    },
+    {
+      "epoch": 0.2793764988009592,
+      "grad_norm": 55.383571736824486,
+      "learning_rate": 5e-06,
+      "loss": 0.9588,
+      "num_input_tokens_seen": 120799808,
+      "step": 699
+    },
+    {
+      "epoch": 0.2793764988009592,
+      "loss": 1.009063482284546,
+      "loss_ce": 0.011138629168272018,
+      "loss_xval": 0.99609375,
+      "num_input_tokens_seen": 120799808,
+      "step": 699
+    },
+    {
+      "epoch": 0.2797761790567546,
+      "grad_norm": 195.29831466108058,
+      "learning_rate": 5e-06,
+      "loss": 1.1378,
+      "num_input_tokens_seen": 120972440,
+      "step": 700
+    },
+    {
+      "epoch": 0.2797761790567546,
+      "loss": 1.147801399230957,
+      "loss_ce": 0.013279901817440987,
+      "loss_xval": 1.1328125,
+      "num_input_tokens_seen": 120972440,
+      "step": 700
+    },
+    {
+      "epoch": 0.28017585931254996,
+      "grad_norm": 117.78468354041925,
+      "learning_rate": 5e-06,
+      "loss": 0.6818,
+      "num_input_tokens_seen": 121145656,
+      "step": 701
+    },
+    {
+      "epoch": 0.28017585931254996,
+      "loss": 0.387192964553833,
+      "loss_ce": 0.012437107972800732,
+      "loss_xval": 0.375,
+      "num_input_tokens_seen": 121145656,
+      "step": 701
+    },
+    {
+      "epoch": 0.2805755395683453,
+      "grad_norm": 349.182381437043,
+      "learning_rate": 5e-06,
+      "loss": 0.9223,
+      "num_input_tokens_seen": 121318464,
+      "step": 702
+    },
+    {
+      "epoch": 0.2805755395683453,
+      "loss": 0.9129467606544495,
+      "loss_ce": 0.01377684623003006,
+      "loss_xval": 0.8984375,
+      "num_input_tokens_seen": 121318464,
+      "step": 702
+    },
+    {
+      "epoch": 0.2809752198241407,
+      "grad_norm": 78.93412862466627,
+      "learning_rate": 5e-06,
+      "loss": 1.0278,
+      "num_input_tokens_seen": 121491328,
+      "step": 703
+    },
+    {
+      "epoch": 0.2809752198241407,
+      "loss": 0.9784796237945557,
+      "loss_ce": 0.014093691483139992,
+      "loss_xval": 0.96484375,
+      "num_input_tokens_seen": 121491328,
+      "step": 703
+    },
+    {
+      "epoch": 0.28137490007993604,
+      "grad_norm": 153.8104816648774,
+      "learning_rate": 5e-06,
+      "loss": 0.713,
+      "num_input_tokens_seen": 121664304,
+      "step": 704
+    },
+    {
+      "epoch": 0.28137490007993604,
+      "loss": 0.562119722366333,
+      "loss_ce": 0.02134818211197853,
+      "loss_xval": 0.5390625,
+      "num_input_tokens_seen": 121664304,
+      "step": 704
+    },
+    {
+      "epoch": 0.28177458033573144,
+      "grad_norm": 62.97326893902962,
+      "learning_rate": 5e-06,
+      "loss": 0.6645,
+      "num_input_tokens_seen": 121837640,
+      "step": 705
+    },
+    {
+      "epoch": 0.28177458033573144,
+      "loss": 0.5091035962104797,
+      "loss_ce": 0.014718795195221901,
+      "loss_xval": 0.494140625,
+      "num_input_tokens_seen": 121837640,
+      "step": 705
+    },
+    {
+      "epoch": 0.2821742605915268,
+      "grad_norm": 124.77914466366667,
+      "learning_rate": 5e-06,
+      "loss": 0.5219,
+      "num_input_tokens_seen": 122010648,
+      "step": 706
+    },
+    {
+      "epoch": 0.2821742605915268,
+      "loss": 0.6143680810928345,
+      "loss_ce": 0.02232704497873783,
+      "loss_xval": 0.59375,
+      "num_input_tokens_seen": 122010648,
+      "step": 706
+    },
+    {
+      "epoch": 0.2825739408473221,
+      "grad_norm": 61.81361725933705,
+      "learning_rate": 5e-06,
+      "loss": 0.7228,
+      "num_input_tokens_seen": 122183368,
+      "step": 707
+    },
+    {
+      "epoch": 0.2825739408473221,
+      "loss": 0.7822574973106384,
+      "loss_ce": 0.023407384753227234,
+      "loss_xval": 0.7578125,
+      "num_input_tokens_seen": 122183368,
+      "step": 707
+    },
+    {
+      "epoch": 0.2829736211031175,
+      "grad_norm": 49.1614349431222,
+      "learning_rate": 5e-06,
+      "loss": 0.9115,
+      "num_input_tokens_seen": 122356296,
+      "step": 708
+    },
+    {
+      "epoch": 0.2829736211031175,
+      "loss": 0.7862190008163452,
+      "loss_ce": 0.019556399434804916,
+      "loss_xval": 0.765625,
+      "num_input_tokens_seen": 122356296,
+      "step": 708
+    },
+    {
+      "epoch": 0.28337330135891287,
+      "grad_norm": 127.70627885796577,
+      "learning_rate": 5e-06,
+      "loss": 0.785,
+      "num_input_tokens_seen": 122529488,
+      "step": 709
+    },
+    {
+      "epoch": 0.28337330135891287,
+      "loss": 1.0741759538650513,
+      "loss_ce": 0.03291618824005127,
+      "loss_xval": 1.0390625,
+      "num_input_tokens_seen": 122529488,
+      "step": 709
+    },
+    {
+      "epoch": 0.2837729816147082,
+      "grad_norm": 31.053281397497233,
+      "learning_rate": 5e-06,
+      "loss": 0.8754,
+      "num_input_tokens_seen": 122702752,
+      "step": 710
+    },
+    {
+      "epoch": 0.2837729816147082,
+      "loss": 0.7221265435218811,
+      "loss_ce": 0.019550863653421402,
+      "loss_xval": 0.703125,
+      "num_input_tokens_seen": 122702752,
+      "step": 710
+    },
+    {
+      "epoch": 0.2841726618705036,
+      "grad_norm": 212.21575411655493,
+      "learning_rate": 5e-06,
+      "loss": 0.8754,
+      "num_input_tokens_seen": 122875696,
+      "step": 711
+    },
+    {
+      "epoch": 0.2841726618705036,
+      "loss": 0.996657133102417,
+      "loss_ce": 0.02216985821723938,
+      "loss_xval": 0.97265625,
+      "num_input_tokens_seen": 122875696,
+      "step": 711
+    },
+    {
+      "epoch": 0.28457234212629895,
+      "grad_norm": 40.100860368736996,
+      "learning_rate": 5e-06,
+      "loss": 0.7592,
+      "num_input_tokens_seen": 123048768,
+      "step": 712
+    },
+    {
+      "epoch": 0.28457234212629895,
+      "loss": 0.8356152772903442,
+      "loss_ce": 0.01981930062174797,
+      "loss_xval": 0.81640625,
+      "num_input_tokens_seen": 123048768,
+      "step": 712
+    },
+    {
+      "epoch": 0.28497202238209435,
+      "grad_norm": 214.2157109789503,
+      "learning_rate": 5e-06,
+      "loss": 0.732,
+      "num_input_tokens_seen": 123221664,
+      "step": 713
+    },
+    {
+      "epoch": 0.28497202238209435,
+      "loss": 0.5940902829170227,
+      "loss_ce": 0.019993610680103302,
+      "loss_xval": 0.57421875,
+      "num_input_tokens_seen": 123221664,
+      "step": 713
+    },
+    {
+      "epoch": 0.2853717026378897,
+      "grad_norm": 40.609562804706826,
+      "learning_rate": 5e-06,
+      "loss": 1.1444,
+      "num_input_tokens_seen": 123394488,
+      "step": 714
+    },
+    {
+      "epoch": 0.2853717026378897,
+      "loss": 0.7391673922538757,
+      "loss_ce": 0.028840193524956703,
+      "loss_xval": 0.7109375,
+      "num_input_tokens_seen": 123394488,
+      "step": 714
+    },
+    {
+      "epoch": 0.28577138289368503,
+      "grad_norm": 178.02080973482205,
+      "learning_rate": 5e-06,
+      "loss": 0.9773,
+      "num_input_tokens_seen": 123567376,
+      "step": 715
+    },
+    {
+      "epoch": 0.28577138289368503,
+      "loss": 0.922229528427124,
+      "loss_ce": 0.018909169360995293,
+      "loss_xval": 0.90234375,
+      "num_input_tokens_seen": 123567376,
+      "step": 715
+    },
+    {
+      "epoch": 0.28617106314948043,
+      "grad_norm": 123.04011045066329,
+      "learning_rate": 5e-06,
+      "loss": 1.068,
+      "num_input_tokens_seen": 123740088,
+      "step": 716
+    },
+    {
+      "epoch": 0.28617106314948043,
+      "loss": 1.4456578493118286,
+      "loss_ce": 0.016336563974618912,
+      "loss_xval": 1.4296875,
+      "num_input_tokens_seen": 123740088,
+      "step": 716
+    },
+    {
+      "epoch": 0.2865707434052758,
+      "grad_norm": 260.6443722826441,
+      "learning_rate": 5e-06,
+      "loss": 0.8816,
+      "num_input_tokens_seen": 123913104,
+      "step": 717
+    },
+    {
+      "epoch": 0.2865707434052758,
+      "loss": 0.5610959529876709,
+      "loss_ce": 0.0250852033495903,
+      "loss_xval": 0.53515625,
+      "num_input_tokens_seen": 123913104,
+      "step": 717
+    },
+    {
+      "epoch": 0.2869704236610711,
+      "grad_norm": 54.92546204084786,
+      "learning_rate": 5e-06,
+      "loss": 0.8094,
+      "num_input_tokens_seen": 124085896,
+      "step": 718
+    },
+    {
+      "epoch": 0.2869704236610711,
+      "loss": 0.9141414761543274,
+      "loss_ce": 0.017046771943569183,
+      "loss_xval": 0.8984375,
+      "num_input_tokens_seen": 124085896,
+      "step": 718
+    },
+    {
+      "epoch": 0.2873701039168665,
+      "grad_norm": 201.82756469697114,
+      "learning_rate": 5e-06,
+      "loss": 0.99,
+      "num_input_tokens_seen": 124259080,
+      "step": 719
+    },
+    {
+      "epoch": 0.2873701039168665,
+      "loss": 1.0651757717132568,
+      "loss_ce": 0.01634761318564415,
+      "loss_xval": 1.046875,
+      "num_input_tokens_seen": 124259080,
+      "step": 719
+    },
+    {
+      "epoch": 0.28776978417266186,
+      "grad_norm": 102.45815081080835,
+      "learning_rate": 5e-06,
+      "loss": 0.8853,
+      "num_input_tokens_seen": 124431976,
+      "step": 720
+    },
+    {
+      "epoch": 0.28776978417266186,
+      "loss": 1.0132455825805664,
+      "loss_ce": 0.016541466116905212,
+      "loss_xval": 0.99609375,
+      "num_input_tokens_seen": 124431976,
+      "step": 720
+    },
+    {
+      "epoch": 0.28816946442845726,
+      "grad_norm": 160.91023116493113,
+      "learning_rate": 5e-06,
+      "loss": 0.5593,
+      "num_input_tokens_seen": 124604832,
+      "step": 721
+    },
+    {
+      "epoch": 0.28816946442845726,
+      "loss": 0.4822537302970886,
+      "loss_ce": 0.01203891821205616,
+      "loss_xval": 0.470703125,
+      "num_input_tokens_seen": 124604832,
+      "step": 721
+    },
+    {
+      "epoch": 0.2885691446842526,
+      "grad_norm": 72.91741185752112,
+      "learning_rate": 5e-06,
+      "loss": 0.8368,
+      "num_input_tokens_seen": 124778048,
+      "step": 722
+    },
+    {
+      "epoch": 0.2885691446842526,
+      "loss": 1.0014230012893677,
+      "loss_ce": 0.017902549356222153,
+      "loss_xval": 0.984375,
+      "num_input_tokens_seen": 124778048,
+      "step": 722
+    },
+    {
+      "epoch": 0.28896882494004794,
+      "grad_norm": 146.8668026594306,
+      "learning_rate": 5e-06,
+      "loss": 0.8567,
+      "num_input_tokens_seen": 124951344,
+      "step": 723
+    },
+    {
+      "epoch": 0.28896882494004794,
+      "loss": 0.8188395500183105,
+      "loss_ce": 0.015738962218165398,
+      "loss_xval": 0.8046875,
+      "num_input_tokens_seen": 124951344,
+      "step": 723
+    },
+    {
+      "epoch": 0.28936850519584334,
+      "grad_norm": 42.10566547583542,
+      "learning_rate": 5e-06,
+      "loss": 0.5991,
+      "num_input_tokens_seen": 125124264,
+      "step": 724
+    },
+    {
+      "epoch": 0.28936850519584334,
+      "loss": 0.6889089345932007,
+      "loss_ce": 0.01135767251253128,
+      "loss_xval": 0.67578125,
+      "num_input_tokens_seen": 125124264,
+      "step": 724
+    },
+    {
+      "epoch": 0.2897681854516387,
+      "grad_norm": 123.25802216263138,
+      "learning_rate": 5e-06,
+      "loss": 0.7095,
+      "num_input_tokens_seen": 125297072,
+      "step": 725
+    },
+    {
+      "epoch": 0.2897681854516387,
+      "loss": 0.25660455226898193,
+      "loss_ce": 0.010632868856191635,
+      "loss_xval": 0.24609375,
+      "num_input_tokens_seen": 125297072,
+      "step": 725
+    },
+    {
+      "epoch": 0.290167865707434,
+      "grad_norm": 68.66541377559568,
+      "learning_rate": 5e-06,
+      "loss": 1.1072,
+      "num_input_tokens_seen": 125469880,
+      "step": 726
+    },
+    {
+      "epoch": 0.290167865707434,
+      "loss": 1.066777229309082,
+      "loss_ce": 0.011845514178276062,
+      "loss_xval": 1.0546875,
+      "num_input_tokens_seen": 125469880,
+      "step": 726
+    },
+    {
+      "epoch": 0.2905675459632294,
+      "grad_norm": 118.39291047454554,
+      "learning_rate": 5e-06,
+      "loss": 1.0021,
+      "num_input_tokens_seen": 125642760,
+      "step": 727
+    },
+    {
+      "epoch": 0.2905675459632294,
+      "loss": 1.0062450170516968,
+      "loss_ce": 0.020649326965212822,
+      "loss_xval": 0.984375,
+      "num_input_tokens_seen": 125642760,
+      "step": 727
+    },
+    {
+      "epoch": 0.29096722621902477,
+      "grad_norm": 133.06920888386995,
+      "learning_rate": 5e-06,
+      "loss": 1.0436,
+      "num_input_tokens_seen": 125815440,
+      "step": 728
+    },
+    {
+      "epoch": 0.29096722621902477,
+      "loss": 1.2720887660980225,
+      "loss_ce": 0.014886559918522835,
+      "loss_xval": 1.2578125,
+      "num_input_tokens_seen": 125815440,
+      "step": 728
+    },
+    {
+      "epoch": 0.29136690647482016,
+      "grad_norm": 41.10436043549906,
+      "learning_rate": 5e-06,
+      "loss": 0.9073,
+      "num_input_tokens_seen": 125988424,
+      "step": 729
+    },
+    {
+      "epoch": 0.29136690647482016,
+      "loss": 1.0338069200515747,
+      "loss_ce": 0.01378735899925232,
+      "loss_xval": 1.0234375,
+      "num_input_tokens_seen": 125988424,
+      "step": 729
+    },
+    {
+      "epoch": 0.2917665867306155,
+      "grad_norm": 171.41761601925776,
+      "learning_rate": 5e-06,
+      "loss": 1.1713,
+      "num_input_tokens_seen": 126161680,
+      "step": 730
+    },
+    {
+      "epoch": 0.2917665867306155,
+      "loss": 1.4746264219284058,
+      "loss_ce": 0.011247565969824791,
+      "loss_xval": 1.4609375,
+      "num_input_tokens_seen": 126161680,
+      "step": 730
+    },
+    {
+      "epoch": 0.29216626698641085,
+      "grad_norm": 30.728524368886863,
+      "learning_rate": 5e-06,
+      "loss": 0.9324,
+      "num_input_tokens_seen": 126334240,
+      "step": 731
+    },
+    {
+      "epoch": 0.29216626698641085,
+      "loss": 1.2535715103149414,
+      "loss_ce": 0.01419171690940857,
+      "loss_xval": 1.2421875,
+      "num_input_tokens_seen": 126334240,
+      "step": 731
+    },
+    {
+      "epoch": 0.29256594724220625,
+      "grad_norm": 154.08953622194392,
+      "learning_rate": 5e-06,
+      "loss": 0.6463,
+      "num_input_tokens_seen": 126506840,
+      "step": 732
+    },
+    {
+      "epoch": 0.29256594724220625,
+      "loss": 0.7345225811004639,
+      "loss_ce": 0.013819379732012749,
+      "loss_xval": 0.71875,
+      "num_input_tokens_seen": 126506840,
+      "step": 732
+    },
+    {
+      "epoch": 0.2929656274980016,
+      "grad_norm": 67.98532313091332,
+      "learning_rate": 5e-06,
+      "loss": 0.5375,
+      "num_input_tokens_seen": 126679928,
+      "step": 733
+    },
+    {
+      "epoch": 0.2929656274980016,
+      "loss": 0.6890181303024292,
+      "loss_ce": 0.013786174356937408,
+      "loss_xval": 0.67578125,
+      "num_input_tokens_seen": 126679928,
+      "step": 733
+    },
+    {
+      "epoch": 0.293365307753797,
+      "grad_norm": 169.58988174707864,
+      "learning_rate": 5e-06,
+      "loss": 0.8897,
+      "num_input_tokens_seen": 126852704,
+      "step": 734
+    },
+    {
+      "epoch": 0.293365307753797,
+      "loss": 0.8869085311889648,
+      "loss_ce": 0.011359157972037792,
+      "loss_xval": 0.875,
+      "num_input_tokens_seen": 126852704,
+      "step": 734
+    },
+    {
+      "epoch": 0.29376498800959233,
+      "grad_norm": 188.55727116539376,
+      "learning_rate": 5e-06,
+      "loss": 0.655,
+      "num_input_tokens_seen": 127025936,
+      "step": 735
+    },
+    {
+      "epoch": 0.29376498800959233,
+      "loss": 0.6508488655090332,
+      "loss_ce": 0.009491443634033203,
+      "loss_xval": 0.640625,
+      "num_input_tokens_seen": 127025936,
+      "step": 735
+    },
+    {
+      "epoch": 0.2941646682653877,
+      "grad_norm": 57.679259705456175,
+      "learning_rate": 5e-06,
+      "loss": 1.2767,
+      "num_input_tokens_seen": 127198680,
+      "step": 736
+    },
+    {
+      "epoch": 0.2941646682653877,
+      "loss": 1.423262596130371,
+      "loss_ce": 0.00944419577717781,
+      "loss_xval": 1.4140625,
+      "num_input_tokens_seen": 127198680,
+      "step": 736
+    },
+    {
+      "epoch": 0.2945643485211831,
+      "grad_norm": 145.57825597022912,
+      "learning_rate": 5e-06,
+      "loss": 0.8213,
+      "num_input_tokens_seen": 127371416,
+      "step": 737
+    },
+    {
+      "epoch": 0.2945643485211831,
+      "loss": 1.0838699340820312,
+      "loss_ce": 0.01673116721212864,
+      "loss_xval": 1.0703125,
+      "num_input_tokens_seen": 127371416,
+      "step": 737
+    },
+    {
+      "epoch": 0.2949640287769784,
+      "grad_norm": 49.478090664102595,
+      "learning_rate": 5e-06,
+      "loss": 0.893,
+      "num_input_tokens_seen": 127544496,
+      "step": 738
+    },
+    {
+      "epoch": 0.2949640287769784,
+      "loss": 1.1251657009124756,
+      "loss_ce": 0.012983132153749466,
+      "loss_xval": 1.109375,
+      "num_input_tokens_seen": 127544496,
+      "step": 738
+    },
+    {
+      "epoch": 0.29536370903277376,
+      "grad_norm": 152.29658505097626,
+      "learning_rate": 5e-06,
+      "loss": 0.6981,
+      "num_input_tokens_seen": 127713600,
+      "step": 739
+    },
+    {
+      "epoch": 0.29536370903277376,
+      "loss": 0.8325961828231812,
+      "loss_ce": 0.02095065638422966,
+      "loss_xval": 0.8125,
+      "num_input_tokens_seen": 127713600,
+      "step": 739
+    },
+    {
+      "epoch": 0.29576338928856916,
+      "grad_norm": 104.36305781820683,
+      "learning_rate": 5e-06,
+      "loss": 0.9132,
+      "num_input_tokens_seen": 127886552,
+      "step": 740
+    },
+    {
+      "epoch": 0.29576338928856916,
+      "loss": 0.8980221152305603,
+      "loss_ce": 0.019421041011810303,
+      "loss_xval": 0.87890625,
+      "num_input_tokens_seen": 127886552,
+      "step": 740
+    },
+    {
+      "epoch": 0.2961630695443645,
+      "grad_norm": 358.56742391146184,
+      "learning_rate": 5e-06,
+      "loss": 1.2376,
+      "num_input_tokens_seen": 128059336,
+      "step": 741
+    },
+    {
+      "epoch": 0.2961630695443645,
+      "loss": 1.2877583503723145,
+      "loss_ce": 0.014748061075806618,
+      "loss_xval": 1.2734375,
+      "num_input_tokens_seen": 128059336,
+      "step": 741
+    },
+    {
+      "epoch": 0.2965627498001599,
+      "grad_norm": 38.999705304706644,
+      "learning_rate": 5e-06,
+      "loss": 0.7955,
+      "num_input_tokens_seen": 128232384,
+      "step": 742
+    },
+    {
+      "epoch": 0.2965627498001599,
+      "loss": 0.7341563701629639,
+      "loss_ce": 0.022913720458745956,
+      "loss_xval": 0.7109375,
+      "num_input_tokens_seen": 128232384,
+      "step": 742
+    },
+    {
+      "epoch": 0.29696243005595524,
+      "grad_norm": 58.58273127409154,
+      "learning_rate": 5e-06,
+      "loss": 0.6488,
+      "num_input_tokens_seen": 128405632,
+      "step": 743
+    },
+    {
+      "epoch": 0.29696243005595524,
+      "loss": 0.8151225447654724,
+      "loss_ce": 0.016538549214601517,
+      "loss_xval": 0.796875,
+      "num_input_tokens_seen": 128405632,
+      "step": 743
+    },
+    {
+      "epoch": 0.2973621103117506,
+      "grad_norm": 34.3307729926042,
+      "learning_rate": 5e-06,
+      "loss": 0.8303,
+      "num_input_tokens_seen": 128578240,
+      "step": 744
+    },
+    {
+      "epoch": 0.2973621103117506,
+      "loss": 0.7622973322868347,
+      "loss_ce": 0.012358361855149269,
+      "loss_xval": 0.75,
+      "num_input_tokens_seen": 128578240,
+      "step": 744
+    },
+    {
+      "epoch": 0.297761790567546,
+      "grad_norm": 80.36115843481713,
+      "learning_rate": 5e-06,
+      "loss": 0.7475,
+      "num_input_tokens_seen": 128751168,
+      "step": 745
+    },
+    {
+      "epoch": 0.297761790567546,
+      "loss": 0.5837757587432861,
+      "loss_ce": 0.01822400838136673,
+      "loss_xval": 0.56640625,
+      "num_input_tokens_seen": 128751168,
+      "step": 745
+    },
+    {
+      "epoch": 0.2981614708233413,
+      "grad_norm": 92.27821846652243,
+      "learning_rate": 5e-06,
+      "loss": 1.0467,
+      "num_input_tokens_seen": 128923664,
+      "step": 746
+    },
+    {
+      "epoch": 0.2981614708233413,
+      "loss": 0.9637579917907715,
+      "loss_ce": 0.014783459715545177,
+      "loss_xval": 0.94921875,
+      "num_input_tokens_seen": 128923664,
+      "step": 746
+    },
+    {
+      "epoch": 0.29856115107913667,
+      "grad_norm": 59.953210838770005,
+      "learning_rate": 5e-06,
+      "loss": 1.1645,
+      "num_input_tokens_seen": 129096520,
+      "step": 747
+    },
+    {
+      "epoch": 0.29856115107913667,
+      "loss": 0.559451162815094,
+      "loss_ce": 0.011294430121779442,
+      "loss_xval": 0.546875,
+      "num_input_tokens_seen": 129096520,
+      "step": 747
+    },
+    {
+      "epoch": 0.29896083133493206,
+      "grad_norm": 54.717171712560024,
+      "learning_rate": 5e-06,
+      "loss": 0.6601,
+      "num_input_tokens_seen": 129269376,
+      "step": 748
+    },
+    {
+      "epoch": 0.29896083133493206,
+      "loss": 0.5837520956993103,
+      "loss_ce": 0.01343961339443922,
+      "loss_xval": 0.5703125,
+      "num_input_tokens_seen": 129269376,
+      "step": 748
+    },
+    {
+      "epoch": 0.2993605115907274,
+      "grad_norm": 40.816773316862005,
+      "learning_rate": 5e-06,
+      "loss": 0.6647,
+      "num_input_tokens_seen": 129441928,
+      "step": 749
+    },
+    {
+      "epoch": 0.2993605115907274,
+      "loss": 0.7464295029640198,
+      "loss_ce": 0.020355278626084328,
+      "loss_xval": 0.7265625,
+      "num_input_tokens_seen": 129441928,
+      "step": 749
+    },
+    {
+      "epoch": 0.2997601918465228,
+      "grad_norm": 129.2032035605195,
+      "learning_rate": 5e-06,
+      "loss": 0.694,
+      "num_input_tokens_seen": 129614136,
+      "step": 750
+    },
+    {
+      "epoch": 0.2997601918465228,
+      "eval_websight_new_IoU": 0.32972943782806396,
+      "eval_websight_new_MAE_all": 0.03321713022887707,
+      "eval_websight_new_MAE_h": 0.03598089702427387,
+      "eval_websight_new_MAE_w": 0.05507303401827812,
+      "eval_websight_new_MAE_x": 0.021736985072493553,
+      "eval_websight_new_MAE_y": 0.020077602006495,
+      "eval_websight_new_NUM_probability": 0.9082909226417542,
+      "eval_websight_new_inside_bbox": 0.5902777910232544,
+      "eval_websight_new_loss": 0.3363611698150635,
+      "eval_websight_new_loss_ce": 0.00987301068380475,
+      "eval_websight_new_loss_xval": 0.2787322998046875,
+      "eval_websight_new_runtime": 59.6643,
+      "eval_websight_new_samples_per_second": 0.838,
+      "eval_websight_new_steps_per_second": 0.034,
+      "num_input_tokens_seen": 129614136,
+      "step": 750
+    },
+    {
+      "epoch": 0.2997601918465228,
+      "eval_seeclick_IoU": 0.21530038118362427,
+      "eval_seeclick_MAE_all": 0.0899505689740181,
+      "eval_seeclick_MAE_h": 0.03901367634534836,
+      "eval_seeclick_MAE_w": 0.1384214162826538,
+      "eval_seeclick_MAE_x": 0.11315473914146423,
+      "eval_seeclick_MAE_y": 0.0692124255001545,
+      "eval_seeclick_NUM_probability": 0.8880393803119659,
+      "eval_seeclick_inside_bbox": 0.3229166716337204,
+      "eval_seeclick_loss": 2.2942774295806885,
+      "eval_seeclick_loss_ce": 0.026869087480008602,
+      "eval_seeclick_loss_xval": 2.2388916015625,
+      "eval_seeclick_runtime": 89.7723,
+      "eval_seeclick_samples_per_second": 0.557,
+      "eval_seeclick_steps_per_second": 0.022,
+      "num_input_tokens_seen": 129614136,
+      "step": 750
+    },
+    {
+      "epoch": 0.2997601918465228,
+      "eval_icons_IoU": 0.09595663845539093,
+      "eval_icons_MAE_all": 0.035994925536215305,
+      "eval_icons_MAE_h": 0.0310601107776165,
+      "eval_icons_MAE_w": 0.02391492947936058,
+      "eval_icons_MAE_x": 0.05677058733999729,
+      "eval_icons_MAE_y": 0.03223407082259655,
+      "eval_icons_NUM_probability": 0.9089525938034058,
+      "eval_icons_inside_bbox": 0.2048611119389534,
+      "eval_icons_loss": 0.2528549134731293,
+      "eval_icons_loss_ce": 0.012350890785455704,
+      "eval_icons_loss_xval": 0.222991943359375,
+      "eval_icons_runtime": 82.7604,
+      "eval_icons_samples_per_second": 0.604,
+      "eval_icons_steps_per_second": 0.024,
+      "num_input_tokens_seen": 129614136,
+      "step": 750
+    },
+    {
+      "epoch": 0.2997601918465228,
+      "loss": 0.3234509825706482,
+      "loss_ce": 0.014796189963817596,
+      "loss_xval": 0.30859375,
+      "num_input_tokens_seen": 129614136,
+      "step": 750
+    },
+    {
+      "epoch": 0.30015987210231815,
+      "grad_norm": 50.44016771405421,
+      "learning_rate": 5e-06,
+      "loss": 0.6259,
+      "num_input_tokens_seen": 129786896,
+      "step": 751
+    },
+    {
+      "epoch": 0.30015987210231815,
+      "loss": 0.6966589689254761,
+      "loss_ce": 0.015018315985798836,
+      "loss_xval": 0.6796875,
+      "num_input_tokens_seen": 129786896,
+      "step": 751
+    },
+    {
+      "epoch": 0.3005595523581135,
+      "grad_norm": 188.04641922934573,
+      "learning_rate": 5e-06,
+      "loss": 1.1675,
+      "num_input_tokens_seen": 129959752,
+      "step": 752
+    },
+    {
+      "epoch": 0.3005595523581135,
+      "loss": 1.1777859926223755,
+      "loss_ce": 0.016409026458859444,
+      "loss_xval": 1.1640625,
+      "num_input_tokens_seen": 129959752,
+      "step": 752
+    },
+    {
+      "epoch": 0.3009592326139089,
+      "grad_norm": 64.08122838016891,
+      "learning_rate": 5e-06,
+      "loss": 1.021,
+      "num_input_tokens_seen": 130132688,
+      "step": 753
+    },
+    {
+      "epoch": 0.3009592326139089,
+      "loss": 0.7875679731369019,
+      "loss_ce": 0.011078734882175922,
+      "loss_xval": 0.77734375,
+      "num_input_tokens_seen": 130132688,
+      "step": 753
+    },
+    {
+      "epoch": 0.30135891286970423,
+      "grad_norm": 238.25273070676948,
+      "learning_rate": 5e-06,
+      "loss": 0.9882,
+      "num_input_tokens_seen": 130306096,
+      "step": 754
+    },
+    {
+      "epoch": 0.30135891286970423,
+      "loss": 1.330396056175232,
+      "loss_ce": 0.009595339186489582,
+      "loss_xval": 1.3203125,
+      "num_input_tokens_seen": 130306096,
+      "step": 754
+    },
+    {
+      "epoch": 0.3017585931254996,
+      "grad_norm": 98.65332854764719,
+      "learning_rate": 5e-06,
+      "loss": 0.8745,
+      "num_input_tokens_seen": 130479152,
+      "step": 755
+    },
+    {
+      "epoch": 0.3017585931254996,
+      "loss": 0.6690840125083923,
+      "loss_ce": 0.009049820713698864,
+      "loss_xval": 0.66015625,
+      "num_input_tokens_seen": 130479152,
+      "step": 755
+    },
+    {
+      "epoch": 0.302158273381295,
+      "grad_norm": 279.6737307195592,
+      "learning_rate": 5e-06,
+      "loss": 0.735,
+      "num_input_tokens_seen": 130651792,
+      "step": 756
+    },
+    {
+      "epoch": 0.302158273381295,
+      "loss": 0.8260841965675354,
+      "loss_ce": 0.008701398968696594,
+      "loss_xval": 0.81640625,
+      "num_input_tokens_seen": 130651792,
+      "step": 756
+    },
+    {
+      "epoch": 0.3025579536370903,
+      "grad_norm": 168.73328107773594,
+      "learning_rate": 5e-06,
+      "loss": 0.7155,
+      "num_input_tokens_seen": 130824800,
+      "step": 757
+    },
+    {
+      "epoch": 0.3025579536370903,
+      "loss": 0.9893529415130615,
+      "loss_ce": 0.009982806630432606,
+      "loss_xval": 0.98046875,
+      "num_input_tokens_seen": 130824800,
+      "step": 757
+    },
+    {
+      "epoch": 0.3029576338928857,
+      "grad_norm": 229.3989099063003,
+      "learning_rate": 5e-06,
+      "loss": 0.7724,
+      "num_input_tokens_seen": 130997424,
+      "step": 758
+    },
+    {
+      "epoch": 0.3029576338928857,
+      "loss": 1.1186637878417969,
+      "loss_ce": 0.011974346823990345,
+      "loss_xval": 1.109375,
+      "num_input_tokens_seen": 130997424,
+      "step": 758
+    },
+    {
+      "epoch": 0.30335731414868106,
+      "grad_norm": 138.1632528777344,
+      "learning_rate": 5e-06,
+      "loss": 0.7744,
+      "num_input_tokens_seen": 131170472,
+      "step": 759
+    },
+    {
+      "epoch": 0.30335731414868106,
+      "loss": 0.7636563777923584,
+      "loss_ce": 0.0134122334420681,
+      "loss_xval": 0.75,
+      "num_input_tokens_seen": 131170472,
+      "step": 759
+    },
+    {
+      "epoch": 0.3037569944044764,
+      "grad_norm": 226.06896222225566,
+      "learning_rate": 5e-06,
+      "loss": 0.9072,
+      "num_input_tokens_seen": 131343872,
+      "step": 760
+    },
+    {
+      "epoch": 0.3037569944044764,
+      "loss": 0.6551499962806702,
+      "loss_ce": 0.022825779393315315,
+      "loss_xval": 0.6328125,
+      "num_input_tokens_seen": 131343872,
+      "step": 760
+    },
+    {
+      "epoch": 0.3041566746602718,
+      "grad_norm": 140.47231030423117,
+      "learning_rate": 5e-06,
+      "loss": 0.801,
+      "num_input_tokens_seen": 131516864,
+      "step": 761
+    },
+    {
+      "epoch": 0.3041566746602718,
+      "loss": 0.7796874642372131,
+      "loss_ce": 0.018823187798261642,
+      "loss_xval": 0.76171875,
+      "num_input_tokens_seen": 131516864,
+      "step": 761
+    },
+    {
+      "epoch": 0.30455635491606714,
+      "grad_norm": 191.03867527797138,
+      "learning_rate": 5e-06,
+      "loss": 0.8019,
+      "num_input_tokens_seen": 131686080,
+      "step": 762
+    },
+    {
+      "epoch": 0.30455635491606714,
+      "loss": 0.8312917947769165,
+      "loss_ce": 0.01952417567372322,
+      "loss_xval": 0.8125,
+      "num_input_tokens_seen": 131686080,
+      "step": 762
+    },
+    {
+      "epoch": 0.3049560351718625,
+      "grad_norm": 99.15375963784552,
+      "learning_rate": 5e-06,
+      "loss": 0.9744,
+      "num_input_tokens_seen": 131859384,
+      "step": 763
+    },
+    {
+      "epoch": 0.3049560351718625,
+      "loss": 1.0681936740875244,
+      "loss_ce": 0.016435783356428146,
+      "loss_xval": 1.0546875,
+      "num_input_tokens_seen": 131859384,
+      "step": 763
+    },
+    {
+      "epoch": 0.3053557154276579,
+      "grad_norm": 213.65930477816116,
+      "learning_rate": 5e-06,
+      "loss": 1.204,
+      "num_input_tokens_seen": 132032312,
+      "step": 764
+    },
+    {
+      "epoch": 0.3053557154276579,
+      "loss": 1.4312927722930908,
+      "loss_ce": 0.019061321392655373,
+      "loss_xval": 1.4140625,
+      "num_input_tokens_seen": 132032312,
+      "step": 764
+    },
+    {
+      "epoch": 0.3057553956834532,
+      "grad_norm": 108.68993738295507,
+      "learning_rate": 5e-06,
+      "loss": 0.61,
+      "num_input_tokens_seen": 132205336,
+      "step": 765
+    },
+    {
+      "epoch": 0.3057553956834532,
+      "loss": 0.6518961787223816,
+      "loss_ce": 0.026041686534881592,
+      "loss_xval": 0.625,
+      "num_input_tokens_seen": 132205336,
+      "step": 765
+    },
+    {
+      "epoch": 0.3061550759392486,
+      "grad_norm": 211.70893336363255,
+      "learning_rate": 5e-06,
+      "loss": 0.8624,
+      "num_input_tokens_seen": 132378208,
+      "step": 766
+    },
+    {
+      "epoch": 0.3061550759392486,
+      "loss": 0.7774863243103027,
+      "loss_ce": 0.019185544922947884,
+      "loss_xval": 0.7578125,
+      "num_input_tokens_seen": 132378208,
+      "step": 766
+    },
+    {
+      "epoch": 0.30655475619504396,
+      "grad_norm": 67.90632571223537,
+      "learning_rate": 5e-06,
+      "loss": 0.7338,
+      "num_input_tokens_seen": 132551608,
+      "step": 767
+    },
+    {
+      "epoch": 0.30655475619504396,
+      "loss": 0.9820546507835388,
+      "loss_ce": 0.020140592008829117,
+      "loss_xval": 0.9609375,
+      "num_input_tokens_seen": 132551608,
+      "step": 767
+    },
+    {
+      "epoch": 0.3069544364508393,
+      "grad_norm": 333.3981316273364,
+      "learning_rate": 5e-06,
+      "loss": 0.83,
+      "num_input_tokens_seen": 132724568,
+      "step": 768
+    },
+    {
+      "epoch": 0.3069544364508393,
+      "loss": 0.8645689487457275,
+      "loss_ce": 0.020635826513171196,
+      "loss_xval": 0.84375,
+      "num_input_tokens_seen": 132724568,
+      "step": 768
+    },
+    {
+      "epoch": 0.3073541167066347,
+      "grad_norm": 83.04924236141541,
+      "learning_rate": 5e-06,
+      "loss": 0.6825,
+      "num_input_tokens_seen": 132897376,
+      "step": 769
+    },
+    {
+      "epoch": 0.3073541167066347,
+      "loss": 0.8747704029083252,
+      "loss_ce": 0.036544110625982285,
+      "loss_xval": 0.83984375,
+      "num_input_tokens_seen": 132897376,
+      "step": 769
+    },
+    {
+      "epoch": 0.30775379696243005,
+      "grad_norm": 98.58312316090154,
+      "learning_rate": 5e-06,
+      "loss": 0.933,
+      "num_input_tokens_seen": 133070104,
+      "step": 770
+    },
+    {
+      "epoch": 0.30775379696243005,
+      "loss": 0.47699296474456787,
+      "loss_ce": 0.19757401943206787,
+      "loss_xval": 0.279296875,
+      "num_input_tokens_seen": 133070104,
+      "step": 770
+    },
+    {
+      "epoch": 0.30815347721822545,
+      "grad_norm": 67.93244599542409,
+      "learning_rate": 5e-06,
+      "loss": 1.1321,
+      "num_input_tokens_seen": 133243488,
+      "step": 771
+    },
+    {
+      "epoch": 0.30815347721822545,
+      "loss": 1.0369318723678589,
+      "loss_ce": 0.13879956305027008,
+      "loss_xval": 0.8984375,
+      "num_input_tokens_seen": 133243488,
+      "step": 771
+    },
+    {
+      "epoch": 0.3085531574740208,
+      "grad_norm": 46.27524938342765,
+      "learning_rate": 5e-06,
+      "loss": 0.842,
+      "num_input_tokens_seen": 133412784,
+      "step": 772
+    },
+    {
+      "epoch": 0.3085531574740208,
+      "loss": 0.8269345164299011,
+      "loss_ce": 0.09854095429182053,
+      "loss_xval": 0.7265625,
+      "num_input_tokens_seen": 133412784,
+      "step": 772
+    },
+    {
+      "epoch": 0.30895283772981613,
+      "grad_norm": 50.41952425911126,
+      "learning_rate": 5e-06,
+      "loss": 1.1107,
+      "num_input_tokens_seen": 133585896,
+      "step": 773
+    },
+    {
+      "epoch": 0.30895283772981613,
+      "loss": 1.146827220916748,
+      "loss_ce": 0.07016701996326447,
+      "loss_xval": 1.078125,
+      "num_input_tokens_seen": 133585896,
+      "step": 773
+    },
+    {
+      "epoch": 0.30935251798561153,
+      "grad_norm": 82.74316039825493,
+      "learning_rate": 5e-06,
+      "loss": 0.6717,
+      "num_input_tokens_seen": 133758544,
+      "step": 774
+    },
+    {
+      "epoch": 0.30935251798561153,
+      "loss": 0.5270382165908813,
+      "loss_ce": 0.08367883414030075,
+      "loss_xval": 0.443359375,
+      "num_input_tokens_seen": 133758544,
+      "step": 774
+    },
+    {
+      "epoch": 0.3097521982414069,
+      "grad_norm": 66.82965857737175,
+      "learning_rate": 5e-06,
+      "loss": 0.9872,
+      "num_input_tokens_seen": 133931776,
+      "step": 775
+    },
+    {
+      "epoch": 0.3097521982414069,
+      "loss": 1.059539794921875,
+      "loss_ce": 0.07809457927942276,
+      "loss_xval": 0.98046875,
+      "num_input_tokens_seen": 133931776,
+      "step": 775
+    },
+    {
+      "epoch": 0.3101518784972022,
+      "grad_norm": 61.167284008978314,
+      "learning_rate": 5e-06,
+      "loss": 0.7877,
+      "num_input_tokens_seen": 134104704,
+      "step": 776
+    },
+    {
+      "epoch": 0.3101518784972022,
+      "loss": 0.8881216049194336,
+      "loss_ce": 0.0730580985546112,
+      "loss_xval": 0.81640625,
+      "num_input_tokens_seen": 134104704,
+      "step": 776
+    },
+    {
+      "epoch": 0.3105515587529976,
+      "grad_norm": 84.1144974470978,
+      "learning_rate": 5e-06,
+      "loss": 0.7481,
+      "num_input_tokens_seen": 134277464,
+      "step": 777
+    },
+    {
+      "epoch": 0.3105515587529976,
+      "loss": 0.6984782218933105,
+      "loss_ce": 0.047355152666568756,
+      "loss_xval": 0.65234375,
+      "num_input_tokens_seen": 134277464,
+      "step": 777
+    },
+    {
+      "epoch": 0.31095123900879296,
+      "grad_norm": 115.97957410951801,
+      "learning_rate": 5e-06,
+      "loss": 0.9494,
+      "num_input_tokens_seen": 134450816,
+      "step": 778
+    },
+    {
+      "epoch": 0.31095123900879296,
+      "loss": 1.0162138938903809,
+      "loss_ce": 0.046731531620025635,
+      "loss_xval": 0.96875,
+      "num_input_tokens_seen": 134450816,
+      "step": 778
+    },
+    {
+      "epoch": 0.31135091926458835,
+      "grad_norm": 103.83504655014406,
+      "learning_rate": 5e-06,
+      "loss": 0.5651,
+      "num_input_tokens_seen": 134624024,
+      "step": 779
+    },
+    {
+      "epoch": 0.31135091926458835,
+      "loss": 0.5172841548919678,
+      "loss_ce": 0.02302144654095173,
+      "loss_xval": 0.494140625,
+      "num_input_tokens_seen": 134624024,
+      "step": 779
+    },
+    {
+      "epoch": 0.3117505995203837,
+      "grad_norm": 63.90837696559783,
+      "learning_rate": 5e-06,
+      "loss": 0.7547,
+      "num_input_tokens_seen": 134797272,
+      "step": 780
+    },
+    {
+      "epoch": 0.3117505995203837,
+      "loss": 0.7474457025527954,
+      "loss_ce": 0.026986707001924515,
+      "loss_xval": 0.71875,
+      "num_input_tokens_seen": 134797272,
+      "step": 780
+    },
+    {
+      "epoch": 0.31215027977617904,
+      "grad_norm": 115.9985412220161,
+      "learning_rate": 5e-06,
+      "loss": 0.9481,
+      "num_input_tokens_seen": 134970320,
+      "step": 781
+    },
+    {
+      "epoch": 0.31215027977617904,
+      "loss": 0.7179272174835205,
+      "loss_ce": 0.01968502625823021,
+      "loss_xval": 0.69921875,
+      "num_input_tokens_seen": 134970320,
+      "step": 781
+    },
+    {
+      "epoch": 0.31254996003197444,
+      "grad_norm": 41.252406618208745,
+      "learning_rate": 5e-06,
+      "loss": 0.7365,
+      "num_input_tokens_seen": 135143296,
+      "step": 782
+    },
+    {
+      "epoch": 0.31254996003197444,
+      "loss": 0.676671028137207,
+      "loss_ce": 0.025548022240400314,
+      "loss_xval": 0.65234375,
+      "num_input_tokens_seen": 135143296,
+      "step": 782
+    },
+    {
+      "epoch": 0.3129496402877698,
+      "grad_norm": 102.07811583540216,
+      "learning_rate": 5e-06,
+      "loss": 1.3992,
+      "num_input_tokens_seen": 135316624,
+      "step": 783
+    },
+    {
+      "epoch": 0.3129496402877698,
+      "loss": 1.6752166748046875,
+      "loss_ce": 0.03459162265062332,
+      "loss_xval": 1.640625,
+      "num_input_tokens_seen": 135316624,
+      "step": 783
+    },
+    {
+      "epoch": 0.3133493205435651,
+      "grad_norm": 112.62388613696993,
+      "learning_rate": 5e-06,
+      "loss": 0.8903,
+      "num_input_tokens_seen": 135489416,
+      "step": 784
+    },
+    {
+      "epoch": 0.3133493205435651,
+      "loss": 0.9434410929679871,
+      "loss_ce": 0.029622741043567657,
+      "loss_xval": 0.9140625,
+      "num_input_tokens_seen": 135489416,
+      "step": 784
+    },
+    {
+      "epoch": 0.3137490007993605,
+      "grad_norm": 81.92869001107958,
+      "learning_rate": 5e-06,
+      "loss": 0.5826,
+      "num_input_tokens_seen": 135662392,
+      "step": 785
+    },
+    {
+      "epoch": 0.3137490007993605,
+      "loss": 0.8590636253356934,
+      "loss_ce": 0.032403476536273956,
+      "loss_xval": 0.828125,
+      "num_input_tokens_seen": 135662392,
+      "step": 785
+    },
+    {
+      "epoch": 0.31414868105515587,
+      "grad_norm": 56.93984188783562,
+      "learning_rate": 5e-06,
+      "loss": 0.6952,
+      "num_input_tokens_seen": 135835648,
+      "step": 786
+    },
+    {
+      "epoch": 0.31414868105515587,
+      "loss": 0.7936071157455444,
+      "loss_ce": 0.03201046958565712,
+      "loss_xval": 0.76171875,
+      "num_input_tokens_seen": 135835648,
+      "step": 786
+    },
+    {
+      "epoch": 0.31454836131095126,
+      "grad_norm": 123.08995481669876,
+      "learning_rate": 5e-06,
+      "loss": 1.0795,
+      "num_input_tokens_seen": 136008360,
+      "step": 787
+    },
+    {
+      "epoch": 0.31454836131095126,
+      "loss": 1.2340142726898193,
+      "loss_ce": 0.022832613438367844,
+      "loss_xval": 1.2109375,
+      "num_input_tokens_seen": 136008360,
+      "step": 787
+    },
+    {
+      "epoch": 0.3149480415667466,
+      "grad_norm": 192.62508663565438,
+      "learning_rate": 5e-06,
+      "loss": 0.7918,
+      "num_input_tokens_seen": 136180904,
+      "step": 788
+    },
+    {
+      "epoch": 0.3149480415667466,
+      "loss": 0.6366986036300659,
+      "loss_ce": 0.04831964522600174,
+      "loss_xval": 0.58984375,
+      "num_input_tokens_seen": 136180904,
+      "step": 788
+    },
+    {
+      "epoch": 0.31534772182254195,
+      "grad_norm": 51.10447508784947,
+      "learning_rate": 5e-06,
+      "loss": 0.8927,
+      "num_input_tokens_seen": 136353552,
+      "step": 789
+    },
+    {
+      "epoch": 0.31534772182254195,
+      "loss": 1.050945520401001,
+      "loss_ce": 0.05485168844461441,
+      "loss_xval": 0.99609375,
+      "num_input_tokens_seen": 136353552,
+      "step": 789
+    },
+    {
+      "epoch": 0.31574740207833735,
+      "grad_norm": 154.61700039241353,
+      "learning_rate": 5e-06,
+      "loss": 0.8251,
+      "num_input_tokens_seen": 136526584,
+      "step": 790
+    },
+    {
+      "epoch": 0.31574740207833735,
+      "loss": 0.8927372694015503,
+      "loss_ce": 0.0441044420003891,
+      "loss_xval": 0.84765625,
+      "num_input_tokens_seen": 136526584,
+      "step": 790
+    },
+    {
+      "epoch": 0.3161470823341327,
+      "grad_norm": 42.16296097175742,
+      "learning_rate": 5e-06,
+      "loss": 0.7295,
+      "num_input_tokens_seen": 136699328,
+      "step": 791
+    },
+    {
+      "epoch": 0.3161470823341327,
+      "loss": 0.9556566476821899,
+      "loss_ce": 0.04513419792056084,
+      "loss_xval": 0.91015625,
+      "num_input_tokens_seen": 136699328,
+      "step": 791
+    },
+    {
+      "epoch": 0.31654676258992803,
+      "grad_norm": 138.874910538935,
+      "learning_rate": 5e-06,
+      "loss": 0.6915,
+      "num_input_tokens_seen": 136871856,
+      "step": 792
+    },
+    {
+      "epoch": 0.31654676258992803,
+      "loss": 0.6887627840042114,
+      "loss_ce": 0.03727353364229202,
+      "loss_xval": 0.65234375,
+      "num_input_tokens_seen": 136871856,
+      "step": 792
+    },
+    {
+      "epoch": 0.31694644284572343,
+      "grad_norm": 65.9961884504279,
+      "learning_rate": 5e-06,
+      "loss": 0.6059,
+      "num_input_tokens_seen": 137045064,
+      "step": 793
+    },
+    {
+      "epoch": 0.31694644284572343,
+      "loss": 0.5695608854293823,
+      "loss_ce": 0.041973013430833817,
+      "loss_xval": 0.52734375,
+      "num_input_tokens_seen": 137045064,
+      "step": 793
+    },
+    {
+      "epoch": 0.3173461231015188,
+      "grad_norm": 129.30759832098593,
+      "learning_rate": 5e-06,
+      "loss": 0.8537,
+      "num_input_tokens_seen": 137218184,
+      "step": 794
+    },
+    {
+      "epoch": 0.3173461231015188,
+      "loss": 0.6901719570159912,
+      "loss_ce": 0.03502054512500763,
+      "loss_xval": 0.65625,
+      "num_input_tokens_seen": 137218184,
+      "step": 794
+    },
+    {
+      "epoch": 0.31774580335731417,
+      "grad_norm": 86.71836721194123,
+      "learning_rate": 5e-06,
+      "loss": 0.7562,
+      "num_input_tokens_seen": 137391216,
+      "step": 795
+    },
+    {
+      "epoch": 0.31774580335731417,
+      "loss": 0.7299758195877075,
+      "loss_ce": 0.03719630092382431,
+      "loss_xval": 0.69140625,
+      "num_input_tokens_seen": 137391216,
+      "step": 795
+    },
+    {
+      "epoch": 0.3181454836131095,
+      "grad_norm": 57.12461147367074,
+      "learning_rate": 5e-06,
+      "loss": 0.7832,
+      "num_input_tokens_seen": 137564144,
+      "step": 796
+    },
+    {
+      "epoch": 0.3181454836131095,
+      "loss": 0.5537126064300537,
+      "loss_ce": 0.03189250826835632,
+      "loss_xval": 0.5234375,
+      "num_input_tokens_seen": 137564144,
+      "step": 796
+    },
+    {
+      "epoch": 0.31854516386890486,
+      "grad_norm": 65.79780600817213,
+      "learning_rate": 5e-06,
+      "loss": 0.7925,
+      "num_input_tokens_seen": 137737192,
+      "step": 797
+    },
+    {
+      "epoch": 0.31854516386890486,
+      "loss": 0.9935466051101685,
+      "loss_ce": 0.029099617153406143,
+      "loss_xval": 0.96484375,
+      "num_input_tokens_seen": 137737192,
+      "step": 797
+    },
+    {
+      "epoch": 0.31894484412470026,
+      "grad_norm": 105.16048221090652,
+      "learning_rate": 5e-06,
+      "loss": 0.5815,
+      "num_input_tokens_seen": 137910264,
+      "step": 798
+    },
+    {
+      "epoch": 0.31894484412470026,
+      "loss": 0.6643279790878296,
+      "loss_ce": 0.03017270937561989,
+      "loss_xval": 0.6328125,
+      "num_input_tokens_seen": 137910264,
+      "step": 798
+    },
+    {
+      "epoch": 0.3193445243804956,
+      "grad_norm": 72.96586018987574,
+      "learning_rate": 5e-06,
+      "loss": 1.1874,
+      "num_input_tokens_seen": 138083392,
+      "step": 799
+    },
+    {
+      "epoch": 0.3193445243804956,
+      "loss": 1.442209243774414,
+      "loss_ce": 0.024972904473543167,
+      "loss_xval": 1.4140625,
+      "num_input_tokens_seen": 138083392,
+      "step": 799
+    },
+    {
+      "epoch": 0.31974420463629094,
+      "grad_norm": 157.17421656167332,
+      "learning_rate": 5e-06,
+      "loss": 0.9201,
+      "num_input_tokens_seen": 138256112,
+      "step": 800
+    },
+    {
+      "epoch": 0.31974420463629094,
+      "loss": 1.115356206893921,
+      "loss_ce": 0.024047698825597763,
+      "loss_xval": 1.09375,
+      "num_input_tokens_seen": 138256112,
+      "step": 800
+    },
+    {
+      "epoch": 0.32014388489208634,
+      "grad_norm": 110.192018937514,
+      "learning_rate": 5e-06,
+      "loss": 1.0826,
+      "num_input_tokens_seen": 138428960,
+      "step": 801
+    },
+    {
+      "epoch": 0.32014388489208634,
+      "loss": 1.336624264717102,
+      "loss_ce": 0.06312566250562668,
+      "loss_xval": 1.2734375,
+      "num_input_tokens_seen": 138428960,
+      "step": 801
+    },
+    {
+      "epoch": 0.3205435651478817,
+      "grad_norm": 151.99977831225056,
+      "learning_rate": 5e-06,
+      "loss": 0.8894,
+      "num_input_tokens_seen": 138601992,
+      "step": 802
+    },
+    {
+      "epoch": 0.3205435651478817,
+      "loss": 0.6037086844444275,
+      "loss_ce": 0.02289813756942749,
+      "loss_xval": 0.58203125,
+      "num_input_tokens_seen": 138601992,
+      "step": 802
+    },
+    {
+      "epoch": 0.3209432454036771,
+      "grad_norm": 52.06306805397873,
+      "learning_rate": 5e-06,
+      "loss": 0.7899,
+      "num_input_tokens_seen": 138774584,
+      "step": 803
+    },
+    {
+      "epoch": 0.3209432454036771,
+      "loss": 0.744976282119751,
+      "loss_ce": 0.019451454281806946,
+      "loss_xval": 0.7265625,
+      "num_input_tokens_seen": 138774584,
+      "step": 803
+    },
+    {
+      "epoch": 0.3213429256594724,
+      "grad_norm": 39.91507915716981,
+      "learning_rate": 5e-06,
+      "loss": 0.6145,
+      "num_input_tokens_seen": 138947832,
+      "step": 804
+    },
+    {
+      "epoch": 0.3213429256594724,
+      "loss": 0.7825067043304443,
+      "loss_ce": 0.03006529062986374,
+      "loss_xval": 0.75390625,
+      "num_input_tokens_seen": 138947832,
+      "step": 804
+    },
+    {
+      "epoch": 0.32174260591526777,
+      "grad_norm": 75.5906555802562,
+      "learning_rate": 5e-06,
+      "loss": 0.7645,
+      "num_input_tokens_seen": 139120760,
+      "step": 805
+    },
+    {
+      "epoch": 0.32174260591526777,
+      "loss": 0.8884168267250061,
+      "loss_ce": 0.0256849005818367,
+      "loss_xval": 0.86328125,
+      "num_input_tokens_seen": 139120760,
+      "step": 805
+    },
+    {
+      "epoch": 0.32214228617106316,
+      "grad_norm": 146.3475272918251,
+      "learning_rate": 5e-06,
+      "loss": 0.7265,
+      "num_input_tokens_seen": 139293776,
+      "step": 806
+    },
+    {
+      "epoch": 0.32214228617106316,
+      "loss": 0.8622835874557495,
+      "loss_ce": 0.02243983931839466,
+      "loss_xval": 0.83984375,
+      "num_input_tokens_seen": 139293776,
+      "step": 806
+    },
+    {
+      "epoch": 0.3225419664268585,
+      "grad_norm": 149.26645866928035,
+      "learning_rate": 5e-06,
+      "loss": 0.6571,
+      "num_input_tokens_seen": 139466240,
+      "step": 807
+    },
+    {
+      "epoch": 0.3225419664268585,
+      "loss": 0.9698929190635681,
+      "loss_ce": 0.018721019849181175,
+      "loss_xval": 0.953125,
+      "num_input_tokens_seen": 139466240,
+      "step": 807
+    },
+    {
+      "epoch": 0.3229416466826539,
+      "grad_norm": 85.13022329777696,
+      "learning_rate": 5e-06,
+      "loss": 0.7868,
+      "num_input_tokens_seen": 139639432,
+      "step": 808
+    },
+    {
+      "epoch": 0.3229416466826539,
+      "loss": 0.3776288628578186,
+      "loss_ce": 0.029606396332383156,
+      "loss_xval": 0.34765625,
+      "num_input_tokens_seen": 139639432,
+      "step": 808
+    },
+    {
+      "epoch": 0.32334132693844925,
+      "grad_norm": 124.8610805709589,
+      "learning_rate": 5e-06,
+      "loss": 0.51,
+      "num_input_tokens_seen": 139813008,
+      "step": 809
+    },
+    {
+      "epoch": 0.32334132693844925,
+      "loss": 0.42539799213409424,
+      "loss_ce": 0.028364313766360283,
+      "loss_xval": 0.396484375,
+      "num_input_tokens_seen": 139813008,
+      "step": 809
+    },
+    {
+      "epoch": 0.3237410071942446,
+      "grad_norm": 35.664202919806826,
+      "learning_rate": 5e-06,
+      "loss": 0.9645,
+      "num_input_tokens_seen": 139982784,
+      "step": 810
+    },
+    {
+      "epoch": 0.3237410071942446,
+      "loss": 0.6386287212371826,
+      "loss_ce": 0.026446137577295303,
+      "loss_xval": 0.61328125,
+      "num_input_tokens_seen": 139982784,
+      "step": 810
+    },
+    {
+      "epoch": 0.32414068745004,
+      "grad_norm": 63.87833532222325,
+      "learning_rate": 5e-06,
+      "loss": 0.6453,
+      "num_input_tokens_seen": 140156176,
+      "step": 811
+    },
+    {
+      "epoch": 0.32414068745004,
+      "loss": 0.4492732882499695,
+      "loss_ce": 0.025262057781219482,
+      "loss_xval": 0.423828125,
+      "num_input_tokens_seen": 140156176,
+      "step": 811
+    },
+    {
+      "epoch": 0.32454036770583533,
+      "grad_norm": 67.34889598567726,
+      "learning_rate": 5e-06,
+      "loss": 0.8529,
+      "num_input_tokens_seen": 140329472,
+      "step": 812
+    },
+    {
+      "epoch": 0.32454036770583533,
+      "loss": 0.3586152493953705,
+      "loss_ce": 0.028720222413539886,
+      "loss_xval": 0.330078125,
+      "num_input_tokens_seen": 140329472,
+      "step": 812
+    },
+    {
+      "epoch": 0.3249400479616307,
+      "grad_norm": 70.12852323782404,
+      "learning_rate": 5e-06,
+      "loss": 0.5924,
+      "num_input_tokens_seen": 140502504,
+      "step": 813
+    },
+    {
+      "epoch": 0.3249400479616307,
+      "loss": 0.7642978429794312,
+      "loss_ce": 0.025772511959075928,
+      "loss_xval": 0.73828125,
+      "num_input_tokens_seen": 140502504,
+      "step": 813
+    },
+    {
+      "epoch": 0.32533972821742607,
+      "grad_norm": 28.086180346559747,
+      "learning_rate": 5e-06,
+      "loss": 0.4791,
+      "num_input_tokens_seen": 140675400,
+      "step": 814
+    },
+    {
+      "epoch": 0.32533972821742607,
+      "loss": 0.7082566022872925,
+      "loss_ce": 0.015293995849788189,
+      "loss_xval": 0.69140625,
+      "num_input_tokens_seen": 140675400,
+      "step": 814
+    },
+    {
+      "epoch": 0.3257394084732214,
+      "grad_norm": 101.79711405925198,
+      "learning_rate": 5e-06,
+      "loss": 1.158,
+      "num_input_tokens_seen": 140848184,
+      "step": 815
+    },
+    {
+      "epoch": 0.3257394084732214,
+      "loss": 0.7473459839820862,
+      "loss_ce": 0.015107257291674614,
+      "loss_xval": 0.73046875,
+      "num_input_tokens_seen": 140848184,
+      "step": 815
+    },
+    {
+      "epoch": 0.3261390887290168,
+      "grad_norm": 193.45790211450287,
+      "learning_rate": 5e-06,
+      "loss": 0.8277,
+      "num_input_tokens_seen": 141021312,
+      "step": 816
+    },
+    {
+      "epoch": 0.3261390887290168,
+      "loss": 0.8551950454711914,
+      "loss_ce": 0.013276074081659317,
+      "loss_xval": 0.84375,
+      "num_input_tokens_seen": 141021312,
+      "step": 816
+    },
+    {
+      "epoch": 0.32653876898481216,
+      "grad_norm": 123.7203597173954,
+      "learning_rate": 5e-06,
+      "loss": 0.8849,
+      "num_input_tokens_seen": 141194280,
+      "step": 817
+    },
+    {
+      "epoch": 0.32653876898481216,
+      "loss": 0.8089841604232788,
+      "loss_ce": 0.014916693791747093,
+      "loss_xval": 0.79296875,
+      "num_input_tokens_seen": 141194280,
+      "step": 817
+    },
+    {
+      "epoch": 0.3269384492406075,
+      "grad_norm": 123.03492826004478,
+      "learning_rate": 5e-06,
+      "loss": 1.1935,
+      "num_input_tokens_seen": 141367040,
+      "step": 818
+    },
+    {
+      "epoch": 0.3269384492406075,
+      "loss": 1.457615852355957,
+      "loss_ce": 0.01865091174840927,
+      "loss_xval": 1.4375,
+      "num_input_tokens_seen": 141367040,
+      "step": 818
+    },
+    {
+      "epoch": 0.3273381294964029,
+      "grad_norm": 196.81361407257646,
+      "learning_rate": 5e-06,
+      "loss": 0.8593,
+      "num_input_tokens_seen": 141540360,
+      "step": 819
+    },
+    {
+      "epoch": 0.3273381294964029,
+      "loss": 0.7007966041564941,
+      "loss_ce": 0.01708076149225235,
+      "loss_xval": 0.68359375,
+      "num_input_tokens_seen": 141540360,
+      "step": 819
+    },
+    {
+      "epoch": 0.32773780975219824,
+      "grad_norm": 58.596043671656304,
+      "learning_rate": 5e-06,
+      "loss": 0.895,
+      "num_input_tokens_seen": 141713328,
+      "step": 820
+    },
+    {
+      "epoch": 0.32773780975219824,
+      "loss": 0.9711037278175354,
+      "loss_ce": 0.01468280702829361,
+      "loss_xval": 0.95703125,
+      "num_input_tokens_seen": 141713328,
+      "step": 820
+    },
+    {
+      "epoch": 0.3281374900079936,
+      "grad_norm": 191.31795115874968,
+      "learning_rate": 5e-06,
+      "loss": 0.8616,
+      "num_input_tokens_seen": 141886664,
+      "step": 821
+    },
+    {
+      "epoch": 0.3281374900079936,
+      "loss": 0.8032501935958862,
+      "loss_ce": 0.010769794695079327,
+      "loss_xval": 0.79296875,
+      "num_input_tokens_seen": 141886664,
+      "step": 821
+    },
+    {
+      "epoch": 0.328537170263789,
+      "grad_norm": 64.81683384211863,
+      "learning_rate": 5e-06,
+      "loss": 0.5945,
+      "num_input_tokens_seen": 142059672,
+      "step": 822
+    },
+    {
+      "epoch": 0.328537170263789,
+      "loss": 0.43535593152046204,
+      "loss_ce": 0.02971627749502659,
+      "loss_xval": 0.40625,
+      "num_input_tokens_seen": 142059672,
+      "step": 822
+    },
+    {
+      "epoch": 0.3289368505195843,
+      "grad_norm": 184.53548859363346,
+      "learning_rate": 5e-06,
+      "loss": 0.7032,
+      "num_input_tokens_seen": 142232456,
+      "step": 823
+    },
+    {
+      "epoch": 0.3289368505195843,
+      "loss": 0.6750579476356506,
+      "loss_ce": 0.06104426458477974,
+      "loss_xval": 0.61328125,
+      "num_input_tokens_seen": 142232456,
+      "step": 823
+    },
+    {
+      "epoch": 0.3293365307753797,
+      "grad_norm": 118.97174765110988,
+      "learning_rate": 5e-06,
+      "loss": 0.9834,
+      "num_input_tokens_seen": 142405272,
+      "step": 824
+    },
+    {
+      "epoch": 0.3293365307753797,
+      "loss": 1.2425031661987305,
+      "loss_ce": 0.051829393953084946,
+      "loss_xval": 1.1875,
+      "num_input_tokens_seen": 142405272,
+      "step": 824
+    },
+    {
+      "epoch": 0.32973621103117506,
+      "grad_norm": 296.29048064640887,
+      "learning_rate": 5e-06,
+      "loss": 0.9834,
+      "num_input_tokens_seen": 142578256,
+      "step": 825
+    },
+    {
+      "epoch": 0.32973621103117506,
+      "loss": 1.2711055278778076,
+      "loss_ce": 0.02940632961690426,
+      "loss_xval": 1.2421875,
+      "num_input_tokens_seen": 142578256,
+      "step": 825
+    },
+    {
+      "epoch": 0.3301358912869704,
+      "grad_norm": 51.48298081505895,
+      "learning_rate": 5e-06,
+      "loss": 0.762,
+      "num_input_tokens_seen": 142751040,
+      "step": 826
+    },
+    {
+      "epoch": 0.3301358912869704,
+      "loss": 0.8536327481269836,
+      "loss_ce": 0.021448887884616852,
+      "loss_xval": 0.83203125,
+      "num_input_tokens_seen": 142751040,
+      "step": 826
+    },
+    {
+      "epoch": 0.3305355715427658,
+      "grad_norm": 318.4751539614244,
+      "learning_rate": 5e-06,
+      "loss": 1.316,
+      "num_input_tokens_seen": 142924288,
+      "step": 827
+    },
+    {
+      "epoch": 0.3305355715427658,
+      "loss": 0.8164308071136475,
+      "loss_ce": 0.023950327187776566,
+      "loss_xval": 0.79296875,
+      "num_input_tokens_seen": 142924288,
+      "step": 827
+    },
+    {
+      "epoch": 0.33093525179856115,
+      "grad_norm": 54.08071398162099,
+      "learning_rate": 5e-06,
+      "loss": 0.5481,
+      "num_input_tokens_seen": 143096912,
+      "step": 828
+    },
+    {
+      "epoch": 0.33093525179856115,
+      "loss": 0.5444949269294739,
+      "loss_ce": 0.028564732521772385,
+      "loss_xval": 0.515625,
+      "num_input_tokens_seen": 143096912,
+      "step": 828
+    },
+    {
+      "epoch": 0.3313349320543565,
+      "grad_norm": 244.38305682024998,
+      "learning_rate": 5e-06,
+      "loss": 0.8846,
+      "num_input_tokens_seen": 143270104,
+      "step": 829
+    },
+    {
+      "epoch": 0.3313349320543565,
+      "loss": 1.1831023693084717,
+      "loss_ce": 0.05102230980992317,
+      "loss_xval": 1.1328125,
+      "num_input_tokens_seen": 143270104,
+      "step": 829
+    },
+    {
+      "epoch": 0.3317346123101519,
+      "grad_norm": 78.02138265678809,
+      "learning_rate": 5e-06,
+      "loss": 1.0717,
+      "num_input_tokens_seen": 143442832,
+      "step": 830
+    },
+    {
+      "epoch": 0.3317346123101519,
+      "loss": 1.199249267578125,
+      "loss_ce": 0.02102671191096306,
+      "loss_xval": 1.1796875,
+      "num_input_tokens_seen": 143442832,
+      "step": 830
+    },
+    {
+      "epoch": 0.33213429256594723,
+      "grad_norm": 244.2166319233294,
+      "learning_rate": 5e-06,
+      "loss": 0.9575,
+      "num_input_tokens_seen": 143615664,
+      "step": 831
+    },
+    {
+      "epoch": 0.33213429256594723,
+      "loss": 0.8177416324615479,
+      "loss_ce": 0.02526114135980606,
+      "loss_xval": 0.79296875,
+      "num_input_tokens_seen": 143615664,
+      "step": 831
+    },
+    {
+      "epoch": 0.33253397282174263,
+      "grad_norm": 202.87305428352477,
+      "learning_rate": 5e-06,
+      "loss": 1.0996,
+      "num_input_tokens_seen": 143788624,
+      "step": 832
+    },
+    {
+      "epoch": 0.33253397282174263,
+      "loss": 0.7815216183662415,
+      "loss_ce": 0.024685688316822052,
+      "loss_xval": 0.7578125,
+      "num_input_tokens_seen": 143788624,
+      "step": 832
+    },
+    {
+      "epoch": 0.33293365307753797,
+      "grad_norm": 267.1015074921022,
+      "learning_rate": 5e-06,
+      "loss": 0.8148,
+      "num_input_tokens_seen": 143961728,
+      "step": 833
+    },
+    {
+      "epoch": 0.33293365307753797,
+      "loss": 1.0413076877593994,
+      "loss_ce": 0.030077166855335236,
+      "loss_xval": 1.0078125,
+      "num_input_tokens_seen": 143961728,
+      "step": 833
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 249.0188358069812,
+      "learning_rate": 5e-06,
+      "loss": 0.6692,
+      "num_input_tokens_seen": 144134792,
+      "step": 834
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "loss": 0.577985405921936,
+      "loss_ce": 0.025495212525129318,
+      "loss_xval": 0.55078125,
+      "num_input_tokens_seen": 144134792,
+      "step": 834
+    },
+    {
+      "epoch": 0.3337330135891287,
+      "grad_norm": 168.98599906136002,
+      "learning_rate": 5e-06,
+      "loss": 0.7907,
+      "num_input_tokens_seen": 144307776,
+      "step": 835
+    },
+    {
+      "epoch": 0.3337330135891287,
+      "loss": 0.7566037774085999,
+      "loss_ce": 0.03101782500743866,
+      "loss_xval": 0.7265625,
+      "num_input_tokens_seen": 144307776,
+      "step": 835
+    },
+    {
+      "epoch": 0.33413269384492406,
+      "grad_norm": 223.09060693099514,
+      "learning_rate": 5e-06,
+      "loss": 0.8478,
+      "num_input_tokens_seen": 144480840,
+      "step": 836
+    },
+    {
+      "epoch": 0.33413269384492406,
+      "loss": 0.6522843241691589,
+      "loss_ce": 0.03289957344532013,
+      "loss_xval": 0.62109375,
+      "num_input_tokens_seen": 144480840,
+      "step": 836
+    },
+    {
+      "epoch": 0.3345323741007194,
+      "grad_norm": 26.914313057404094,
+      "learning_rate": 5e-06,
+      "loss": 0.3649,
+      "num_input_tokens_seen": 144654280,
+      "step": 837
+    },
+    {
+      "epoch": 0.3345323741007194,
+      "loss": 0.3446645140647888,
+      "loss_ce": 0.02459615468978882,
+      "loss_xval": 0.3203125,
+      "num_input_tokens_seen": 144654280,
+      "step": 837
+    },
+    {
+      "epoch": 0.3349320543565148,
+      "grad_norm": 180.4789733229281,
+      "learning_rate": 5e-06,
+      "loss": 0.9611,
+      "num_input_tokens_seen": 144827136,
+      "step": 838
+    },
+    {
+      "epoch": 0.3349320543565148,
+      "loss": 0.5780286192893982,
+      "loss_ce": 0.02566044218838215,
+      "loss_xval": 0.55078125,
+      "num_input_tokens_seen": 144827136,
+      "step": 838
+    },
+    {
+      "epoch": 0.33533173461231014,
+      "grad_norm": 90.74097333134976,
+      "learning_rate": 5e-06,
+      "loss": 0.6284,
+      "num_input_tokens_seen": 145000568,
+      "step": 839
+    },
+    {
+      "epoch": 0.33533173461231014,
+      "loss": 0.7638094425201416,
+      "loss_ce": 0.0294344425201416,
+      "loss_xval": 0.734375,
+      "num_input_tokens_seen": 145000568,
+      "step": 839
+    },
+    {
+      "epoch": 0.33573141486810554,
+      "grad_norm": 112.5969382238021,
+      "learning_rate": 5e-06,
+      "loss": 0.8517,
+      "num_input_tokens_seen": 145173128,
+      "step": 840
+    },
+    {
+      "epoch": 0.33573141486810554,
+      "loss": 0.4753795266151428,
+      "loss_ce": 0.025672491639852524,
+      "loss_xval": 0.44921875,
+      "num_input_tokens_seen": 145173128,
+      "step": 840
+    },
+    {
+      "epoch": 0.3361310951239009,
+      "grad_norm": 160.69367514258622,
+      "learning_rate": 5e-06,
+      "loss": 0.9031,
+      "num_input_tokens_seen": 145345760,
+      "step": 841
+    },
+    {
+      "epoch": 0.3361310951239009,
+      "loss": 1.1150989532470703,
+      "loss_ce": 0.022447630763053894,
+      "loss_xval": 1.09375,
+      "num_input_tokens_seen": 145345760,
+      "step": 841
+    },
+    {
+      "epoch": 0.3365307753796962,
+      "grad_norm": 83.89344588868427,
+      "learning_rate": 5e-06,
+      "loss": 0.6187,
+      "num_input_tokens_seen": 145518800,
+      "step": 842
+    },
+    {
+      "epoch": 0.3365307753796962,
+      "loss": 0.8424967527389526,
+      "loss_ce": 0.020902525633573532,
+      "loss_xval": 0.8203125,
+      "num_input_tokens_seen": 145518800,
+      "step": 842
+    },
+    {
+      "epoch": 0.3369304556354916,
+      "grad_norm": 128.21717519579028,
+      "learning_rate": 5e-06,
+      "loss": 0.7996,
+      "num_input_tokens_seen": 145691888,
+      "step": 843
+    },
+    {
+      "epoch": 0.3369304556354916,
+      "loss": 0.5368384718894958,
+      "loss_ce": 0.01852792128920555,
+      "loss_xval": 0.51953125,
+      "num_input_tokens_seen": 145691888,
+      "step": 843
+    },
+    {
+      "epoch": 0.33733013589128696,
+      "grad_norm": 27.261036954593337,
+      "learning_rate": 5e-06,
+      "loss": 0.5289,
+      "num_input_tokens_seen": 145865024,
+      "step": 844
+    },
+    {
+      "epoch": 0.33733013589128696,
+      "loss": 0.6117612719535828,
+      "loss_ce": 0.02216166816651821,
+      "loss_xval": 0.58984375,
+      "num_input_tokens_seen": 145865024,
+      "step": 844
+    },
+    {
+      "epoch": 0.3377298161470823,
+      "grad_norm": 148.51182247944908,
+      "learning_rate": 5e-06,
+      "loss": 0.8651,
+      "num_input_tokens_seen": 146037824,
+      "step": 845
+    },
+    {
+      "epoch": 0.3377298161470823,
+      "loss": 0.6133238077163696,
+      "loss_ce": 0.017864754423499107,
+      "loss_xval": 0.59375,
+      "num_input_tokens_seen": 146037824,
+      "step": 845
+    },
+    {
+      "epoch": 0.3381294964028777,
+      "grad_norm": 71.55720025246332,
+      "learning_rate": 5e-06,
+      "loss": 0.5425,
+      "num_input_tokens_seen": 146210432,
+      "step": 846
+    },
+    {
+      "epoch": 0.3381294964028777,
+      "loss": 0.8297093510627747,
+      "loss_ce": 0.014645876362919807,
+      "loss_xval": 0.81640625,
+      "num_input_tokens_seen": 146210432,
+      "step": 846
+    },
+    {
+      "epoch": 0.33852917665867305,
+      "grad_norm": 97.5892415923415,
+      "learning_rate": 5e-06,
+      "loss": 0.6328,
+      "num_input_tokens_seen": 146383528,
+      "step": 847
+    },
+    {
+      "epoch": 0.33852917665867305,
+      "loss": 0.6266300082206726,
+      "loss_ce": 0.0211612731218338,
+      "loss_xval": 0.60546875,
+      "num_input_tokens_seen": 146383528,
+      "step": 847
+    },
+    {
+      "epoch": 0.33892885691446845,
+      "grad_norm": 153.6287910779392,
+      "learning_rate": 5e-06,
+      "loss": 0.6496,
+      "num_input_tokens_seen": 146555992,
+      "step": 848
+    },
+    {
+      "epoch": 0.33892885691446845,
+      "loss": 0.628968358039856,
+      "loss_ce": 0.012330153957009315,
+      "loss_xval": 0.6171875,
+      "num_input_tokens_seen": 146555992,
+      "step": 848
+    },
+    {
+      "epoch": 0.3393285371702638,
+      "grad_norm": 119.93950349993199,
+      "learning_rate": 5e-06,
+      "loss": 0.47,
+      "num_input_tokens_seen": 146728976,
+      "step": 849
+    },
+    {
+      "epoch": 0.3393285371702638,
+      "loss": 0.5641285181045532,
+      "loss_ce": 0.013103111647069454,
+      "loss_xval": 0.55078125,
+      "num_input_tokens_seen": 146728976,
+      "step": 849
+    },
+    {
+      "epoch": 0.33972821742605913,
+      "grad_norm": 151.5642271469956,
+      "learning_rate": 5e-06,
+      "loss": 0.828,
+      "num_input_tokens_seen": 146901664,
+      "step": 850
+    },
+    {
+      "epoch": 0.33972821742605913,
+      "loss": 0.6333939433097839,
+      "loss_ce": 0.009858794510364532,
+      "loss_xval": 0.625,
+      "num_input_tokens_seen": 146901664,
+      "step": 850
+    },
+    {
+      "epoch": 0.34012789768185453,
+      "grad_norm": 63.2888069151697,
+      "learning_rate": 5e-06,
+      "loss": 0.5584,
+      "num_input_tokens_seen": 147074640,
+      "step": 851
+    },
+    {
+      "epoch": 0.34012789768185453,
+      "loss": 0.6273359656333923,
+      "loss_ce": 0.010331545025110245,
+      "loss_xval": 0.6171875,
+      "num_input_tokens_seen": 147074640,
+      "step": 851
+    },
+    {
+      "epoch": 0.3405275779376499,
+      "grad_norm": 133.0194702803221,
+      "learning_rate": 5e-06,
+      "loss": 0.9838,
+      "num_input_tokens_seen": 147247328,
+      "step": 852
+    },
+    {
+      "epoch": 0.3405275779376499,
+      "loss": 1.4191014766693115,
+      "loss_ce": 0.011447655037045479,
+      "loss_xval": 1.40625,
+      "num_input_tokens_seen": 147247328,
+      "step": 852
+    },
+    {
+      "epoch": 0.34092725819344527,
+      "grad_norm": 67.27535330850881,
+      "learning_rate": 5e-06,
+      "loss": 0.4894,
+      "num_input_tokens_seen": 147420576,
+      "step": 853
+    },
+    {
+      "epoch": 0.34092725819344527,
+      "loss": 0.5238457918167114,
+      "loss_ce": 0.008770117536187172,
+      "loss_xval": 0.515625,
+      "num_input_tokens_seen": 147420576,
+      "step": 853
+    },
+    {
+      "epoch": 0.3413269384492406,
+      "grad_norm": 155.66643248889466,
+      "learning_rate": 5e-06,
+      "loss": 0.7028,
+      "num_input_tokens_seen": 147593552,
+      "step": 854
+    },
+    {
+      "epoch": 0.3413269384492406,
+      "loss": 0.6921306252479553,
+      "loss_ce": 0.020133551210165024,
+      "loss_xval": 0.671875,
+      "num_input_tokens_seen": 147593552,
+      "step": 854
+    },
+    {
+      "epoch": 0.34172661870503596,
+      "grad_norm": 62.82339145784998,
+      "learning_rate": 5e-06,
+      "loss": 0.4399,
+      "num_input_tokens_seen": 147766336,
+      "step": 855
+    },
+    {
+      "epoch": 0.34172661870503596,
+      "loss": 0.4368290901184082,
+      "loss_ce": 0.008331773802638054,
+      "loss_xval": 0.427734375,
+      "num_input_tokens_seen": 147766336,
+      "step": 855
+    },
+    {
+      "epoch": 0.34212629896083135,
+      "grad_norm": 169.0372459131588,
+      "learning_rate": 5e-06,
+      "loss": 1.1117,
+      "num_input_tokens_seen": 147939288,
+      "step": 856
+    },
+    {
+      "epoch": 0.34212629896083135,
+      "loss": 1.1313327550888062,
+      "loss_ce": 0.01048314105719328,
+      "loss_xval": 1.1171875,
+      "num_input_tokens_seen": 147939288,
+      "step": 856
+    },
+    {
+      "epoch": 0.3425259792166267,
+      "grad_norm": 160.87608512503493,
+      "learning_rate": 5e-06,
+      "loss": 0.9064,
+      "num_input_tokens_seen": 148112320,
+      "step": 857
+    },
+    {
+      "epoch": 0.3425259792166267,
+      "loss": 1.256239891052246,
+      "loss_ce": 0.008559215813875198,
+      "loss_xval": 1.25,
+      "num_input_tokens_seen": 148112320,
+      "step": 857
+    },
+    {
+      "epoch": 0.34292565947242204,
+      "grad_norm": 105.44623396035678,
+      "learning_rate": 5e-06,
+      "loss": 0.7052,
+      "num_input_tokens_seen": 148285280,
+      "step": 858
+    },
+    {
+      "epoch": 0.34292565947242204,
+      "loss": 0.8094460368156433,
+      "loss_ce": 0.010129651054739952,
+      "loss_xval": 0.80078125,
+      "num_input_tokens_seen": 148285280,
+      "step": 858
+    },
+    {
+      "epoch": 0.34332533972821744,
+      "grad_norm": 120.42122131819227,
+      "learning_rate": 5e-06,
+      "loss": 0.737,
+      "num_input_tokens_seen": 148457720,
+      "step": 859
+    },
+    {
+      "epoch": 0.34332533972821744,
+      "loss": 0.742914080619812,
+      "loss_ce": 0.009515605866909027,
+      "loss_xval": 0.734375,
+      "num_input_tokens_seen": 148457720,
+      "step": 859
+    },
+    {
+      "epoch": 0.3437250199840128,
+      "grad_norm": 130.49015429141713,
+      "learning_rate": 5e-06,
+      "loss": 0.7364,
+      "num_input_tokens_seen": 148631048,
+      "step": 860
+    },
+    {
+      "epoch": 0.3437250199840128,
+      "loss": 1.0588502883911133,
+      "loss_ce": 0.011364908888936043,
+      "loss_xval": 1.046875,
+      "num_input_tokens_seen": 148631048,
+      "step": 860
+    },
+    {
+      "epoch": 0.3441247002398082,
+      "grad_norm": 136.66847470521824,
+      "learning_rate": 5e-06,
+      "loss": 0.8036,
+      "num_input_tokens_seen": 148804048,
+      "step": 861
+    },
+    {
+      "epoch": 0.3441247002398082,
+      "loss": 0.9435184597969055,
+      "loss_ce": 0.010290941223502159,
+      "loss_xval": 0.93359375,
+      "num_input_tokens_seen": 148804048,
+      "step": 861
+    },
+    {
+      "epoch": 0.3445243804956035,
+      "grad_norm": 150.40577419616318,
+      "learning_rate": 5e-06,
+      "loss": 0.8159,
+      "num_input_tokens_seen": 148977112,
+      "step": 862
+    },
+    {
+      "epoch": 0.3445243804956035,
+      "loss": 1.0028644800186157,
+      "loss_ce": 0.016902528703212738,
+      "loss_xval": 0.984375,
+      "num_input_tokens_seen": 148977112,
+      "step": 862
+    },
+    {
+      "epoch": 0.34492406075139886,
+      "grad_norm": 59.347926899056496,
+      "learning_rate": 5e-06,
+      "loss": 0.6159,
+      "num_input_tokens_seen": 149149576,
+      "step": 863
+    },
+    {
+      "epoch": 0.34492406075139886,
+      "loss": 0.5505508184432983,
+      "loss_ce": 0.01075590681284666,
+      "loss_xval": 0.5390625,
+      "num_input_tokens_seen": 149149576,
+      "step": 863
+    },
+    {
+      "epoch": 0.34532374100719426,
+      "grad_norm": 19.849931423983264,
+      "learning_rate": 5e-06,
+      "loss": 0.3624,
+      "num_input_tokens_seen": 149322448,
+      "step": 864
+    },
+    {
+      "epoch": 0.34532374100719426,
+      "loss": 0.39450711011886597,
+      "loss_ce": 0.02286403253674507,
+      "loss_xval": 0.37109375,
+      "num_input_tokens_seen": 149322448,
+      "step": 864
+    },
+    {
+      "epoch": 0.3457234212629896,
+      "grad_norm": 93.95032815890265,
+      "learning_rate": 5e-06,
+      "loss": 0.7113,
+      "num_input_tokens_seen": 149495400,
+      "step": 865
+    },
+    {
+      "epoch": 0.3457234212629896,
+      "loss": 0.6392983794212341,
+      "loss_ce": 0.007950708270072937,
+      "loss_xval": 0.6328125,
+      "num_input_tokens_seen": 149495400,
+      "step": 865
+    },
+    {
+      "epoch": 0.34612310151878495,
+      "grad_norm": 47.376116576369185,
+      "learning_rate": 5e-06,
+      "loss": 0.5306,
+      "num_input_tokens_seen": 149668592,
+      "step": 866
+    },
+    {
+      "epoch": 0.34612310151878495,
+      "loss": 0.8008941411972046,
+      "loss_ce": 0.008505244739353657,
+      "loss_xval": 0.79296875,
+      "num_input_tokens_seen": 149668592,
+      "step": 866
+    },
+    {
+      "epoch": 0.34652278177458035,
+      "grad_norm": 79.5279904225274,
+      "learning_rate": 5e-06,
+      "loss": 0.7948,
+      "num_input_tokens_seen": 149841352,
+      "step": 867
+    },
+    {
+      "epoch": 0.34652278177458035,
+      "loss": 0.7384788990020752,
+      "loss_ce": 0.010390488430857658,
+      "loss_xval": 0.7265625,
+      "num_input_tokens_seen": 149841352,
+      "step": 867
+    },
+    {
+      "epoch": 0.3469224620303757,
+      "grad_norm": 135.31620195017132,
+      "learning_rate": 5e-06,
+      "loss": 0.9246,
+      "num_input_tokens_seen": 150014072,
+      "step": 868
+    },
+    {
+      "epoch": 0.3469224620303757,
+      "loss": 1.0314879417419434,
+      "loss_ce": 0.010796924121677876,
+      "loss_xval": 1.0234375,
+      "num_input_tokens_seen": 150014072,
+      "step": 868
+    },
+    {
+      "epoch": 0.3473221422861711,
+      "grad_norm": 127.44588322169365,
+      "learning_rate": 5e-06,
+      "loss": 0.932,
+      "num_input_tokens_seen": 150187008,
+      "step": 869
+    },
+    {
+      "epoch": 0.3473221422861711,
+      "loss": 0.8235166668891907,
+      "loss_ce": 0.01760845072567463,
+      "loss_xval": 0.8046875,
+      "num_input_tokens_seen": 150187008,
+      "step": 869
+    },
+    {
+      "epoch": 0.34772182254196643,
+      "grad_norm": 135.87113372177404,
+      "learning_rate": 5e-06,
+      "loss": 0.7667,
+      "num_input_tokens_seen": 150359864,
+      "step": 870
+    },
+    {
+      "epoch": 0.34772182254196643,
+      "loss": 0.5125239491462708,
+      "loss_ce": 0.008007319644093513,
+      "loss_xval": 0.50390625,
+      "num_input_tokens_seen": 150359864,
+      "step": 870
+    },
+    {
+      "epoch": 0.3481215027977618,
+      "grad_norm": 146.7548911832383,
+      "learning_rate": 5e-06,
+      "loss": 0.736,
+      "num_input_tokens_seen": 150532848,
+      "step": 871
+    },
+    {
+      "epoch": 0.3481215027977618,
+      "loss": 0.9291001558303833,
+      "loss_ce": 0.009239314123988152,
+      "loss_xval": 0.91796875,
+      "num_input_tokens_seen": 150532848,
+      "step": 871
+    },
+    {
+      "epoch": 0.34852118305355717,
+      "grad_norm": 133.2402111732672,
+      "learning_rate": 5e-06,
+      "loss": 0.8006,
+      "num_input_tokens_seen": 150705504,
+      "step": 872
+    },
+    {
+      "epoch": 0.34852118305355717,
+      "loss": 0.8471918106079102,
+      "loss_ce": 0.01296328753232956,
+      "loss_xval": 0.8359375,
+      "num_input_tokens_seen": 150705504,
+      "step": 872
+    },
+    {
+      "epoch": 0.3489208633093525,
+      "grad_norm": 110.66209021170407,
+      "learning_rate": 5e-06,
+      "loss": 0.7153,
+      "num_input_tokens_seen": 150878208,
+      "step": 873
+    },
+    {
+      "epoch": 0.3489208633093525,
+      "loss": 0.5486522316932678,
+      "loss_ce": 0.01294666901230812,
+      "loss_xval": 0.53515625,
+      "num_input_tokens_seen": 150878208,
+      "step": 873
+    },
+    {
+      "epoch": 0.34932054356514786,
+      "grad_norm": 188.24093809918526,
+      "learning_rate": 5e-06,
+      "loss": 0.5398,
+      "num_input_tokens_seen": 151051624,
+      "step": 874
+    },
+    {
+      "epoch": 0.34932054356514786,
+      "loss": 0.646808922290802,
+      "loss_ce": 0.008014976046979427,
+      "loss_xval": 0.640625,
+      "num_input_tokens_seen": 151051624,
+      "step": 874
+    },
+    {
+      "epoch": 0.34972022382094325,
+      "grad_norm": 64.80165189770501,
+      "learning_rate": 5e-06,
+      "loss": 0.5948,
+      "num_input_tokens_seen": 151224760,
+      "step": 875
+    },
+    {
+      "epoch": 0.34972022382094325,
+      "loss": 0.7177197933197021,
+      "loss_ce": 0.008735395967960358,
+      "loss_xval": 0.7109375,
+      "num_input_tokens_seen": 151224760,
+      "step": 875
+    },
+    {
+      "epoch": 0.3501199040767386,
+      "grad_norm": 217.1609995782766,
+      "learning_rate": 5e-06,
+      "loss": 0.8025,
+      "num_input_tokens_seen": 151397592,
+      "step": 876
+    },
+    {
+      "epoch": 0.3501199040767386,
+      "loss": 0.7121882438659668,
+      "loss_ce": 0.014678522013127804,
+      "loss_xval": 0.69921875,
+      "num_input_tokens_seen": 151397592,
+      "step": 876
+    },
+    {
+      "epoch": 0.350519584332534,
+      "grad_norm": 36.431244186683855,
+      "learning_rate": 5e-06,
+      "loss": 0.8813,
+      "num_input_tokens_seen": 151570816,
+      "step": 877
+    },
+    {
+      "epoch": 0.350519584332534,
+      "loss": 0.89690101146698,
+      "loss_ce": 0.010609478689730167,
+      "loss_xval": 0.88671875,
+      "num_input_tokens_seen": 151570816,
+      "step": 877
+    },
+    {
+      "epoch": 0.35091926458832934,
+      "grad_norm": 177.67298531218174,
+      "learning_rate": 5e-06,
+      "loss": 0.7987,
+      "num_input_tokens_seen": 151744144,
+      "step": 878
+    },
+    {
+      "epoch": 0.35091926458832934,
+      "loss": 0.9523735046386719,
+      "loss_ce": 0.013164570555090904,
+      "loss_xval": 0.9375,
+      "num_input_tokens_seen": 151744144,
+      "step": 878
+    },
+    {
+      "epoch": 0.3513189448441247,
+      "grad_norm": 71.39991832784374,
+      "learning_rate": 5e-06,
+      "loss": 0.5297,
+      "num_input_tokens_seen": 151917624,
+      "step": 879
+    },
+    {
+      "epoch": 0.3513189448441247,
+      "loss": 0.5013617277145386,
+      "loss_ce": 0.012103933840990067,
+      "loss_xval": 0.48828125,
+      "num_input_tokens_seen": 151917624,
+      "step": 879
+    },
+    {
+      "epoch": 0.3517186250999201,
+      "grad_norm": 70.96128356278321,
+      "learning_rate": 5e-06,
+      "loss": 0.6057,
+      "num_input_tokens_seen": 152090752,
+      "step": 880
+    },
+    {
+      "epoch": 0.3517186250999201,
+      "loss": 0.4656725227832794,
+      "loss_ce": 0.016270659863948822,
+      "loss_xval": 0.44921875,
+      "num_input_tokens_seen": 152090752,
+      "step": 880
+    },
+    {
+      "epoch": 0.3521183053557154,
+      "grad_norm": 82.47791554411735,
+      "learning_rate": 5e-06,
+      "loss": 0.6792,
+      "num_input_tokens_seen": 152263832,
+      "step": 881
+    },
+    {
+      "epoch": 0.3521183053557154,
+      "loss": 0.7818809747695923,
+      "loss_ce": 0.015645675361156464,
+      "loss_xval": 0.765625,
+      "num_input_tokens_seen": 152263832,
+      "step": 881
+    },
+    {
+      "epoch": 0.35251798561151076,
+      "grad_norm": 60.893015026895945,
+      "learning_rate": 5e-06,
+      "loss": 0.6402,
+      "num_input_tokens_seen": 152436992,
+      "step": 882
+    },
+    {
+      "epoch": 0.35251798561151076,
+      "loss": 0.6701950430870056,
+      "loss_ce": 0.012968515045940876,
+      "loss_xval": 0.65625,
+      "num_input_tokens_seen": 152436992,
+      "step": 882
+    },
+    {
+      "epoch": 0.35291766586730616,
+      "grad_norm": 104.03511210850309,
+      "learning_rate": 5e-06,
+      "loss": 0.6192,
+      "num_input_tokens_seen": 152609648,
+      "step": 883
+    },
+    {
+      "epoch": 0.35291766586730616,
+      "loss": 0.603535532951355,
+      "loss_ce": 0.01662144437432289,
+      "loss_xval": 0.5859375,
+      "num_input_tokens_seen": 152609648,
+      "step": 883
+    },
+    {
+      "epoch": 0.3533173461231015,
+      "grad_norm": 22.54287001703602,
+      "learning_rate": 5e-06,
+      "loss": 0.4427,
+      "num_input_tokens_seen": 152782776,
+      "step": 884
+    },
+    {
+      "epoch": 0.3533173461231015,
+      "loss": 0.3957730233669281,
+      "loss_ce": 0.016134345903992653,
+      "loss_xval": 0.37890625,
+      "num_input_tokens_seen": 152782776,
+      "step": 884
+    },
+    {
+      "epoch": 0.3537170263788969,
+      "grad_norm": 84.24382922528733,
+      "learning_rate": 5e-06,
+      "loss": 0.6745,
+      "num_input_tokens_seen": 152955672,
+      "step": 885
+    },
+    {
+      "epoch": 0.3537170263788969,
+      "loss": 0.5475041270256042,
+      "loss_ce": 0.012897195294499397,
+      "loss_xval": 0.53515625,
+      "num_input_tokens_seen": 152955672,
+      "step": 885
+    },
+    {
+      "epoch": 0.35411670663469225,
+      "grad_norm": 88.2327166019281,
+      "learning_rate": 5e-06,
+      "loss": 0.539,
+      "num_input_tokens_seen": 153128288,
+      "step": 886
+    },
+    {
+      "epoch": 0.35411670663469225,
+      "loss": 0.502876877784729,
+      "loss_ce": 0.01227623037993908,
+      "loss_xval": 0.490234375,
+      "num_input_tokens_seen": 153128288,
+      "step": 886
+    },
+    {
+      "epoch": 0.3545163868904876,
+      "grad_norm": 128.72303277494018,
+      "learning_rate": 5e-06,
+      "loss": 0.7006,
+      "num_input_tokens_seen": 153300984,
+      "step": 887
+    },
+    {
+      "epoch": 0.3545163868904876,
+      "loss": 0.760562539100647,
+      "loss_ce": 0.010928753763437271,
+      "loss_xval": 0.75,
+      "num_input_tokens_seen": 153300984,
+      "step": 887
+    },
+    {
+      "epoch": 0.354916067146283,
+      "grad_norm": 54.2554350644671,
+      "learning_rate": 5e-06,
+      "loss": 0.5323,
+      "num_input_tokens_seen": 153474224,
+      "step": 888
+    },
+    {
+      "epoch": 0.354916067146283,
+      "loss": 0.6280389428138733,
+      "loss_ce": 0.010485243052244186,
+      "loss_xval": 0.6171875,
+      "num_input_tokens_seen": 153474224,
+      "step": 888
+    },
+    {
+      "epoch": 0.35531574740207833,
+      "grad_norm": 129.45656745633136,
+      "learning_rate": 5e-06,
+      "loss": 0.7172,
+      "num_input_tokens_seen": 153647280,
+      "step": 889
+    },
+    {
+      "epoch": 0.35531574740207833,
+      "loss": 0.9391533136367798,
+      "loss_ce": 0.008367151021957397,
+      "loss_xval": 0.9296875,
+      "num_input_tokens_seen": 153647280,
+      "step": 889
+    },
+    {
+      "epoch": 0.35571542765787373,
+      "grad_norm": 44.89891618018207,
+      "learning_rate": 5e-06,
+      "loss": 0.4303,
+      "num_input_tokens_seen": 153820864,
+      "step": 890
+    },
+    {
+      "epoch": 0.35571542765787373,
+      "loss": 0.4807822108268738,
+      "loss_ce": 0.012703584507107735,
+      "loss_xval": 0.46875,
+      "num_input_tokens_seen": 153820864,
+      "step": 890
+    },
+    {
+      "epoch": 0.35611510791366907,
+      "grad_norm": 116.72687188293727,
+      "learning_rate": 5e-06,
+      "loss": 0.5185,
+      "num_input_tokens_seen": 153994288,
+      "step": 891
+    },
+    {
+      "epoch": 0.35611510791366907,
+      "loss": 0.284774512052536,
+      "loss_ce": 0.010848723351955414,
+      "loss_xval": 0.2734375,
+      "num_input_tokens_seen": 153994288,
+      "step": 891
+    },
+    {
+      "epoch": 0.3565147881694644,
+      "grad_norm": 26.176387267105216,
+      "learning_rate": 5e-06,
+      "loss": 0.3183,
+      "num_input_tokens_seen": 154167208,
+      "step": 892
+    },
+    {
+      "epoch": 0.3565147881694644,
+      "loss": 0.1847338080406189,
+      "loss_ce": 0.009440846741199493,
+      "loss_xval": 0.17578125,
+      "num_input_tokens_seen": 154167208,
+      "step": 892
+    },
+    {
+      "epoch": 0.3569144684252598,
+      "grad_norm": 165.85099821106596,
+      "learning_rate": 5e-06,
+      "loss": 0.6986,
+      "num_input_tokens_seen": 154339944,
+      "step": 893
+    },
+    {
+      "epoch": 0.3569144684252598,
+      "loss": 0.6996178030967712,
+      "loss_ce": 0.008089495822787285,
+      "loss_xval": 0.69140625,
+      "num_input_tokens_seen": 154339944,
+      "step": 893
+    },
+    {
+      "epoch": 0.35731414868105515,
+      "grad_norm": 60.57304398442198,
+      "learning_rate": 5e-06,
+      "loss": 0.6213,
+      "num_input_tokens_seen": 154513144,
+      "step": 894
+    },
+    {
+      "epoch": 0.35731414868105515,
+      "loss": 0.6562942266464233,
+      "loss_ce": 0.0067581310868263245,
+      "loss_xval": 0.6484375,
+      "num_input_tokens_seen": 154513144,
+      "step": 894
+    },
+    {
+      "epoch": 0.3577138289368505,
+      "grad_norm": 88.21158150555097,
+      "learning_rate": 5e-06,
+      "loss": 0.9994,
+      "num_input_tokens_seen": 154686024,
+      "step": 895
+    },
+    {
+      "epoch": 0.3577138289368505,
+      "loss": 0.9512639045715332,
+      "loss_ce": 0.006012419238686562,
+      "loss_xval": 0.9453125,
+      "num_input_tokens_seen": 154686024,
+      "step": 895
+    },
+    {
+      "epoch": 0.3581135091926459,
+      "grad_norm": 55.98236696389787,
+      "learning_rate": 5e-06,
+      "loss": 0.8411,
+      "num_input_tokens_seen": 154858752,
+      "step": 896
+    },
+    {
+      "epoch": 0.3581135091926459,
+      "loss": 0.9027426242828369,
+      "loss_ce": 0.008821753785014153,
+      "loss_xval": 0.89453125,
+      "num_input_tokens_seen": 154858752,
+      "step": 896
+    },
+    {
+      "epoch": 0.35851318944844124,
+      "grad_norm": 86.30176471176888,
+      "learning_rate": 5e-06,
+      "loss": 0.5935,
+      "num_input_tokens_seen": 155031920,
+      "step": 897
+    },
+    {
+      "epoch": 0.35851318944844124,
+      "loss": 0.8349786400794983,
+      "loss_ce": 0.012407823465764523,
+      "loss_xval": 0.82421875,
+      "num_input_tokens_seen": 155031920,
+      "step": 897
+    },
+    {
+      "epoch": 0.35891286970423664,
+      "grad_norm": 47.41906607681754,
+      "learning_rate": 5e-06,
+      "loss": 0.5413,
+      "num_input_tokens_seen": 155205008,
+      "step": 898
+    },
+    {
+      "epoch": 0.35891286970423664,
+      "loss": 0.5134440660476685,
+      "loss_ce": 0.007950928062200546,
+      "loss_xval": 0.50390625,
+      "num_input_tokens_seen": 155205008,
+      "step": 898
+    },
+    {
+      "epoch": 0.359312549960032,
+      "grad_norm": 30.61976486692005,
+      "learning_rate": 5e-06,
+      "loss": 0.6285,
+      "num_input_tokens_seen": 155378224,
+      "step": 899
+    },
+    {
+      "epoch": 0.359312549960032,
+      "loss": 0.762615442276001,
+      "loss_ce": 0.012127195484936237,
+      "loss_xval": 0.75,
+      "num_input_tokens_seen": 155378224,
+      "step": 899
+    },
+    {
+      "epoch": 0.3597122302158273,
+      "grad_norm": 43.585381340210624,
+      "learning_rate": 5e-06,
+      "loss": 0.4863,
+      "num_input_tokens_seen": 155551440,
+      "step": 900
+    },
+    {
+      "epoch": 0.3597122302158273,
+      "loss": 0.48361706733703613,
+      "loss_ce": 0.008275268599390984,
+      "loss_xval": 0.474609375,
+      "num_input_tokens_seen": 155551440,
+      "step": 900
+    },
+    {
+      "epoch": 0.3601119104716227,
+      "grad_norm": 30.9989474941419,
+      "learning_rate": 5e-06,
+      "loss": 0.4965,
+      "num_input_tokens_seen": 155724368,
+      "step": 901
+    },
+    {
+      "epoch": 0.3601119104716227,
+      "loss": 0.49682554602622986,
+      "loss_ce": 0.006957381498068571,
+      "loss_xval": 0.490234375,
+      "num_input_tokens_seen": 155724368,
+      "step": 901
+    },
+    {
+      "epoch": 0.36051159072741806,
+      "grad_norm": 113.42580772320302,
+      "learning_rate": 5e-06,
+      "loss": 0.6446,
+      "num_input_tokens_seen": 155897552,
+      "step": 902
+    },
+    {
+      "epoch": 0.36051159072741806,
+      "loss": 0.9667686223983765,
+      "loss_ce": 0.007417993154376745,
+      "loss_xval": 0.9609375,
+      "num_input_tokens_seen": 155897552,
+      "step": 902
+    },
+    {
+      "epoch": 0.3609112709832134,
+      "grad_norm": 101.77745338904332,
+      "learning_rate": 5e-06,
+      "loss": 0.4489,
+      "num_input_tokens_seen": 156070800,
+      "step": 903
+    },
+    {
+      "epoch": 0.3609112709832134,
+      "loss": 0.30879414081573486,
+      "loss_ce": 0.004655956290662289,
+      "loss_xval": 0.3046875,
+      "num_input_tokens_seen": 156070800,
+      "step": 903
+    },
+    {
+      "epoch": 0.3613109512390088,
+      "grad_norm": 98.20446936043231,
+      "learning_rate": 5e-06,
+      "loss": 0.7204,
+      "num_input_tokens_seen": 156243696,
+      "step": 904
+    },
+    {
+      "epoch": 0.3613109512390088,
+      "loss": 0.5402124524116516,
+      "loss_ce": 0.008504673838615417,
+      "loss_xval": 0.53125,
+      "num_input_tokens_seen": 156243696,
+      "step": 904
+    },
+    {
+      "epoch": 0.36171063149480415,
+      "grad_norm": 110.94970569500595,
+      "learning_rate": 5e-06,
+      "loss": 0.5071,
+      "num_input_tokens_seen": 156416472,
+      "step": 905
+    },
+    {
+      "epoch": 0.36171063149480415,
+      "loss": 0.33861905336380005,
+      "loss_ce": 0.012080967426300049,
+      "loss_xval": 0.326171875,
+      "num_input_tokens_seen": 156416472,
+      "step": 905
+    },
+    {
+      "epoch": 0.36211031175059955,
+      "grad_norm": 125.05593579343002,
+      "learning_rate": 5e-06,
+      "loss": 0.4928,
+      "num_input_tokens_seen": 156589520,
+      "step": 906
+    },
+    {
+      "epoch": 0.36211031175059955,
+      "loss": 0.6595361232757568,
+      "loss_ce": 0.008992912247776985,
+      "loss_xval": 0.65234375,
+      "num_input_tokens_seen": 156589520,
+      "step": 906
+    },
+    {
+      "epoch": 0.3625099920063949,
+      "grad_norm": 73.10342927626562,
+      "learning_rate": 5e-06,
+      "loss": 0.8154,
+      "num_input_tokens_seen": 156762224,
+      "step": 907
+    },
+    {
+      "epoch": 0.3625099920063949,
+      "loss": 0.6952431797981262,
+      "loss_ce": 0.009085968136787415,
+      "loss_xval": 0.6875,
+      "num_input_tokens_seen": 156762224,
+      "step": 907
+    },
+    {
+      "epoch": 0.36290967226219023,
+      "grad_norm": 126.39497282050058,
+      "learning_rate": 5e-06,
+      "loss": 1.1672,
+      "num_input_tokens_seen": 156935288,
+      "step": 908
+    },
+    {
+      "epoch": 0.36290967226219023,
+      "loss": 0.9857476949691772,
+      "loss_ce": 0.006133475806564093,
+      "loss_xval": 0.98046875,
+      "num_input_tokens_seen": 156935288,
+      "step": 908
+    },
+    {
+      "epoch": 0.36330935251798563,
+      "grad_norm": 54.826078470566614,
+      "learning_rate": 5e-06,
+      "loss": 0.504,
+      "num_input_tokens_seen": 157108208,
+      "step": 909
+    },
+    {
+      "epoch": 0.36330935251798563,
+      "loss": 0.29077398777008057,
+      "loss_ce": 0.0048853312619030476,
+      "loss_xval": 0.28515625,
+      "num_input_tokens_seen": 157108208,
+      "step": 909
+    },
+    {
+      "epoch": 0.36370903277378097,
+      "grad_norm": 71.30519374447884,
+      "learning_rate": 5e-06,
+      "loss": 0.6028,
+      "num_input_tokens_seen": 157281176,
+      "step": 910
+    },
+    {
+      "epoch": 0.36370903277378097,
+      "loss": 0.48019158840179443,
+      "loss_ce": 0.007047041319310665,
+      "loss_xval": 0.47265625,
+      "num_input_tokens_seen": 157281176,
+      "step": 910
+    },
+    {
+      "epoch": 0.3641087130295763,
+      "grad_norm": 52.76501098451776,
+      "learning_rate": 5e-06,
+      "loss": 0.6989,
+      "num_input_tokens_seen": 157454056,
+      "step": 911
+    },
+    {
+      "epoch": 0.3641087130295763,
+      "loss": 0.8536124229431152,
+      "loss_ce": 0.005712021142244339,
+      "loss_xval": 0.84765625,
+      "num_input_tokens_seen": 157454056,
+      "step": 911
+    },
+    {
+      "epoch": 0.3645083932853717,
+      "grad_norm": 70.87644756607571,
+      "learning_rate": 5e-06,
+      "loss": 0.5284,
+      "num_input_tokens_seen": 157626944,
+      "step": 912
+    },
+    {
+      "epoch": 0.3645083932853717,
+      "loss": 0.7316247224807739,
+      "loss_ce": 0.004940135404467583,
+      "loss_xval": 0.7265625,
+      "num_input_tokens_seen": 157626944,
+      "step": 912
+    },
+    {
+      "epoch": 0.36490807354116706,
+      "grad_norm": 102.12641205437491,
+      "learning_rate": 5e-06,
+      "loss": 0.7,
+      "num_input_tokens_seen": 157800248,
+      "step": 913
+    },
+    {
+      "epoch": 0.36490807354116706,
+      "loss": 0.8764115571975708,
+      "loss_ce": 0.00440229382365942,
+      "loss_xval": 0.87109375,
+      "num_input_tokens_seen": 157800248,
+      "step": 913
+    },
+    {
+      "epoch": 0.36530775379696245,
+      "grad_norm": 79.45654741039287,
+      "learning_rate": 5e-06,
+      "loss": 0.6452,
+      "num_input_tokens_seen": 157973304,
+      "step": 914
+    },
+    {
+      "epoch": 0.36530775379696245,
+      "loss": 0.3669845163822174,
+      "loss_ce": 0.009074367582798004,
+      "loss_xval": 0.357421875,
+      "num_input_tokens_seen": 157973304,
+      "step": 914
+    },
+    {
+      "epoch": 0.3657074340527578,
+      "grad_norm": 124.30904914641106,
+      "learning_rate": 5e-06,
+      "loss": 0.7281,
+      "num_input_tokens_seen": 158146416,
+      "step": 915
+    },
+    {
+      "epoch": 0.3657074340527578,
+      "loss": 0.82874596118927,
+      "loss_ce": 0.009165898896753788,
+      "loss_xval": 0.8203125,
+      "num_input_tokens_seen": 158146416,
+      "step": 915
+    },
+    {
+      "epoch": 0.36610711430855314,
+      "grad_norm": 42.101453883892475,
+      "learning_rate": 5e-06,
+      "loss": 0.6469,
+      "num_input_tokens_seen": 158319176,
+      "step": 916
+    },
+    {
+      "epoch": 0.36610711430855314,
+      "loss": 0.7069438695907593,
+      "loss_ce": 0.017673827707767487,
+      "loss_xval": 0.6875,
+      "num_input_tokens_seen": 158319176,
+      "step": 916
+    },
+    {
+      "epoch": 0.36650679456434854,
+      "grad_norm": 162.51287996615943,
+      "learning_rate": 5e-06,
+      "loss": 0.6696,
+      "num_input_tokens_seen": 158492232,
+      "step": 917
+    },
+    {
+      "epoch": 0.36650679456434854,
+      "loss": 0.90346360206604,
+      "loss_ce": 0.005209219641983509,
+      "loss_xval": 0.8984375,
+      "num_input_tokens_seen": 158492232,
+      "step": 917
+    },
+    {
+      "epoch": 0.3669064748201439,
+      "grad_norm": 100.54356211089177,
+      "learning_rate": 5e-06,
+      "loss": 0.5464,
+      "num_input_tokens_seen": 158665144,
+      "step": 918
+    },
+    {
+      "epoch": 0.3669064748201439,
+      "loss": 0.5094872713088989,
+      "loss_ce": 0.011562451720237732,
+      "loss_xval": 0.498046875,
+      "num_input_tokens_seen": 158665144,
+      "step": 918
+    },
+    {
+      "epoch": 0.3673061550759392,
+      "grad_norm": 76.05379399514754,
+      "learning_rate": 5e-06,
+      "loss": 0.7202,
+      "num_input_tokens_seen": 158838016,
+      "step": 919
+    },
+    {
+      "epoch": 0.3673061550759392,
+      "loss": 0.7858811616897583,
+      "loss_ce": 0.008903573267161846,
+      "loss_xval": 0.77734375,
+      "num_input_tokens_seen": 158838016,
+      "step": 919
+    },
+    {
+      "epoch": 0.3677058353317346,
+      "grad_norm": 90.74075761256418,
+      "learning_rate": 5e-06,
+      "loss": 0.9269,
+      "num_input_tokens_seen": 159011192,
+      "step": 920
+    },
+    {
+      "epoch": 0.3677058353317346,
+      "loss": 0.9359513521194458,
+      "loss_ce": 0.00675212824717164,
+      "loss_xval": 0.9296875,
+      "num_input_tokens_seen": 159011192,
+      "step": 920
+    },
+    {
+      "epoch": 0.36810551558752996,
+      "grad_norm": 45.087533766808335,
+      "learning_rate": 5e-06,
+      "loss": 0.683,
+      "num_input_tokens_seen": 159184136,
+      "step": 921
+    },
+    {
+      "epoch": 0.36810551558752996,
+      "loss": 0.9866589307785034,
+      "loss_ce": 0.005701903253793716,
+      "loss_xval": 0.98046875,
+      "num_input_tokens_seen": 159184136,
+      "step": 921
+    },
+    {
+      "epoch": 0.36850519584332536,
+      "grad_norm": 107.55288335570066,
+      "learning_rate": 5e-06,
+      "loss": 0.676,
+      "num_input_tokens_seen": 159356600,
+      "step": 922
+    },
+    {
+      "epoch": 0.36850519584332536,
+      "loss": 0.4224510192871094,
+      "loss_ce": 0.007106784265488386,
+      "loss_xval": 0.416015625,
+      "num_input_tokens_seen": 159356600,
+      "step": 922
+    },
+    {
+      "epoch": 0.3689048760991207,
+      "grad_norm": 54.68109555714196,
+      "learning_rate": 5e-06,
+      "loss": 0.7,
+      "num_input_tokens_seen": 159529752,
+      "step": 923
+    },
+    {
+      "epoch": 0.3689048760991207,
+      "loss": 0.4360928535461426,
+      "loss_ce": 0.011532355099916458,
+      "loss_xval": 0.423828125,
+      "num_input_tokens_seen": 159529752,
+      "step": 923
+    },
+    {
+      "epoch": 0.36930455635491605,
+      "grad_norm": 42.085657682472316,
+      "learning_rate": 5e-06,
+      "loss": 0.5586,
+      "num_input_tokens_seen": 159702560,
+      "step": 924
+    },
+    {
+      "epoch": 0.36930455635491605,
+      "loss": 0.6730107069015503,
+      "loss_ce": 0.005652267951518297,
+      "loss_xval": 0.66796875,
+      "num_input_tokens_seen": 159702560,
+      "step": 924
+    },
+    {
+      "epoch": 0.36970423661071145,
+      "grad_norm": 47.95856995776537,
+      "learning_rate": 5e-06,
+      "loss": 1.0306,
+      "num_input_tokens_seen": 159875480,
+      "step": 925
+    },
+    {
+      "epoch": 0.36970423661071145,
+      "loss": 1.4013919830322266,
+      "loss_ce": 0.005395848304033279,
+      "loss_xval": 1.3984375,
+      "num_input_tokens_seen": 159875480,
+      "step": 925
+    },
+    {
+      "epoch": 0.3701039168665068,
+      "grad_norm": 63.74419610065917,
+      "learning_rate": 5e-06,
+      "loss": 0.8646,
+      "num_input_tokens_seen": 160048464,
+      "step": 926
+    },
+    {
+      "epoch": 0.3701039168665068,
+      "loss": 0.7054557800292969,
+      "loss_ce": 0.008556396700441837,
+      "loss_xval": 0.6953125,
+      "num_input_tokens_seen": 160048464,
+      "step": 926
+    },
+    {
+      "epoch": 0.37050359712230213,
+      "grad_norm": 120.90791495364564,
+      "learning_rate": 5e-06,
+      "loss": 0.6159,
+      "num_input_tokens_seen": 160217688,
+      "step": 927
+    },
+    {
+      "epoch": 0.37050359712230213,
+      "loss": 0.663061261177063,
+      "loss_ce": 0.006322955247014761,
+      "loss_xval": 0.65625,
+      "num_input_tokens_seen": 160217688,
+      "step": 927
+    },
+    {
+      "epoch": 0.37090327737809753,
+      "grad_norm": 30.76703590033193,
+      "learning_rate": 5e-06,
+      "loss": 0.5309,
+      "num_input_tokens_seen": 160390592,
+      "step": 928
+    },
+    {
+      "epoch": 0.37090327737809753,
+      "loss": 0.5543885231018066,
+      "loss_ce": 0.0052857049740850925,
+      "loss_xval": 0.55078125,
+      "num_input_tokens_seen": 160390592,
+      "step": 928
+    },
+    {
+      "epoch": 0.37130295763389287,
+      "grad_norm": 113.83660820851645,
+      "learning_rate": 5e-06,
+      "loss": 0.5308,
+      "num_input_tokens_seen": 160563232,
+      "step": 929
+    },
+    {
+      "epoch": 0.37130295763389287,
+      "loss": 0.59651780128479,
+      "loss_ce": 0.00856616348028183,
+      "loss_xval": 0.58984375,
+      "num_input_tokens_seen": 160563232,
+      "step": 929
+    },
+    {
+      "epoch": 0.37170263788968827,
+      "grad_norm": 47.41293456779943,
+      "learning_rate": 5e-06,
+      "loss": 0.708,
+      "num_input_tokens_seen": 160736496,
+      "step": 930
+    },
+    {
+      "epoch": 0.37170263788968827,
+      "loss": 0.9490618705749512,
+      "loss_ce": 0.00680114608258009,
+      "loss_xval": 0.94140625,
+      "num_input_tokens_seen": 160736496,
+      "step": 930
+    },
+    {
+      "epoch": 0.3721023181454836,
+      "grad_norm": 158.06844665795316,
+      "learning_rate": 5e-06,
+      "loss": 0.644,
+      "num_input_tokens_seen": 160909248,
+      "step": 931
+    },
+    {
+      "epoch": 0.3721023181454836,
+      "loss": 0.5230578184127808,
+      "loss_ce": 0.005845884792506695,
+      "loss_xval": 0.515625,
+      "num_input_tokens_seen": 160909248,
+      "step": 931
+    },
+    {
+      "epoch": 0.37250199840127896,
+      "grad_norm": 51.036944593601305,
+      "learning_rate": 5e-06,
+      "loss": 0.7556,
+      "num_input_tokens_seen": 161082424,
+      "step": 932
+    },
+    {
+      "epoch": 0.37250199840127896,
+      "loss": 0.789161205291748,
+      "loss_ce": 0.00980327744036913,
+      "loss_xval": 0.78125,
+      "num_input_tokens_seen": 161082424,
+      "step": 932
+    },
+    {
+      "epoch": 0.37290167865707435,
+      "grad_norm": 64.86944261600239,
+      "learning_rate": 5e-06,
+      "loss": 0.5996,
+      "num_input_tokens_seen": 161251584,
+      "step": 933
+    },
+    {
+      "epoch": 0.37290167865707435,
+      "loss": 0.6159493923187256,
+      "loss_ce": 0.007917143404483795,
+      "loss_xval": 0.609375,
+      "num_input_tokens_seen": 161251584,
+      "step": 933
+    },
+    {
+      "epoch": 0.3733013589128697,
+      "grad_norm": 70.73385265509664,
+      "learning_rate": 5e-06,
+      "loss": 0.5539,
+      "num_input_tokens_seen": 161424536,
+      "step": 934
+    },
+    {
+      "epoch": 0.3733013589128697,
+      "loss": 0.46938377618789673,
+      "loss_ce": 0.007774879224598408,
+      "loss_xval": 0.4609375,
+      "num_input_tokens_seen": 161424536,
+      "step": 934
+    },
+    {
+      "epoch": 0.3737010391686651,
+      "grad_norm": 91.39872145012366,
+      "learning_rate": 5e-06,
+      "loss": 0.5084,
+      "num_input_tokens_seen": 161597208,
+      "step": 935
+    },
+    {
+      "epoch": 0.3737010391686651,
+      "loss": 0.5436455011367798,
+      "loss_ce": 0.005315391346812248,
+      "loss_xval": 0.5390625,
+      "num_input_tokens_seen": 161597208,
+      "step": 935
+    },
+    {
+      "epoch": 0.37410071942446044,
+      "grad_norm": 34.91207932565985,
+      "learning_rate": 5e-06,
+      "loss": 0.6474,
+      "num_input_tokens_seen": 161770632,
+      "step": 936
+    },
+    {
+      "epoch": 0.37410071942446044,
+      "loss": 0.6301032304763794,
+      "loss_ce": 0.008216038346290588,
+      "loss_xval": 0.62109375,
+      "num_input_tokens_seen": 161770632,
+      "step": 936
+    },
+    {
+      "epoch": 0.3745003996802558,
+      "grad_norm": 64.44416456277416,
+      "learning_rate": 5e-06,
+      "loss": 0.5532,
+      "num_input_tokens_seen": 161943488,
+      "step": 937
+    },
+    {
+      "epoch": 0.3745003996802558,
+      "loss": 0.6335973739624023,
+      "loss_ce": 0.007498729042708874,
+      "loss_xval": 0.625,
+      "num_input_tokens_seen": 161943488,
+      "step": 937
+    },
+    {
+      "epoch": 0.3749000799360512,
+      "grad_norm": 40.232602977833224,
+      "learning_rate": 5e-06,
+      "loss": 0.6844,
+      "num_input_tokens_seen": 162116368,
+      "step": 938
+    },
+    {
+      "epoch": 0.3749000799360512,
+      "loss": 0.6123180389404297,
+      "loss_ce": 0.005567554850131273,
+      "loss_xval": 0.60546875,
+      "num_input_tokens_seen": 162116368,
+      "step": 938
+    },
+    {
+      "epoch": 0.3752997601918465,
+      "grad_norm": 53.75798255647753,
+      "learning_rate": 5e-06,
+      "loss": 0.7675,
+      "num_input_tokens_seen": 162289448,
+      "step": 939
+    },
+    {
+      "epoch": 0.3752997601918465,
+      "loss": 0.9261175990104675,
+      "loss_ce": 0.014862729236483574,
+      "loss_xval": 0.91015625,
+      "num_input_tokens_seen": 162289448,
+      "step": 939
+    },
+    {
+      "epoch": 0.37569944044764186,
+      "grad_norm": 39.58720080674575,
+      "learning_rate": 5e-06,
+      "loss": 0.8083,
+      "num_input_tokens_seen": 162462168,
+      "step": 940
+    },
+    {
+      "epoch": 0.37569944044764186,
+      "loss": 0.8281588554382324,
+      "loss_ce": 0.00760222552344203,
+      "loss_xval": 0.8203125,
+      "num_input_tokens_seen": 162462168,
+      "step": 940
+    },
+    {
+      "epoch": 0.37609912070343726,
+      "grad_norm": 83.49540063053209,
+      "learning_rate": 5e-06,
+      "loss": 0.5544,
+      "num_input_tokens_seen": 162635232,
+      "step": 941
+    },
+    {
+      "epoch": 0.37609912070343726,
+      "loss": 0.6313626766204834,
+      "loss_ce": 0.008254722692072392,
+      "loss_xval": 0.625,
+      "num_input_tokens_seen": 162635232,
+      "step": 941
+    },
+    {
+      "epoch": 0.3764988009592326,
+      "grad_norm": 25.10804339460941,
+      "learning_rate": 5e-06,
+      "loss": 0.4647,
+      "num_input_tokens_seen": 162808504,
+      "step": 942
+    },
+    {
+      "epoch": 0.3764988009592326,
+      "loss": 0.6199823021888733,
+      "loss_ce": 0.006884154863655567,
+      "loss_xval": 0.61328125,
+      "num_input_tokens_seen": 162808504,
+      "step": 942
+    },
+    {
+      "epoch": 0.376898481215028,
+      "grad_norm": 117.86457604419098,
+      "learning_rate": 5e-06,
+      "loss": 0.4543,
+      "num_input_tokens_seen": 162981520,
+      "step": 943
+    },
+    {
+      "epoch": 0.376898481215028,
+      "loss": 0.6796769499778748,
+      "loss_ce": 0.008473317138850689,
+      "loss_xval": 0.671875,
+      "num_input_tokens_seen": 162981520,
+      "step": 943
+    },
+    {
+      "epoch": 0.37729816147082335,
+      "grad_norm": 86.42324771771638,
+      "learning_rate": 5e-06,
+      "loss": 0.7931,
+      "num_input_tokens_seen": 163154416,
+      "step": 944
+    },
+    {
+      "epoch": 0.37729816147082335,
+      "loss": 0.7076585292816162,
+      "loss_ce": 0.005021838005632162,
+      "loss_xval": 0.703125,
+      "num_input_tokens_seen": 163154416,
+      "step": 944
+    },
+    {
+      "epoch": 0.3776978417266187,
+      "grad_norm": 88.55505827409151,
+      "learning_rate": 5e-06,
+      "loss": 0.6935,
+      "num_input_tokens_seen": 163327568,
+      "step": 945
+    },
+    {
+      "epoch": 0.3776978417266187,
+      "loss": 0.789901852607727,
+      "loss_ce": 0.00938426237553358,
+      "loss_xval": 0.78125,
+      "num_input_tokens_seen": 163327568,
+      "step": 945
+    },
+    {
+      "epoch": 0.3780975219824141,
+      "grad_norm": 59.41303258965943,
+      "learning_rate": 5e-06,
+      "loss": 0.4882,
+      "num_input_tokens_seen": 163500632,
+      "step": 946
+    },
+    {
+      "epoch": 0.3780975219824141,
+      "loss": 0.64866042137146,
+      "loss_ce": 0.006875764578580856,
+      "loss_xval": 0.640625,
+      "num_input_tokens_seen": 163500632,
+      "step": 946
+    },
+    {
+      "epoch": 0.37849720223820943,
+      "grad_norm": 79.47629063266275,
+      "learning_rate": 5e-06,
+      "loss": 0.6103,
+      "num_input_tokens_seen": 163673792,
+      "step": 947
+    },
+    {
+      "epoch": 0.37849720223820943,
+      "loss": 0.34968358278274536,
+      "loss_ce": 0.004804443567991257,
+      "loss_xval": 0.345703125,
+      "num_input_tokens_seen": 163673792,
+      "step": 947
+    },
+    {
+      "epoch": 0.37889688249400477,
+      "grad_norm": 85.59131590620106,
+      "learning_rate": 5e-06,
+      "loss": 0.7057,
+      "num_input_tokens_seen": 163846624,
+      "step": 948
+    },
+    {
+      "epoch": 0.37889688249400477,
+      "loss": 0.6663787961006165,
+      "loss_ce": 0.004757732152938843,
+      "loss_xval": 0.66015625,
+      "num_input_tokens_seen": 163846624,
+      "step": 948
+    },
+    {
+      "epoch": 0.37929656274980017,
+      "grad_norm": 76.63253940661868,
+      "learning_rate": 5e-06,
+      "loss": 0.6282,
+      "num_input_tokens_seen": 164019440,
+      "step": 949
+    },
+    {
+      "epoch": 0.37929656274980017,
+      "loss": 0.7174029350280762,
+      "loss_ce": 0.006465459242463112,
+      "loss_xval": 0.7109375,
+      "num_input_tokens_seen": 164019440,
+      "step": 949
+    },
+    {
+      "epoch": 0.3796962430055955,
+      "grad_norm": 108.31628507448607,
+      "learning_rate": 5e-06,
+      "loss": 0.5647,
+      "num_input_tokens_seen": 164192424,
+      "step": 950
+    },
+    {
+      "epoch": 0.3796962430055955,
+      "loss": 0.6702345609664917,
+      "loss_ce": 0.005500704515725374,
+      "loss_xval": 0.6640625,
+      "num_input_tokens_seen": 164192424,
+      "step": 950
+    },
+    {
+      "epoch": 0.3800959232613909,
+      "grad_norm": 187.11072677320212,
+      "learning_rate": 5e-06,
+      "loss": 0.7636,
+      "num_input_tokens_seen": 164365360,
+      "step": 951
+    },
+    {
+      "epoch": 0.3800959232613909,
+      "loss": 0.6925037503242493,
+      "loss_ce": 0.007933435961604118,
+      "loss_xval": 0.68359375,
+      "num_input_tokens_seen": 164365360,
+      "step": 951
+    },
+    {
+      "epoch": 0.38049560351718625,
+      "grad_norm": 103.05122060180793,
+      "learning_rate": 5e-06,
+      "loss": 0.5753,
+      "num_input_tokens_seen": 164538256,
+      "step": 952
+    },
+    {
+      "epoch": 0.38049560351718625,
+      "loss": 0.4882552921772003,
+      "loss_ce": 0.007603436708450317,
+      "loss_xval": 0.48046875,
+      "num_input_tokens_seen": 164538256,
+      "step": 952
+    },
+    {
+      "epoch": 0.3808952837729816,
+      "grad_norm": 96.4099328188074,
+      "learning_rate": 5e-06,
+      "loss": 0.4646,
+      "num_input_tokens_seen": 164711880,
+      "step": 953
+    },
+    {
+      "epoch": 0.3808952837729816,
+      "loss": 0.3607138395309448,
+      "loss_ce": 0.008541014045476913,
+      "loss_xval": 0.3515625,
+      "num_input_tokens_seen": 164711880,
+      "step": 953
+    },
+    {
+      "epoch": 0.381294964028777,
+      "grad_norm": 67.6984785917304,
+      "learning_rate": 5e-06,
+      "loss": 0.8889,
+      "num_input_tokens_seen": 164881448,
+      "step": 954
+    },
+    {
+      "epoch": 0.381294964028777,
+      "loss": 0.927307665348053,
+      "loss_ce": 0.01062064804136753,
+      "loss_xval": 0.91796875,
+      "num_input_tokens_seen": 164881448,
+      "step": 954
+    },
+    {
+      "epoch": 0.38169464428457234,
+      "grad_norm": 153.94541262913765,
+      "learning_rate": 5e-06,
+      "loss": 0.8191,
+      "num_input_tokens_seen": 165054160,
+      "step": 955
+    },
+    {
+      "epoch": 0.38169464428457234,
+      "loss": 0.47236108779907227,
+      "loss_ce": 0.006662844214588404,
+      "loss_xval": 0.46484375,
+      "num_input_tokens_seen": 165054160,
+      "step": 955
+    },
+    {
+      "epoch": 0.3820943245403677,
+      "grad_norm": 149.72575420742487,
+      "learning_rate": 5e-06,
+      "loss": 1.0601,
+      "num_input_tokens_seen": 165226944,
+      "step": 956
+    },
+    {
+      "epoch": 0.3820943245403677,
+      "loss": 1.1687389612197876,
+      "loss_ce": 0.00907099712640047,
+      "loss_xval": 1.15625,
+      "num_input_tokens_seen": 165226944,
+      "step": 956
+    },
+    {
+      "epoch": 0.3824940047961631,
+      "grad_norm": 44.450558669277505,
+      "learning_rate": 5e-06,
+      "loss": 0.4047,
+      "num_input_tokens_seen": 165399800,
+      "step": 957
+    },
+    {
+      "epoch": 0.3824940047961631,
+      "loss": 0.38355177640914917,
+      "loss_ce": 0.006476604379713535,
+      "loss_xval": 0.376953125,
+      "num_input_tokens_seen": 165399800,
+      "step": 957
+    },
+    {
+      "epoch": 0.3828936850519584,
+      "grad_norm": 106.25175160747101,
+      "learning_rate": 5e-06,
+      "loss": 0.4297,
+      "num_input_tokens_seen": 165572760,
+      "step": 958
+    },
+    {
+      "epoch": 0.3828936850519584,
+      "loss": 0.5556713938713074,
+      "loss_ce": 0.011237800121307373,
+      "loss_xval": 0.54296875,
+      "num_input_tokens_seen": 165572760,
+      "step": 958
+    },
+    {
+      "epoch": 0.3832933653077538,
+      "grad_norm": 49.87171905029353,
+      "learning_rate": 5e-06,
+      "loss": 0.6636,
+      "num_input_tokens_seen": 165745872,
+      "step": 959
+    },
+    {
+      "epoch": 0.3832933653077538,
+      "loss": 0.41619065403938293,
+      "loss_ce": 0.006583709269762039,
+      "loss_xval": 0.41015625,
+      "num_input_tokens_seen": 165745872,
+      "step": 959
+    },
+    {
+      "epoch": 0.38369304556354916,
+      "grad_norm": 132.66081692696326,
+      "learning_rate": 5e-06,
+      "loss": 0.9105,
+      "num_input_tokens_seen": 165918744,
+      "step": 960
+    },
+    {
+      "epoch": 0.38369304556354916,
+      "loss": 0.9205524325370789,
+      "loss_ce": 0.011311713606119156,
+      "loss_xval": 0.91015625,
+      "num_input_tokens_seen": 165918744,
+      "step": 960
+    },
+    {
+      "epoch": 0.3840927258193445,
+      "grad_norm": 73.04408709563512,
+      "learning_rate": 5e-06,
+      "loss": 0.5809,
+      "num_input_tokens_seen": 166087696,
+      "step": 961
+    },
+    {
+      "epoch": 0.3840927258193445,
+      "loss": 0.701846718788147,
+      "loss_ce": 0.005496594589203596,
+      "loss_xval": 0.6953125,
+      "num_input_tokens_seen": 166087696,
+      "step": 961
+    },
+    {
+      "epoch": 0.3844924060751399,
+      "grad_norm": 142.34342052216527,
+      "learning_rate": 5e-06,
+      "loss": 0.8367,
+      "num_input_tokens_seen": 166260736,
+      "step": 962
+    },
+    {
+      "epoch": 0.3844924060751399,
+      "loss": 1.0870518684387207,
+      "loss_ce": 0.007217873819172382,
+      "loss_xval": 1.078125,
+      "num_input_tokens_seen": 166260736,
+      "step": 962
+    },
+    {
+      "epoch": 0.38489208633093525,
+      "grad_norm": 91.56652258008455,
+      "learning_rate": 5e-06,
+      "loss": 0.6936,
+      "num_input_tokens_seen": 166433480,
+      "step": 963
+    },
+    {
+      "epoch": 0.38489208633093525,
+      "loss": 0.757168710231781,
+      "loss_ce": 0.005947999190539122,
+      "loss_xval": 0.75,
+      "num_input_tokens_seen": 166433480,
+      "step": 963
+    },
+    {
+      "epoch": 0.3852917665867306,
+      "grad_norm": 112.22507236008505,
+      "learning_rate": 5e-06,
+      "loss": 0.4131,
+      "num_input_tokens_seen": 166606920,
+      "step": 964
+    },
+    {
+      "epoch": 0.3852917665867306,
+      "loss": 0.2249833643436432,
+      "loss_ce": 0.007179419510066509,
+      "loss_xval": 0.2177734375,
+      "num_input_tokens_seen": 166606920,
+      "step": 964
+    },
+    {
+      "epoch": 0.385691446842526,
+      "grad_norm": 75.91188836670992,
+      "learning_rate": 5e-06,
+      "loss": 0.4977,
+      "num_input_tokens_seen": 166779976,
+      "step": 965
+    },
+    {
+      "epoch": 0.385691446842526,
+      "loss": 0.3778020143508911,
+      "loss_ce": 0.007257565855979919,
+      "loss_xval": 0.37109375,
+      "num_input_tokens_seen": 166779976,
+      "step": 965
+    },
+    {
+      "epoch": 0.38609112709832133,
+      "grad_norm": 72.22940290020605,
+      "learning_rate": 5e-06,
+      "loss": 0.583,
+      "num_input_tokens_seen": 166953200,
+      "step": 966
+    },
+    {
+      "epoch": 0.38609112709832133,
+      "loss": 0.6213172674179077,
+      "loss_ce": 0.011698130518198013,
+      "loss_xval": 0.609375,
+      "num_input_tokens_seen": 166953200,
+      "step": 966
+    },
+    {
+      "epoch": 0.3864908073541167,
+      "grad_norm": 40.4774269583089,
+      "learning_rate": 5e-06,
+      "loss": 0.8808,
+      "num_input_tokens_seen": 167126160,
+      "step": 967
+    },
+    {
+      "epoch": 0.3864908073541167,
+      "loss": 1.3061549663543701,
+      "loss_ce": 0.008913781493902206,
+      "loss_xval": 1.296875,
+      "num_input_tokens_seen": 167126160,
+      "step": 967
+    },
+    {
+      "epoch": 0.38689048760991207,
+      "grad_norm": 77.76546008195128,
+      "learning_rate": 5e-06,
+      "loss": 0.6034,
+      "num_input_tokens_seen": 167299016,
+      "step": 968
+    },
+    {
+      "epoch": 0.38689048760991207,
+      "loss": 0.4178801476955414,
+      "loss_ce": 0.005404568277299404,
+      "loss_xval": 0.412109375,
+      "num_input_tokens_seen": 167299016,
+      "step": 968
+    },
+    {
+      "epoch": 0.3872901678657074,
+      "grad_norm": 50.08422450179112,
+      "learning_rate": 5e-06,
+      "loss": 0.8172,
+      "num_input_tokens_seen": 167472080,
+      "step": 969
+    },
+    {
+      "epoch": 0.3872901678657074,
+      "loss": 0.6857173442840576,
+      "loss_ce": 0.008837435394525528,
+      "loss_xval": 0.67578125,
+      "num_input_tokens_seen": 167472080,
+      "step": 969
+    },
+    {
+      "epoch": 0.3876898481215028,
+      "grad_norm": 115.02853547549552,
+      "learning_rate": 5e-06,
+      "loss": 1.2746,
+      "num_input_tokens_seen": 167645184,
+      "step": 970
+    },
+    {
+      "epoch": 0.3876898481215028,
+      "loss": 0.7067731618881226,
+      "loss_ce": 0.007554412819445133,
+      "loss_xval": 0.69921875,
+      "num_input_tokens_seen": 167645184,
+      "step": 970
+    },
+    {
+      "epoch": 0.38808952837729815,
+      "grad_norm": 114.25307598804022,
+      "learning_rate": 5e-06,
+      "loss": 0.6847,
+      "num_input_tokens_seen": 167817888,
+      "step": 971
+    },
+    {
+      "epoch": 0.38808952837729815,
+      "loss": 0.8140785694122314,
+      "loss_ce": 0.006705489940941334,
+      "loss_xval": 0.80859375,
+      "num_input_tokens_seen": 167817888,
+      "step": 971
+    },
+    {
+      "epoch": 0.38848920863309355,
+      "grad_norm": 58.200766823999736,
+      "learning_rate": 5e-06,
+      "loss": 0.8283,
+      "num_input_tokens_seen": 167990920,
+      "step": 972
+    },
+    {
+      "epoch": 0.38848920863309355,
+      "loss": 0.551996111869812,
+      "loss_ce": 0.007928753271698952,
+      "loss_xval": 0.54296875,
+      "num_input_tokens_seen": 167990920,
+      "step": 972
+    },
+    {
+      "epoch": 0.3888888888888889,
+      "grad_norm": 58.649617728544364,
+      "learning_rate": 5e-06,
+      "loss": 0.4376,
+      "num_input_tokens_seen": 168163488,
+      "step": 973
+    },
+    {
+      "epoch": 0.3888888888888889,
+      "loss": 0.2681065797805786,
+      "loss_ce": 0.0070592425763607025,
+      "loss_xval": 0.26171875,
+      "num_input_tokens_seen": 168163488,
+      "step": 973
+    },
+    {
+      "epoch": 0.38928856914468424,
+      "grad_norm": 80.19293169274987,
+      "learning_rate": 5e-06,
+      "loss": 0.6363,
+      "num_input_tokens_seen": 168336336,
+      "step": 974
+    },
+    {
+      "epoch": 0.38928856914468424,
+      "loss": 0.7013700008392334,
+      "loss_ce": 0.006606808863580227,
+      "loss_xval": 0.6953125,
+      "num_input_tokens_seen": 168336336,
+      "step": 974
+    },
+    {
+      "epoch": 0.38968824940047964,
+      "grad_norm": 89.07859540994681,
+      "learning_rate": 5e-06,
+      "loss": 0.4365,
+      "num_input_tokens_seen": 168509680,
+      "step": 975
+    },
+    {
+      "epoch": 0.38968824940047964,
+      "loss": 0.40148645639419556,
+      "loss_ce": 0.006741571240127087,
+      "loss_xval": 0.39453125,
+      "num_input_tokens_seen": 168509680,
+      "step": 975
+    },
+    {
+      "epoch": 0.390087929656275,
+      "grad_norm": 63.38435699178039,
+      "learning_rate": 5e-06,
+      "loss": 0.6486,
+      "num_input_tokens_seen": 168682024,
+      "step": 976
+    },
+    {
+      "epoch": 0.390087929656275,
+      "loss": 0.48744258284568787,
+      "loss_ce": 0.00575310830026865,
+      "loss_xval": 0.482421875,
+      "num_input_tokens_seen": 168682024,
+      "step": 976
+    },
+    {
+      "epoch": 0.3904876099120703,
+      "grad_norm": 37.56895127097929,
+      "learning_rate": 5e-06,
+      "loss": 0.8508,
+      "num_input_tokens_seen": 168855064,
+      "step": 977
+    },
+    {
+      "epoch": 0.3904876099120703,
+      "loss": 0.7805444002151489,
+      "loss_ce": 0.010647003538906574,
+      "loss_xval": 0.76953125,
+      "num_input_tokens_seen": 168855064,
+      "step": 977
+    },
+    {
+      "epoch": 0.3908872901678657,
+      "grad_norm": 38.66001191702328,
+      "learning_rate": 5e-06,
+      "loss": 0.6123,
+      "num_input_tokens_seen": 169028096,
+      "step": 978
+    },
+    {
+      "epoch": 0.3908872901678657,
+      "loss": 0.5990478992462158,
+      "loss_ce": 0.009570390917360783,
+      "loss_xval": 0.58984375,
+      "num_input_tokens_seen": 169028096,
+      "step": 978
+    },
+    {
+      "epoch": 0.39128697042366106,
+      "grad_norm": 43.557533168818516,
+      "learning_rate": 5e-06,
+      "loss": 0.6573,
+      "num_input_tokens_seen": 169201024,
+      "step": 979
+    },
+    {
+      "epoch": 0.39128697042366106,
+      "loss": 0.6643787026405334,
+      "loss_ce": 0.005992514081299305,
+      "loss_xval": 0.66015625,
+      "num_input_tokens_seen": 169201024,
+      "step": 979
+    },
+    {
+      "epoch": 0.39168665067945646,
+      "grad_norm": 57.037574608846434,
+      "learning_rate": 5e-06,
+      "loss": 0.553,
+      "num_input_tokens_seen": 169372448,
+      "step": 980
+    },
+    {
+      "epoch": 0.39168665067945646,
+      "loss": 0.7914978265762329,
+      "loss_ce": 0.015252649784088135,
+      "loss_xval": 0.77734375,
+      "num_input_tokens_seen": 169372448,
+      "step": 980
+    },
+    {
+      "epoch": 0.3920863309352518,
+      "grad_norm": 26.713226016677673,
+      "learning_rate": 5e-06,
+      "loss": 0.4622,
+      "num_input_tokens_seen": 169545336,
+      "step": 981
+    },
+    {
+      "epoch": 0.3920863309352518,
+      "loss": 0.5592265725135803,
+      "loss_ce": 0.005027370527386665,
+      "loss_xval": 0.5546875,
+      "num_input_tokens_seen": 169545336,
+      "step": 981
+    },
+    {
+      "epoch": 0.39248601119104715,
+      "grad_norm": 30.376410347757318,
+      "learning_rate": 5e-06,
+      "loss": 0.4451,
+      "num_input_tokens_seen": 169718480,
+      "step": 982
+    },
+    {
+      "epoch": 0.39248601119104715,
+      "loss": 0.326797217130661,
+      "loss_ce": 0.00709507055580616,
+      "loss_xval": 0.3203125,
+      "num_input_tokens_seen": 169718480,
+      "step": 982
+    },
+    {
+      "epoch": 0.39288569144684254,
+      "grad_norm": 42.70059848914429,
+      "learning_rate": 5e-06,
+      "loss": 0.65,
+      "num_input_tokens_seen": 169891376,
+      "step": 983
+    },
+    {
+      "epoch": 0.39288569144684254,
+      "loss": 0.6005296111106873,
+      "loss_ce": 0.004796041641384363,
+      "loss_xval": 0.59765625,
+      "num_input_tokens_seen": 169891376,
+      "step": 983
+    },
+    {
+      "epoch": 0.3932853717026379,
+      "grad_norm": 61.85368887460458,
+      "learning_rate": 5e-06,
+      "loss": 0.7171,
+      "num_input_tokens_seen": 170064280,
+      "step": 984
+    },
+    {
+      "epoch": 0.3932853717026379,
+      "loss": 0.3366258144378662,
+      "loss_ce": 0.0034348834306001663,
+      "loss_xval": 0.333984375,
+      "num_input_tokens_seen": 170064280,
+      "step": 984
+    },
+    {
+      "epoch": 0.39368505195843323,
+      "grad_norm": 27.359901358980956,
+      "learning_rate": 5e-06,
+      "loss": 0.5081,
+      "num_input_tokens_seen": 170237664,
+      "step": 985
+    },
+    {
+      "epoch": 0.39368505195843323,
+      "loss": 0.4442784786224365,
+      "loss_ce": 0.0073583247140049934,
+      "loss_xval": 0.4375,
+      "num_input_tokens_seen": 170237664,
+      "step": 985
+    },
+    {
+      "epoch": 0.39408473221422863,
+      "grad_norm": 161.64024654863002,
+      "learning_rate": 5e-06,
+      "loss": 0.8349,
+      "num_input_tokens_seen": 170411016,
+      "step": 986
+    },
+    {
+      "epoch": 0.39408473221422863,
+      "loss": 0.765992283821106,
+      "loss_ce": 0.005799395032227039,
+      "loss_xval": 0.76171875,
+      "num_input_tokens_seen": 170411016,
+      "step": 986
+    },
+    {
+      "epoch": 0.39448441247002397,
+      "grad_norm": 77.11201946826561,
+      "learning_rate": 5e-06,
+      "loss": 1.1603,
+      "num_input_tokens_seen": 170583888,
+      "step": 987
+    },
+    {
+      "epoch": 0.39448441247002397,
+      "loss": 1.365664005279541,
+      "loss_ce": 0.007936842739582062,
+      "loss_xval": 1.359375,
+      "num_input_tokens_seen": 170583888,
+      "step": 987
+    },
+    {
+      "epoch": 0.39488409272581937,
+      "grad_norm": 126.12675711597637,
+      "learning_rate": 5e-06,
+      "loss": 0.9069,
+      "num_input_tokens_seen": 170756584,
+      "step": 988
+    },
+    {
+      "epoch": 0.39488409272581937,
+      "loss": 0.7058815956115723,
+      "loss_ce": 0.008860129863023758,
+      "loss_xval": 0.6953125,
+      "num_input_tokens_seen": 170756584,
+      "step": 988
+    },
+    {
+      "epoch": 0.3952837729816147,
+      "grad_norm": 176.69341122468677,
+      "learning_rate": 5e-06,
+      "loss": 0.8091,
+      "num_input_tokens_seen": 170929272,
+      "step": 989
+    },
+    {
+      "epoch": 0.3952837729816147,
+      "loss": 0.7472469806671143,
+      "loss_ce": 0.0038387635722756386,
+      "loss_xval": 0.7421875,
+      "num_input_tokens_seen": 170929272,
+      "step": 989
+    },
+    {
+      "epoch": 0.39568345323741005,
+      "grad_norm": 100.80639940703247,
+      "learning_rate": 5e-06,
+      "loss": 0.4486,
+      "num_input_tokens_seen": 171102064,
+      "step": 990
+    },
+    {
+      "epoch": 0.39568345323741005,
+      "loss": 0.34538111090660095,
+      "loss_ce": 0.00645289896056056,
+      "loss_xval": 0.33984375,
+      "num_input_tokens_seen": 171102064,
+      "step": 990
+    },
+    {
+      "epoch": 0.39608313349320545,
+      "grad_norm": 127.70680274006587,
+      "learning_rate": 5e-06,
+      "loss": 0.4639,
+      "num_input_tokens_seen": 171275256,
+      "step": 991
+    },
+    {
+      "epoch": 0.39608313349320545,
+      "loss": 0.6334390044212341,
+      "loss_ce": 0.006730004213750362,
+      "loss_xval": 0.625,
+      "num_input_tokens_seen": 171275256,
+      "step": 991
+    },
+    {
+      "epoch": 0.3964828137490008,
+      "grad_norm": 98.65398770343047,
+      "learning_rate": 5e-06,
+      "loss": 0.7308,
+      "num_input_tokens_seen": 171448104,
+      "step": 992
+    },
+    {
+      "epoch": 0.3964828137490008,
+      "loss": 0.7053290009498596,
+      "loss_ce": 0.009894400835037231,
+      "loss_xval": 0.6953125,
+      "num_input_tokens_seen": 171448104,
+      "step": 992
+    },
+    {
+      "epoch": 0.39688249400479614,
+      "grad_norm": 104.68550005705072,
+      "learning_rate": 5e-06,
+      "loss": 0.2795,
+      "num_input_tokens_seen": 171621304,
+      "step": 993
+    },
+    {
+      "epoch": 0.39688249400479614,
+      "loss": 0.2923963665962219,
+      "loss_ce": 0.005653205327689648,
+      "loss_xval": 0.287109375,
+      "num_input_tokens_seen": 171621304,
+      "step": 993
+    },
+    {
+      "epoch": 0.39728217426059154,
+      "grad_norm": 151.12207326320515,
+      "learning_rate": 5e-06,
+      "loss": 0.8025,
+      "num_input_tokens_seen": 171794016,
+      "step": 994
+    },
+    {
+      "epoch": 0.39728217426059154,
+      "loss": 0.7504175901412964,
+      "loss_ce": 0.005300438497215509,
+      "loss_xval": 0.74609375,
+      "num_input_tokens_seen": 171794016,
+      "step": 994
+    },
+    {
+      "epoch": 0.3976818545163869,
+      "grad_norm": 87.55290667068692,
+      "learning_rate": 5e-06,
+      "loss": 0.5974,
+      "num_input_tokens_seen": 171966768,
+      "step": 995
+    },
+    {
+      "epoch": 0.3976818545163869,
+      "loss": 0.3750014305114746,
+      "loss_ce": 0.005433551035821438,
+      "loss_xval": 0.369140625,
+      "num_input_tokens_seen": 171966768,
+      "step": 995
+    },
+    {
+      "epoch": 0.3980815347721823,
+      "grad_norm": 52.76431280420055,
+      "learning_rate": 5e-06,
+      "loss": 0.5791,
+      "num_input_tokens_seen": 172139856,
+      "step": 996
+    },
+    {
+      "epoch": 0.3980815347721823,
+      "loss": 0.5788711309432983,
+      "loss_ce": 0.009596217423677444,
+      "loss_xval": 0.5703125,
+      "num_input_tokens_seen": 172139856,
+      "step": 996
+    },
+    {
+      "epoch": 0.3984812150279776,
+      "grad_norm": 61.69947757143887,
+      "learning_rate": 5e-06,
+      "loss": 0.5662,
+      "num_input_tokens_seen": 172312544,
+      "step": 997
+    },
+    {
+      "epoch": 0.3984812150279776,
+      "loss": 0.50725257396698,
+      "loss_ce": 0.010182302445173264,
+      "loss_xval": 0.49609375,
+      "num_input_tokens_seen": 172312544,
+      "step": 997
+    },
+    {
+      "epoch": 0.39888089528377296,
+      "grad_norm": 34.32354136252659,
+      "learning_rate": 5e-06,
+      "loss": 0.8179,
+      "num_input_tokens_seen": 172485560,
+      "step": 998
+    },
+    {
+      "epoch": 0.39888089528377296,
+      "loss": 0.9845725893974304,
+      "loss_ce": 0.023391013965010643,
+      "loss_xval": 0.9609375,
+      "num_input_tokens_seen": 172485560,
+      "step": 998
+    },
+    {
+      "epoch": 0.39928057553956836,
+      "grad_norm": 84.83106537615475,
+      "learning_rate": 5e-06,
+      "loss": 0.5806,
+      "num_input_tokens_seen": 172658848,
+      "step": 999
+    },
+    {
+      "epoch": 0.39928057553956836,
+      "loss": 0.8320725560188293,
+      "loss_ce": 0.005900641903281212,
+      "loss_xval": 0.828125,
+      "num_input_tokens_seen": 172658848,
+      "step": 999
+    },
+    {
+      "epoch": 0.3996802557953637,
+      "grad_norm": 80.35046570322501,
+      "learning_rate": 5e-06,
+      "loss": 0.603,
+      "num_input_tokens_seen": 172831616,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3996802557953637,
+      "eval_websight_new_IoU": 0.3092806488275528,
+      "eval_websight_new_MAE_all": 0.024964885786175728,
+      "eval_websight_new_MAE_h": 0.009109157603234053,
+      "eval_websight_new_MAE_w": 0.04664035141468048,
+      "eval_websight_new_MAE_x": 0.025324680842459202,
+      "eval_websight_new_MAE_y": 0.018785354681313038,
+      "eval_websight_new_NUM_probability": 0.9444170296192169,
+      "eval_websight_new_inside_bbox": 0.6996527910232544,
+      "eval_websight_new_loss": 0.33494770526885986,
+      "eval_websight_new_loss_ce": 0.006523952353745699,
+      "eval_websight_new_loss_xval": 0.26861572265625,
+      "eval_websight_new_runtime": 56.6826,
+      "eval_websight_new_samples_per_second": 0.882,
+      "eval_websight_new_steps_per_second": 0.035,
+      "num_input_tokens_seen": 172831616,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3996802557953637,
+      "eval_seeclick_IoU": 0.23224642127752304,
+      "eval_seeclick_MAE_all": 0.07489410787820816,
+      "eval_seeclick_MAE_h": 0.02226562239229679,
+      "eval_seeclick_MAE_w": 0.11477012187242508,
+      "eval_seeclick_MAE_x": 0.0983852706849575,
+      "eval_seeclick_MAE_y": 0.06415541097521782,
+      "eval_seeclick_NUM_probability": 0.9417648315429688,
+      "eval_seeclick_inside_bbox": 0.4444444477558136,
+      "eval_seeclick_loss": 1.5326517820358276,
+      "eval_seeclick_loss_ce": 0.020226879976689816,
+      "eval_seeclick_loss_xval": 1.391357421875,
+      "eval_seeclick_runtime": 84.8257,
+      "eval_seeclick_samples_per_second": 0.589,
+      "eval_seeclick_steps_per_second": 0.024,
+      "num_input_tokens_seen": 172831616,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3996802557953637,
+      "eval_icons_IoU": 0.061911119148135185,
+      "eval_icons_MAE_all": 0.028313827700912952,
+      "eval_icons_MAE_h": 0.006960721453651786,
+      "eval_icons_MAE_w": 0.008420140482485294,
+      "eval_icons_MAE_x": 0.05678635463118553,
+      "eval_icons_MAE_y": 0.04108810052275658,
+      "eval_icons_NUM_probability": 0.9464539885520935,
+      "eval_icons_inside_bbox": 0.09027777798473835,
+      "eval_icons_loss": 0.38697123527526855,
+      "eval_icons_loss_ce": 0.006282810820266604,
+      "eval_icons_loss_xval": 0.310516357421875,
+      "eval_icons_runtime": 83.1499,
+      "eval_icons_samples_per_second": 0.601,
+      "eval_icons_steps_per_second": 0.024,
+      "num_input_tokens_seen": 172831616,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3996802557953637,
+      "loss": 0.23844069242477417,
+      "loss_ce": 0.00641553895547986,
+      "loss_xval": 0.232421875,
+      "num_input_tokens_seen": 172831616,
+      "step": 1000
+    },
+    {
+      "epoch": 0.40007993605115905,
+      "grad_norm": 26.22909617587164,
+      "learning_rate": 5e-06,
+      "loss": 0.5293,
+      "num_input_tokens_seen": 173004832,
+      "step": 1001
+    },
+    {
+      "epoch": 0.40007993605115905,
+      "loss": 0.5112817287445068,
+      "loss_ce": 0.008443554863333702,
+      "loss_xval": 0.50390625,
+      "num_input_tokens_seen": 173004832,
+      "step": 1001
+    },
+    {
+      "epoch": 0.40047961630695444,
+      "grad_norm": 37.57565610535053,
+      "learning_rate": 5e-06,
+      "loss": 0.6173,
+      "num_input_tokens_seen": 173178376,
+      "step": 1002
+    },
+    {
+      "epoch": 0.40047961630695444,
+      "loss": 0.6873658299446106,
+      "loss_ce": 0.0071595776826143265,
+      "loss_xval": 0.6796875,
+      "num_input_tokens_seen": 173178376,
+      "step": 1002
+    },
+    {
+      "epoch": 0.4008792965627498,
+      "grad_norm": 52.448242126332076,
+      "learning_rate": 5e-06,
+      "loss": 0.5896,
+      "num_input_tokens_seen": 173351128,
+      "step": 1003
+    },
+    {
+      "epoch": 0.4008792965627498,
+      "loss": 0.6299257278442383,
+      "loss_ce": 0.007367200218141079,
+      "loss_xval": 0.62109375,
+      "num_input_tokens_seen": 173351128,
+      "step": 1003
+    },
+    {
+      "epoch": 0.4012789768185452,
+      "grad_norm": 59.20638229901705,
+      "learning_rate": 5e-06,
+      "loss": 0.5644,
+      "num_input_tokens_seen": 173524176,
+      "step": 1004
+    },
+    {
+      "epoch": 0.4012789768185452,
+      "loss": 0.7194583415985107,
+      "loss_ce": 0.006445643957704306,
+      "loss_xval": 0.71484375,
+      "num_input_tokens_seen": 173524176,
+      "step": 1004
+    },
+    {
+      "epoch": 0.40167865707434053,
+      "grad_norm": 36.58616370768613,
+      "learning_rate": 5e-06,
+      "loss": 0.9425,
+      "num_input_tokens_seen": 173696832,
+      "step": 1005
+    },
+    {
+      "epoch": 0.40167865707434053,
+      "loss": 1.347395896911621,
+      "loss_ce": 0.0066977087408304214,
+      "loss_xval": 1.34375,
+      "num_input_tokens_seen": 173696832,
+      "step": 1005
+    },
+    {
+      "epoch": 0.40207833733013587,
+      "grad_norm": 108.83892770229245,
+      "learning_rate": 5e-06,
+      "loss": 0.9874,
+      "num_input_tokens_seen": 173869728,
+      "step": 1006
+    },
+    {
+      "epoch": 0.40207833733013587,
+      "loss": 0.9585855007171631,
+      "loss_ce": 0.004667055793106556,
+      "loss_xval": 0.953125,
+      "num_input_tokens_seen": 173869728,
+      "step": 1006
+    },
+    {
+      "epoch": 0.40247801758593127,
+      "grad_norm": 29.57215095837664,
+      "learning_rate": 5e-06,
+      "loss": 0.6105,
+      "num_input_tokens_seen": 174042616,
+      "step": 1007
+    },
+    {
+      "epoch": 0.40247801758593127,
+      "loss": 0.6520742177963257,
+      "loss_ce": 0.006871582940220833,
+      "loss_xval": 0.64453125,
+      "num_input_tokens_seen": 174042616,
+      "step": 1007
+    },
+    {
+      "epoch": 0.4028776978417266,
+      "grad_norm": 153.84706487430793,
+      "learning_rate": 5e-06,
+      "loss": 0.657,
+      "num_input_tokens_seen": 174215280,
+      "step": 1008
+    },
+    {
+      "epoch": 0.4028776978417266,
+      "loss": 0.7333929538726807,
+      "loss_ce": 0.012934006750583649,
+      "loss_xval": 0.71875,
+      "num_input_tokens_seen": 174215280,
+      "step": 1008
+    },
+    {
+      "epoch": 0.403277378097522,
+      "grad_norm": 114.61737036027186,
+      "learning_rate": 5e-06,
+      "loss": 0.7579,
+      "num_input_tokens_seen": 174388264,
+      "step": 1009
+    },
+    {
+      "epoch": 0.403277378097522,
+      "loss": 0.525598406791687,
+      "loss_ce": 0.006250268779695034,
+      "loss_xval": 0.51953125,
+      "num_input_tokens_seen": 174388264,
+      "step": 1009
+    },
+    {
+      "epoch": 0.40367705835331735,
+      "grad_norm": 124.58554146445353,
+      "learning_rate": 5e-06,
+      "loss": 0.5623,
+      "num_input_tokens_seen": 174561424,
+      "step": 1010
+    },
+    {
+      "epoch": 0.40367705835331735,
+      "loss": 0.7112394571304321,
+      "loss_ce": 0.012814194895327091,
+      "loss_xval": 0.69921875,
+      "num_input_tokens_seen": 174561424,
+      "step": 1010
+    },
+    {
+      "epoch": 0.4040767386091127,
+      "grad_norm": 97.38895828742109,
+      "learning_rate": 5e-06,
+      "loss": 0.3995,
+      "num_input_tokens_seen": 174734472,
+      "step": 1011
+    },
+    {
+      "epoch": 0.4040767386091127,
+      "loss": 0.4527726471424103,
+      "loss_ce": 0.0054460205137729645,
+      "loss_xval": 0.447265625,
+      "num_input_tokens_seen": 174734472,
+      "step": 1011
+    },
+    {
+      "epoch": 0.4044764188649081,
+      "grad_norm": 39.357984950176494,
+      "learning_rate": 5e-06,
+      "loss": 0.6717,
+      "num_input_tokens_seen": 174907320,
+      "step": 1012
+    },
+    {
+      "epoch": 0.4044764188649081,
+      "loss": 0.7403974533081055,
+      "loss_ce": 0.009654035791754723,
+      "loss_xval": 0.73046875,
+      "num_input_tokens_seen": 174907320,
+      "step": 1012
+    },
+    {
+      "epoch": 0.40487609912070344,
+      "grad_norm": 43.49113942292695,
+      "learning_rate": 5e-06,
+      "loss": 0.648,
+      "num_input_tokens_seen": 175080416,
+      "step": 1013
+    },
+    {
+      "epoch": 0.40487609912070344,
+      "loss": 0.5626762509346008,
+      "loss_ce": 0.009941885247826576,
+      "loss_xval": 0.5546875,
+      "num_input_tokens_seen": 175080416,
+      "step": 1013
+    },
+    {
+      "epoch": 0.4052757793764988,
+      "grad_norm": 134.41500315087782,
+      "learning_rate": 5e-06,
+      "loss": 0.9411,
+      "num_input_tokens_seen": 175252992,
+      "step": 1014
+    },
+    {
+      "epoch": 0.4052757793764988,
+      "loss": 0.6051626801490784,
+      "loss_ce": 0.004698799457401037,
+      "loss_xval": 0.6015625,
+      "num_input_tokens_seen": 175252992,
+      "step": 1014
+    },
+    {
+      "epoch": 0.4056754596322942,
+      "grad_norm": 91.34613154118188,
+      "learning_rate": 5e-06,
+      "loss": 0.4441,
+      "num_input_tokens_seen": 175425760,
+      "step": 1015
+    },
+    {
+      "epoch": 0.4056754596322942,
+      "loss": 0.5284594297409058,
+      "loss_ce": 0.006120562553405762,
+      "loss_xval": 0.5234375,
+      "num_input_tokens_seen": 175425760,
+      "step": 1015
+    },
+    {
+      "epoch": 0.4060751398880895,
+      "grad_norm": 62.797149514317915,
+      "learning_rate": 5e-06,
+      "loss": 0.9974,
+      "num_input_tokens_seen": 175598784,
+      "step": 1016
+    },
+    {
+      "epoch": 0.4060751398880895,
+      "loss": 0.6914917826652527,
+      "loss_ce": 0.0069824811071157455,
+      "loss_xval": 0.68359375,
+      "num_input_tokens_seen": 175598784,
+      "step": 1016
+    },
+    {
+      "epoch": 0.4064748201438849,
+      "grad_norm": 68.01439644089561,
+      "learning_rate": 5e-06,
+      "loss": 0.6034,
+      "num_input_tokens_seen": 175771752,
+      "step": 1017
+    },
+    {
+      "epoch": 0.4064748201438849,
+      "loss": 0.7401469945907593,
+      "loss_ce": 0.005466855131089687,
+      "loss_xval": 0.734375,
+      "num_input_tokens_seen": 175771752,
+      "step": 1017
+    },
+    {
+      "epoch": 0.40687450039968026,
+      "grad_norm": 33.194237726138894,
+      "learning_rate": 5e-06,
+      "loss": 0.4104,
+      "num_input_tokens_seen": 175944448,
+      "step": 1018
+    },
+    {
+      "epoch": 0.40687450039968026,
+      "loss": 0.4032331705093384,
+      "loss_ce": 0.004368394613265991,
+      "loss_xval": 0.3984375,
+      "num_input_tokens_seen": 175944448,
+      "step": 1018
+    },
+    {
+      "epoch": 0.4072741806554756,
+      "grad_norm": 32.31623305090731,
+      "learning_rate": 5e-06,
+      "loss": 0.5535,
+      "num_input_tokens_seen": 176117224,
+      "step": 1019
+    },
+    {
+      "epoch": 0.4072741806554756,
+      "loss": 0.6844021081924438,
+      "loss_ce": 0.004104219377040863,
+      "loss_xval": 0.6796875,
+      "num_input_tokens_seen": 176117224,
+      "step": 1019
+    },
+    {
+      "epoch": 0.407673860911271,
+      "grad_norm": 69.88987283607364,
+      "learning_rate": 5e-06,
+      "loss": 0.5382,
+      "num_input_tokens_seen": 176290288,
+      "step": 1020
+    },
+    {
+      "epoch": 0.407673860911271,
+      "loss": 0.6937678456306458,
+      "loss_ce": 0.006511982996016741,
+      "loss_xval": 0.6875,
+      "num_input_tokens_seen": 176290288,
+      "step": 1020
+    },
+    {
+      "epoch": 0.40807354116706634,
+      "grad_norm": 49.12054277220987,
+      "learning_rate": 5e-06,
+      "loss": 0.7288,
+      "num_input_tokens_seen": 176463360,
+      "step": 1021
+    },
+    {
+      "epoch": 0.40807354116706634,
+      "loss": 0.8968067169189453,
+      "loss_ce": 0.005205155350267887,
+      "loss_xval": 0.890625,
+      "num_input_tokens_seen": 176463360,
+      "step": 1021
+    },
+    {
+      "epoch": 0.4084732214228617,
+      "grad_norm": 96.62921131568778,
+      "learning_rate": 5e-06,
+      "loss": 0.8582,
+      "num_input_tokens_seen": 176636272,
+      "step": 1022
+    },
+    {
+      "epoch": 0.4084732214228617,
+      "loss": 0.6188912987709045,
+      "loss_ce": 0.004145242273807526,
+      "loss_xval": 0.61328125,
+      "num_input_tokens_seen": 176636272,
+      "step": 1022
+    },
+    {
+      "epoch": 0.4088729016786571,
+      "grad_norm": 104.19761497471133,
+      "learning_rate": 5e-06,
+      "loss": 0.5969,
+      "num_input_tokens_seen": 176809416,
+      "step": 1023
+    },
+    {
+      "epoch": 0.4088729016786571,
+      "loss": 0.7266084551811218,
+      "loss_ce": 0.004013280384242535,
+      "loss_xval": 0.72265625,
+      "num_input_tokens_seen": 176809416,
+      "step": 1023
+    },
+    {
+      "epoch": 0.40927258193445243,
+      "grad_norm": 25.052045025077565,
+      "learning_rate": 5e-06,
+      "loss": 0.652,
+      "num_input_tokens_seen": 176982512,
+      "step": 1024
+    },
+    {
+      "epoch": 0.40927258193445243,
+      "loss": 0.4747720956802368,
+      "loss_ce": 0.0037638223730027676,
+      "loss_xval": 0.470703125,
+      "num_input_tokens_seen": 176982512,
+      "step": 1024
+    },
+    {
+      "epoch": 0.4096722621902478,
+      "grad_norm": 55.184447426888354,
+      "learning_rate": 5e-06,
+      "loss": 0.909,
+      "num_input_tokens_seen": 177155544,
+      "step": 1025
+    },
+    {
+      "epoch": 0.4096722621902478,
+      "loss": 1.211665153503418,
+      "loss_ce": 0.008418156765401363,
+      "loss_xval": 1.203125,
+      "num_input_tokens_seen": 177155544,
+      "step": 1025
+    },
+    {
+      "epoch": 0.41007194244604317,
+      "grad_norm": 51.43456903101215,
+      "learning_rate": 5e-06,
+      "loss": 0.4022,
+      "num_input_tokens_seen": 177328144,
+      "step": 1026
+    },
+    {
+      "epoch": 0.41007194244604317,
+      "loss": 0.3644227683544159,
+      "loss_ce": 0.003643968142569065,
+      "loss_xval": 0.361328125,
+      "num_input_tokens_seen": 177328144,
+      "step": 1026
+    },
+    {
+      "epoch": 0.4104716227018385,
+      "grad_norm": 38.349924787831824,
+      "learning_rate": 5e-06,
+      "loss": 0.6099,
+      "num_input_tokens_seen": 177500576,
+      "step": 1027
+    },
+    {
+      "epoch": 0.4104716227018385,
+      "loss": 0.46429070830345154,
+      "loss_ce": 0.005428393371403217,
+      "loss_xval": 0.458984375,
+      "num_input_tokens_seen": 177500576,
+      "step": 1027
+    },
+    {
+      "epoch": 0.4108713029576339,
+      "grad_norm": 81.99938062743149,
+      "learning_rate": 5e-06,
+      "loss": 0.4963,
+      "num_input_tokens_seen": 177673800,
+      "step": 1028
+    },
+    {
+      "epoch": 0.4108713029576339,
+      "loss": 0.27311575412750244,
+      "loss_ce": 0.0070024700835347176,
+      "loss_xval": 0.265625,
+      "num_input_tokens_seen": 177673800,
+      "step": 1028
+    },
+    {
+      "epoch": 0.41127098321342925,
+      "grad_norm": 60.9113505265921,
+      "learning_rate": 5e-06,
+      "loss": 0.6987,
+      "num_input_tokens_seen": 177846720,
+      "step": 1029
+    },
+    {
+      "epoch": 0.41127098321342925,
+      "loss": 0.8026575446128845,
+      "loss_ce": 0.0034326824825257063,
+      "loss_xval": 0.80078125,
+      "num_input_tokens_seen": 177846720,
+      "step": 1029
+    },
+    {
+      "epoch": 0.4116706634692246,
+      "grad_norm": 134.37290555496102,
+      "learning_rate": 5e-06,
+      "loss": 0.7379,
+      "num_input_tokens_seen": 178019584,
+      "step": 1030
+    },
+    {
+      "epoch": 0.4116706634692246,
+      "loss": 0.6104703545570374,
+      "loss_ce": 0.006893688812851906,
+      "loss_xval": 0.60546875,
+      "num_input_tokens_seen": 178019584,
+      "step": 1030
+    },
+    {
+      "epoch": 0.41207034372502,
+      "grad_norm": 116.92587445948755,
+      "learning_rate": 5e-06,
+      "loss": 0.5363,
+      "num_input_tokens_seen": 178192928,
+      "step": 1031
+    },
+    {
+      "epoch": 0.41207034372502,
+      "loss": 0.3673360347747803,
+      "loss_ce": 0.002956158248707652,
+      "loss_xval": 0.365234375,
+      "num_input_tokens_seen": 178192928,
+      "step": 1031
+    },
+    {
+      "epoch": 0.41247002398081534,
+      "grad_norm": 75.81443523599133,
+      "learning_rate": 5e-06,
+      "loss": 0.5552,
+      "num_input_tokens_seen": 178365992,
+      "step": 1032
+    },
+    {
+      "epoch": 0.41247002398081534,
+      "loss": 0.5825966596603394,
+      "loss_ce": 0.00911034271121025,
+      "loss_xval": 0.57421875,
+      "num_input_tokens_seen": 178365992,
+      "step": 1032
+    },
+    {
+      "epoch": 0.41286970423661074,
+      "grad_norm": 153.80297019873962,
+      "learning_rate": 5e-06,
+      "loss": 0.6214,
+      "num_input_tokens_seen": 178539008,
+      "step": 1033
+    },
+    {
+      "epoch": 0.41286970423661074,
+      "loss": 0.5666282773017883,
+      "loss_ce": 0.007546260487288237,
+      "loss_xval": 0.55859375,
+      "num_input_tokens_seen": 178539008,
+      "step": 1033
+    },
+    {
+      "epoch": 0.4132693844924061,
+      "grad_norm": 49.204697005620176,
+      "learning_rate": 5e-06,
+      "loss": 0.9595,
+      "num_input_tokens_seen": 178711328,
+      "step": 1034
+    },
+    {
+      "epoch": 0.4132693844924061,
+      "loss": 0.6298288106918335,
+      "loss_ce": 0.01019988302141428,
+      "loss_xval": 0.62109375,
+      "num_input_tokens_seen": 178711328,
+      "step": 1034
+    },
+    {
+      "epoch": 0.4136690647482014,
+      "grad_norm": 76.08084598570717,
+      "learning_rate": 5e-06,
+      "loss": 0.4532,
+      "num_input_tokens_seen": 178884104,
+      "step": 1035
+    },
+    {
+      "epoch": 0.4136690647482014,
+      "loss": 0.4612717032432556,
+      "loss_ce": 0.012480195611715317,
+      "loss_xval": 0.44921875,
+      "num_input_tokens_seen": 178884104,
+      "step": 1035
+    },
+    {
+      "epoch": 0.4140687450039968,
+      "grad_norm": 34.52904789226501,
+      "learning_rate": 5e-06,
+      "loss": 0.4644,
+      "num_input_tokens_seen": 179057048,
+      "step": 1036
+    },
+    {
+      "epoch": 0.4140687450039968,
+      "loss": 0.6084589958190918,
+      "loss_ce": 0.006713386625051498,
+      "loss_xval": 0.6015625,
+      "num_input_tokens_seen": 179057048,
+      "step": 1036
+    },
+    {
+      "epoch": 0.41446842525979216,
+      "grad_norm": 107.83231397269536,
+      "learning_rate": 5e-06,
+      "loss": 0.4973,
+      "num_input_tokens_seen": 179230376,
+      "step": 1037
+    },
+    {
+      "epoch": 0.41446842525979216,
+      "loss": 0.3456187844276428,
+      "loss_ce": 0.005652973428368568,
+      "loss_xval": 0.33984375,
+      "num_input_tokens_seen": 179230376,
+      "step": 1037
+    },
+    {
+      "epoch": 0.4148681055155875,
+      "grad_norm": 68.86144066104148,
+      "learning_rate": 5e-06,
+      "loss": 0.6048,
+      "num_input_tokens_seen": 179403320,
+      "step": 1038
+    },
+    {
+      "epoch": 0.4148681055155875,
+      "loss": 0.9780701398849487,
+      "loss_ce": 0.040020860731601715,
+      "loss_xval": 0.9375,
+      "num_input_tokens_seen": 179403320,
+      "step": 1038
+    },
+    {
+      "epoch": 0.4152677857713829,
+      "grad_norm": 29.2133368946288,
+      "learning_rate": 5e-06,
+      "loss": 0.64,
+      "num_input_tokens_seen": 179576152,
+      "step": 1039
+    },
+    {
+      "epoch": 0.4152677857713829,
+      "loss": 0.7152938842773438,
+      "loss_ce": 0.005577098578214645,
+      "loss_xval": 0.7109375,
+      "num_input_tokens_seen": 179576152,
+      "step": 1039
+    },
+    {
+      "epoch": 0.41566746602717825,
+      "grad_norm": 65.40652651781713,
+      "learning_rate": 5e-06,
+      "loss": 0.6278,
+      "num_input_tokens_seen": 179748936,
+      "step": 1040
+    },
+    {
+      "epoch": 0.41566746602717825,
+      "loss": 0.7276248931884766,
+      "loss_ce": 0.004358314909040928,
+      "loss_xval": 0.72265625,
+      "num_input_tokens_seen": 179748936,
+      "step": 1040
+    },
+    {
+      "epoch": 0.41606714628297364,
+      "grad_norm": 118.90984830416035,
+      "learning_rate": 5e-06,
+      "loss": 0.4819,
+      "num_input_tokens_seen": 179922080,
+      "step": 1041
+    },
+    {
+      "epoch": 0.41606714628297364,
+      "loss": 0.38193365931510925,
+      "loss_ce": 0.013891654089093208,
+      "loss_xval": 0.3671875,
+      "num_input_tokens_seen": 179922080,
+      "step": 1041
+    },
+    {
+      "epoch": 0.416466826538769,
+      "grad_norm": 56.73656107069961,
+      "learning_rate": 5e-06,
+      "loss": 0.5628,
+      "num_input_tokens_seen": 180094792,
+      "step": 1042
+    },
+    {
+      "epoch": 0.416466826538769,
+      "loss": 0.624241292476654,
+      "loss_ce": 0.005711013451218605,
+      "loss_xval": 0.6171875,
+      "num_input_tokens_seen": 180094792,
+      "step": 1042
+    },
+    {
+      "epoch": 0.41686650679456433,
+      "grad_norm": 161.1185485615042,
+      "learning_rate": 5e-06,
+      "loss": 0.5426,
+      "num_input_tokens_seen": 180267832,
+      "step": 1043
+    },
+    {
+      "epoch": 0.41686650679456433,
+      "loss": 0.41229158639907837,
+      "loss_ce": 0.003966381307691336,
+      "loss_xval": 0.408203125,
+      "num_input_tokens_seen": 180267832,
+      "step": 1043
+    },
+    {
+      "epoch": 0.4172661870503597,
+      "grad_norm": 78.0546420015716,
+      "learning_rate": 5e-06,
+      "loss": 0.4282,
+      "num_input_tokens_seen": 180440816,
+      "step": 1044
+    },
+    {
+      "epoch": 0.4172661870503597,
+      "loss": 0.4995594322681427,
+      "loss_ce": 0.020921722054481506,
+      "loss_xval": 0.478515625,
+      "num_input_tokens_seen": 180440816,
+      "step": 1044
+    },
+    {
+      "epoch": 0.41766586730615507,
+      "grad_norm": 115.85859991185649,
+      "learning_rate": 5e-06,
+      "loss": 0.7434,
+      "num_input_tokens_seen": 180613760,
+      "step": 1045
+    },
+    {
+      "epoch": 0.41766586730615507,
+      "loss": 0.4128772020339966,
+      "loss_ce": 0.005528563167899847,
+      "loss_xval": 0.408203125,
+      "num_input_tokens_seen": 180613760,
+      "step": 1045
+    },
+    {
+      "epoch": 0.4180655475619504,
+      "grad_norm": 122.32619412285479,
+      "learning_rate": 5e-06,
+      "loss": 0.7231,
+      "num_input_tokens_seen": 180786392,
+      "step": 1046
+    },
+    {
+      "epoch": 0.4180655475619504,
+      "loss": 0.42909038066864014,
+      "loss_ce": 0.00416360329836607,
+      "loss_xval": 0.42578125,
+      "num_input_tokens_seen": 180786392,
+      "step": 1046
+    },
+    {
+      "epoch": 0.4184652278177458,
+      "grad_norm": 74.33985091881948,
+      "learning_rate": 5e-06,
+      "loss": 0.6912,
+      "num_input_tokens_seen": 180959520,
+      "step": 1047
+    },
+    {
+      "epoch": 0.4184652278177458,
+      "loss": 0.4434017837047577,
+      "loss_ce": 0.006145905703306198,
+      "loss_xval": 0.4375,
+      "num_input_tokens_seen": 180959520,
+      "step": 1047
+    },
+    {
+      "epoch": 0.41886490807354115,
+      "grad_norm": 52.273984052094164,
+      "learning_rate": 5e-06,
+      "loss": 0.7557,
+      "num_input_tokens_seen": 181132584,
+      "step": 1048
+    },
+    {
+      "epoch": 0.41886490807354115,
+      "loss": 0.7552452087402344,
+      "loss_ce": 0.006557449232786894,
+      "loss_xval": 0.75,
+      "num_input_tokens_seen": 181132584,
+      "step": 1048
+    },
+    {
+      "epoch": 0.41926458832933655,
+      "grad_norm": 115.38168323853732,
+      "learning_rate": 5e-06,
+      "loss": 0.5297,
+      "num_input_tokens_seen": 181305200,
+      "step": 1049
+    },
+    {
+      "epoch": 0.41926458832933655,
+      "loss": 0.35102906823158264,
+      "loss_ce": 0.04145876318216324,
+      "loss_xval": 0.30859375,
+      "num_input_tokens_seen": 181305200,
+      "step": 1049
+    },
+    {
+      "epoch": 0.4196642685851319,
+      "grad_norm": 129.43468680045206,
+      "learning_rate": 5e-06,
+      "loss": 0.7044,
+      "num_input_tokens_seen": 181477832,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4196642685851319,
+      "loss": 0.7682023048400879,
+      "loss_ce": 0.005873220041394234,
+      "loss_xval": 0.76171875,
+      "num_input_tokens_seen": 181477832,
+      "step": 1050
+    },
+    {
+      "epoch": 0.42006394884092724,
+      "grad_norm": 84.3901351931311,
+      "learning_rate": 5e-06,
+      "loss": 0.5263,
+      "num_input_tokens_seen": 181650856,
+      "step": 1051
+    },
+    {
+      "epoch": 0.42006394884092724,
+      "loss": 0.20175260305404663,
+      "loss_ce": 0.005524573847651482,
+      "loss_xval": 0.1962890625,
+      "num_input_tokens_seen": 181650856,
+      "step": 1051
+    },
+    {
+      "epoch": 0.42046362909672264,
+      "grad_norm": 105.05979567930446,
+      "learning_rate": 5e-06,
+      "loss": 0.6799,
+      "num_input_tokens_seen": 181823832,
+      "step": 1052
+    },
+    {
+      "epoch": 0.42046362909672264,
+      "loss": 0.5329502820968628,
+      "loss_ce": 0.007681742776185274,
+      "loss_xval": 0.5234375,
+      "num_input_tokens_seen": 181823832,
+      "step": 1052
+    },
+    {
+      "epoch": 0.420863309352518,
+      "grad_norm": 141.7226731667635,
+      "learning_rate": 5e-06,
+      "loss": 0.6034,
+      "num_input_tokens_seen": 181997064,
+      "step": 1053
+    },
+    {
+      "epoch": 0.420863309352518,
+      "loss": 0.8590031862258911,
+      "loss_ce": 0.007928947918117046,
+      "loss_xval": 0.8515625,
+      "num_input_tokens_seen": 181997064,
+      "step": 1053
+    },
+    {
+      "epoch": 0.4212629896083134,
+      "grad_norm": 97.79244733216197,
+      "learning_rate": 5e-06,
+      "loss": 0.5302,
+      "num_input_tokens_seen": 182169840,
+      "step": 1054
+    },
+    {
+      "epoch": 0.4212629896083134,
+      "loss": 0.6665828227996826,
+      "loss_ce": 0.008318647742271423,
+      "loss_xval": 0.66015625,
+      "num_input_tokens_seen": 182169840,
+      "step": 1054
+    },
+    {
+      "epoch": 0.4216626698641087,
+      "grad_norm": 118.68763350662337,
+      "learning_rate": 5e-06,
+      "loss": 0.9278,
+      "num_input_tokens_seen": 182342800,
+      "step": 1055
+    },
+    {
+      "epoch": 0.4216626698641087,
+      "loss": 1.1125082969665527,
+      "loss_ce": 0.01094580627977848,
+      "loss_xval": 1.1015625,
+      "num_input_tokens_seen": 182342800,
+      "step": 1055
+    },
+    {
+      "epoch": 0.42206235011990406,
+      "grad_norm": 80.77252748394068,
+      "learning_rate": 5e-06,
+      "loss": 0.5525,
+      "num_input_tokens_seen": 182515448,
+      "step": 1056
+    },
+    {
+      "epoch": 0.42206235011990406,
+      "loss": 0.5583893656730652,
+      "loss_ce": 0.007119842804968357,
+      "loss_xval": 0.55078125,
+      "num_input_tokens_seen": 182515448,
+      "step": 1056
+    },
+    {
+      "epoch": 0.42246203037569946,
+      "grad_norm": 102.19393718382399,
+      "learning_rate": 5e-06,
+      "loss": 0.3007,
+      "num_input_tokens_seen": 182688632,
+      "step": 1057
+    },
+    {
+      "epoch": 0.42246203037569946,
+      "loss": 0.28939294815063477,
+      "loss_ce": 0.009790889918804169,
+      "loss_xval": 0.279296875,
+      "num_input_tokens_seen": 182688632,
+      "step": 1057
+    },
+    {
+      "epoch": 0.4228617106314948,
+      "grad_norm": 36.3098200607475,
+      "learning_rate": 5e-06,
+      "loss": 0.5062,
+      "num_input_tokens_seen": 182861544,
+      "step": 1058
+    },
+    {
+      "epoch": 0.4228617106314948,
+      "loss": 0.6533856391906738,
+      "loss_ce": 0.0076947640627622604,
+      "loss_xval": 0.64453125,
+      "num_input_tokens_seen": 182861544,
+      "step": 1058
+    },
+    {
+      "epoch": 0.42326139088729015,
+      "grad_norm": 172.13037659969413,
+      "learning_rate": 5e-06,
+      "loss": 0.593,
+      "num_input_tokens_seen": 183034432,
+      "step": 1059
+    },
+    {
+      "epoch": 0.42326139088729015,
+      "loss": 0.5093013048171997,
+      "loss_ce": 0.006615748163312674,
+      "loss_xval": 0.50390625,
+      "num_input_tokens_seen": 183034432,
+      "step": 1059
+    },
+    {
+      "epoch": 0.42366107114308554,
+      "grad_norm": 47.71558190089748,
+      "learning_rate": 5e-06,
+      "loss": 0.344,
+      "num_input_tokens_seen": 183207152,
+      "step": 1060
+    },
+    {
+      "epoch": 0.42366107114308554,
+      "loss": 0.24332204461097717,
+      "loss_ce": 0.0058342646807432175,
+      "loss_xval": 0.2373046875,
+      "num_input_tokens_seen": 183207152,
+      "step": 1060
+    },
+    {
+      "epoch": 0.4240607513988809,
+      "grad_norm": 225.7577370720187,
+      "learning_rate": 5e-06,
+      "loss": 0.8292,
+      "num_input_tokens_seen": 183380024,
+      "step": 1061
+    },
+    {
+      "epoch": 0.4240607513988809,
+      "loss": 1.1143964529037476,
+      "loss_ce": 0.006730412133038044,
+      "loss_xval": 1.109375,
+      "num_input_tokens_seen": 183380024,
+      "step": 1061
+    },
+    {
+      "epoch": 0.4244604316546763,
+      "grad_norm": 37.571367032139,
+      "learning_rate": 5e-06,
+      "loss": 0.5539,
+      "num_input_tokens_seen": 183553232,
+      "step": 1062
+    },
+    {
+      "epoch": 0.4244604316546763,
+      "loss": 0.7506046891212463,
+      "loss_ce": 0.004358367994427681,
+      "loss_xval": 0.74609375,
+      "num_input_tokens_seen": 183553232,
+      "step": 1062
+    },
+    {
+      "epoch": 0.4248601119104716,
+      "grad_norm": 147.5481344304394,
+      "learning_rate": 5e-06,
+      "loss": 0.6861,
+      "num_input_tokens_seen": 183726032,
+      "step": 1063
+    },
+    {
+      "epoch": 0.4248601119104716,
+      "loss": 0.6540185213088989,
+      "loss_ce": 0.007289969827979803,
+      "loss_xval": 0.6484375,
+      "num_input_tokens_seen": 183726032,
+      "step": 1063
+    },
+    {
+      "epoch": 0.42525979216626697,
+      "grad_norm": 82.0603792449001,
+      "learning_rate": 5e-06,
+      "loss": 0.5386,
+      "num_input_tokens_seen": 183898888,
+      "step": 1064
+    },
+    {
+      "epoch": 0.42525979216626697,
+      "loss": 0.5563596487045288,
+      "loss_ce": 0.007897760719060898,
+      "loss_xval": 0.546875,
+      "num_input_tokens_seen": 183898888,
+      "step": 1064
+    },
+    {
+      "epoch": 0.42565947242206237,
+      "grad_norm": 157.6689432477122,
+      "learning_rate": 5e-06,
+      "loss": 0.765,
+      "num_input_tokens_seen": 184071656,
+      "step": 1065
+    },
+    {
+      "epoch": 0.42565947242206237,
+      "loss": 0.8480945825576782,
+      "loss_ce": 0.007274296134710312,
+      "loss_xval": 0.83984375,
+      "num_input_tokens_seen": 184071656,
+      "step": 1065
+    },
+    {
+      "epoch": 0.4260591526778577,
+      "grad_norm": 73.92092672975159,
+      "learning_rate": 5e-06,
+      "loss": 0.6531,
+      "num_input_tokens_seen": 184244448,
+      "step": 1066
+    },
+    {
+      "epoch": 0.4260591526778577,
+      "loss": 0.43375566601753235,
+      "loss_ce": 0.00882891844958067,
+      "loss_xval": 0.42578125,
+      "num_input_tokens_seen": 184244448,
+      "step": 1066
+    },
+    {
+      "epoch": 0.42645883293365305,
+      "grad_norm": 137.83919435792907,
+      "learning_rate": 5e-06,
+      "loss": 0.7066,
+      "num_input_tokens_seen": 184417704,
+      "step": 1067
+    },
+    {
+      "epoch": 0.42645883293365305,
+      "loss": 0.5617185235023499,
+      "loss_ce": 0.009838663972914219,
+      "loss_xval": 0.55078125,
+      "num_input_tokens_seen": 184417704,
+      "step": 1067
+    },
+    {
+      "epoch": 0.42685851318944845,
+      "grad_norm": 12.10364180031393,
+      "learning_rate": 5e-06,
+      "loss": 0.5337,
+      "num_input_tokens_seen": 184590944,
+      "step": 1068
+    },
+    {
+      "epoch": 0.42685851318944845,
+      "loss": 0.6997219920158386,
+      "loss_ce": 0.006026932038366795,
+      "loss_xval": 0.6953125,
+      "num_input_tokens_seen": 184590944,
+      "step": 1068
+    },
+    {
+      "epoch": 0.4272581934452438,
+      "grad_norm": 97.7581622286511,
+      "learning_rate": 5e-06,
+      "loss": 0.4564,
+      "num_input_tokens_seen": 184763904,
+      "step": 1069
+    },
+    {
+      "epoch": 0.4272581934452438,
+      "loss": 0.5520721673965454,
+      "loss_ce": 0.007485995534807444,
+      "loss_xval": 0.54296875,
+      "num_input_tokens_seen": 184763904,
+      "step": 1069
+    },
+    {
+      "epoch": 0.4276578737010392,
+      "grad_norm": 44.525008948363784,
+      "learning_rate": 5e-06,
+      "loss": 0.5811,
+      "num_input_tokens_seen": 184936952,
+      "step": 1070
+    },
+    {
+      "epoch": 0.4276578737010392,
+      "loss": 0.7966837882995605,
+      "loss_ce": 0.01567797176539898,
+      "loss_xval": 0.78125,
+      "num_input_tokens_seen": 184936952,
+      "step": 1070
+    },
+    {
+      "epoch": 0.42805755395683454,
+      "grad_norm": 61.55085629886339,
+      "learning_rate": 5e-06,
+      "loss": 0.5968,
+      "num_input_tokens_seen": 185109752,
+      "step": 1071
+    },
+    {
+      "epoch": 0.42805755395683454,
+      "loss": 0.614800214767456,
+      "loss_ce": 0.005913465283811092,
+      "loss_xval": 0.609375,
+      "num_input_tokens_seen": 185109752,
+      "step": 1071
+    },
+    {
+      "epoch": 0.4284572342126299,
+      "grad_norm": 127.48039438818263,
+      "learning_rate": 5e-06,
+      "loss": 0.981,
+      "num_input_tokens_seen": 185282904,
+      "step": 1072
+    },
+    {
+      "epoch": 0.4284572342126299,
+      "loss": 1.1177836656570435,
+      "loss_ce": 0.0068827904760837555,
+      "loss_xval": 1.109375,
+      "num_input_tokens_seen": 185282904,
+      "step": 1072
+    },
+    {
+      "epoch": 0.4288569144684253,
+      "grad_norm": 101.69167477228902,
+      "learning_rate": 5e-06,
+      "loss": 0.5908,
+      "num_input_tokens_seen": 185455960,
+      "step": 1073
+    },
+    {
+      "epoch": 0.4288569144684253,
+      "loss": 0.5060060620307922,
+      "loss_ce": 0.014306841418147087,
+      "loss_xval": 0.4921875,
+      "num_input_tokens_seen": 185455960,
+      "step": 1073
+    },
+    {
+      "epoch": 0.4292565947242206,
+      "grad_norm": 79.52330036933225,
+      "learning_rate": 5e-06,
+      "loss": 0.7136,
+      "num_input_tokens_seen": 185628528,
+      "step": 1074
+    },
+    {
+      "epoch": 0.4292565947242206,
+      "loss": 0.9773727655410767,
+      "loss_ce": 0.010301224887371063,
+      "loss_xval": 0.96875,
+      "num_input_tokens_seen": 185628528,
+      "step": 1074
+    },
+    {
+      "epoch": 0.42965627498001596,
+      "grad_norm": 59.63539541971929,
+      "learning_rate": 5e-06,
+      "loss": 0.659,
+      "num_input_tokens_seen": 185801848,
+      "step": 1075
+    },
+    {
+      "epoch": 0.42965627498001596,
+      "loss": 1.030850887298584,
+      "loss_ce": 0.008054335601627827,
+      "loss_xval": 1.0234375,
+      "num_input_tokens_seen": 185801848,
+      "step": 1075
+    },
+    {
+      "epoch": 0.43005595523581136,
+      "grad_norm": 98.38438903473731,
+      "learning_rate": 5e-06,
+      "loss": 0.5859,
+      "num_input_tokens_seen": 185974824,
+      "step": 1076
+    },
+    {
+      "epoch": 0.43005595523581136,
+      "loss": 0.6300668716430664,
+      "loss_ce": 0.009705590084195137,
+      "loss_xval": 0.62109375,
+      "num_input_tokens_seen": 185974824,
+      "step": 1076
+    },
+    {
+      "epoch": 0.4304556354916067,
+      "grad_norm": 83.65142565563072,
+      "learning_rate": 5e-06,
+      "loss": 0.4725,
+      "num_input_tokens_seen": 186147832,
+      "step": 1077
+    },
+    {
+      "epoch": 0.4304556354916067,
+      "loss": 0.40116894245147705,
+      "loss_ce": 0.005661151837557554,
+      "loss_xval": 0.39453125,
+      "num_input_tokens_seen": 186147832,
+      "step": 1077
+    },
+    {
+      "epoch": 0.4308553157474021,
+      "grad_norm": 118.49626901189295,
+      "learning_rate": 5e-06,
+      "loss": 0.7388,
+      "num_input_tokens_seen": 186321064,
+      "step": 1078
+    },
+    {
+      "epoch": 0.4308553157474021,
+      "loss": 0.876869797706604,
+      "loss_ce": 0.005531886592507362,
+      "loss_xval": 0.87109375,
+      "num_input_tokens_seen": 186321064,
+      "step": 1078
+    },
+    {
+      "epoch": 0.43125499600319744,
+      "grad_norm": 109.09146812364261,
+      "learning_rate": 5e-06,
+      "loss": 0.5597,
+      "num_input_tokens_seen": 186493784,
+      "step": 1079
+    },
+    {
+      "epoch": 0.43125499600319744,
+      "loss": 0.3077165484428406,
+      "loss_ce": 0.014015364460647106,
+      "loss_xval": 0.29296875,
+      "num_input_tokens_seen": 186493784,
+      "step": 1079
+    },
+    {
+      "epoch": 0.4316546762589928,
+      "grad_norm": 153.6208097109895,
+      "learning_rate": 5e-06,
+      "loss": 0.659,
+      "num_input_tokens_seen": 186666760,
+      "step": 1080
+    },
+    {
+      "epoch": 0.4316546762589928,
+      "loss": 0.7934675216674805,
+      "loss_ce": 0.0073347436264157295,
+      "loss_xval": 0.78515625,
+      "num_input_tokens_seen": 186666760,
+      "step": 1080
+    },
+    {
+      "epoch": 0.4320543565147882,
+      "grad_norm": 104.55460590207808,
+      "learning_rate": 5e-06,
+      "loss": 0.533,
+      "num_input_tokens_seen": 186839760,
+      "step": 1081
+    },
+    {
+      "epoch": 0.4320543565147882,
+      "loss": 0.6861118078231812,
+      "loss_ce": 0.011856443248689175,
+      "loss_xval": 0.67578125,
+      "num_input_tokens_seen": 186839760,
+      "step": 1081
+    },
+    {
+      "epoch": 0.4324540367705835,
+      "grad_norm": 163.00494027996143,
+      "learning_rate": 5e-06,
+      "loss": 0.5373,
+      "num_input_tokens_seen": 187013040,
+      "step": 1082
+    },
+    {
+      "epoch": 0.4324540367705835,
+      "loss": 0.47731196880340576,
+      "loss_ce": 0.005754363723099232,
+      "loss_xval": 0.470703125,
+      "num_input_tokens_seen": 187013040,
+      "step": 1082
+    },
+    {
+      "epoch": 0.43285371702637887,
+      "grad_norm": 56.689099954633605,
+      "learning_rate": 5e-06,
+      "loss": 0.5203,
+      "num_input_tokens_seen": 187186120,
+      "step": 1083
+    },
+    {
+      "epoch": 0.43285371702637887,
+      "loss": 0.4869546592235565,
+      "loss_ce": 0.004288674332201481,
+      "loss_xval": 0.482421875,
+      "num_input_tokens_seen": 187186120,
+      "step": 1083
+    },
+    {
+      "epoch": 0.43325339728217427,
+      "grad_norm": 130.52361059914816,
+      "learning_rate": 5e-06,
+      "loss": 0.4672,
+      "num_input_tokens_seen": 187359432,
+      "step": 1084
+    },
+    {
+      "epoch": 0.43325339728217427,
+      "loss": 0.3323134183883667,
+      "loss_ce": 0.005409114994108677,
+      "loss_xval": 0.326171875,
+      "num_input_tokens_seen": 187359432,
+      "step": 1084
+    },
+    {
+      "epoch": 0.4336530775379696,
+      "grad_norm": 41.52331087326012,
+      "learning_rate": 5e-06,
+      "loss": 0.297,
+      "num_input_tokens_seen": 187532856,
+      "step": 1085
+    },
+    {
+      "epoch": 0.4336530775379696,
+      "loss": 0.14482995867729187,
+      "loss_ce": 0.009652344509959221,
+      "loss_xval": 0.134765625,
+      "num_input_tokens_seen": 187532856,
+      "step": 1085
+    },
+    {
+      "epoch": 0.434052757793765,
+      "grad_norm": 93.52508988364698,
+      "learning_rate": 5e-06,
+      "loss": 0.578,
+      "num_input_tokens_seen": 187705944,
+      "step": 1086
+    },
+    {
+      "epoch": 0.434052757793765,
+      "loss": 0.5481054186820984,
+      "loss_ce": 0.00513664074242115,
+      "loss_xval": 0.54296875,
+      "num_input_tokens_seen": 187705944,
+      "step": 1086
+    },
+    {
+      "epoch": 0.43445243804956035,
+      "grad_norm": 80.0157216132746,
+      "learning_rate": 5e-06,
+      "loss": 0.6773,
+      "num_input_tokens_seen": 187878896,
+      "step": 1087
+    },
+    {
+      "epoch": 0.43445243804956035,
+      "loss": 0.5329375267028809,
+      "loss_ce": 0.009744150564074516,
+      "loss_xval": 0.5234375,
+      "num_input_tokens_seen": 187878896,
+      "step": 1087
+    },
+    {
+      "epoch": 0.4348521183053557,
+      "grad_norm": 80.72326753655868,
+      "learning_rate": 5e-06,
+      "loss": 0.5067,
+      "num_input_tokens_seen": 188051976,
+      "step": 1088
+    },
+    {
+      "epoch": 0.4348521183053557,
+      "loss": 0.39130324125289917,
+      "loss_ce": 0.011908696964383125,
+      "loss_xval": 0.37890625,
+      "num_input_tokens_seen": 188051976,
+      "step": 1088
+    },
+    {
+      "epoch": 0.4352517985611511,
+      "grad_norm": 93.34175906908915,
+      "learning_rate": 5e-06,
+      "loss": 0.4928,
+      "num_input_tokens_seen": 188224992,
+      "step": 1089
+    },
+    {
+      "epoch": 0.4352517985611511,
+      "loss": 0.6273799538612366,
+      "loss_ce": 0.007751064375042915,
+      "loss_xval": 0.62109375,
+      "num_input_tokens_seen": 188224992,
+      "step": 1089
+    },
+    {
+      "epoch": 0.43565147881694644,
+      "grad_norm": 87.97360717139733,
+      "learning_rate": 5e-06,
+      "loss": 0.8327,
+      "num_input_tokens_seen": 188397832,
+      "step": 1090
+    },
+    {
+      "epoch": 0.43565147881694644,
+      "loss": 1.0488063097000122,
+      "loss_ce": 0.006386911030858755,
+      "loss_xval": 1.0390625,
+      "num_input_tokens_seen": 188397832,
+      "step": 1090
+    },
+    {
+      "epoch": 0.43605115907274183,
+      "grad_norm": 95.46249626601698,
+      "learning_rate": 5e-06,
+      "loss": 0.4634,
+      "num_input_tokens_seen": 188570840,
+      "step": 1091
+    },
+    {
+      "epoch": 0.43605115907274183,
+      "loss": 0.4953336715698242,
+      "loss_ce": 0.010622961446642876,
+      "loss_xval": 0.484375,
+      "num_input_tokens_seen": 188570840,
+      "step": 1091
+    },
+    {
+      "epoch": 0.4364508393285372,
+      "grad_norm": 78.63885250463996,
+      "learning_rate": 5e-06,
+      "loss": 0.938,
+      "num_input_tokens_seen": 188740200,
+      "step": 1092
+    },
+    {
+      "epoch": 0.4364508393285372,
+      "loss": 0.8642194271087646,
+      "loss_ce": 0.007529974915087223,
+      "loss_xval": 0.85546875,
+      "num_input_tokens_seen": 188740200,
+      "step": 1092
+    },
+    {
+      "epoch": 0.4368505195843325,
+      "grad_norm": 43.144393557301015,
+      "learning_rate": 5e-06,
+      "loss": 0.3254,
+      "num_input_tokens_seen": 188913096,
+      "step": 1093
+    },
+    {
+      "epoch": 0.4368505195843325,
+      "loss": 0.3359166979789734,
+      "loss_ce": 0.007486535236239433,
+      "loss_xval": 0.328125,
+      "num_input_tokens_seen": 188913096,
+      "step": 1093
+    },
+    {
+      "epoch": 0.4372501998401279,
+      "grad_norm": 40.822521318289155,
+      "learning_rate": 5e-06,
+      "loss": 0.6592,
+      "num_input_tokens_seen": 189085696,
+      "step": 1094
+    },
+    {
+      "epoch": 0.4372501998401279,
+      "loss": 0.490889310836792,
+      "loss_ce": 0.007735013496130705,
+      "loss_xval": 0.482421875,
+      "num_input_tokens_seen": 189085696,
+      "step": 1094
+    },
+    {
+      "epoch": 0.43764988009592326,
+      "grad_norm": 35.439525893578136,
+      "learning_rate": 5e-06,
+      "loss": 0.4484,
+      "num_input_tokens_seen": 189258752,
+      "step": 1095
+    },
+    {
+      "epoch": 0.43764988009592326,
+      "loss": 0.5019693374633789,
+      "loss_ce": 0.00807284377515316,
+      "loss_xval": 0.494140625,
+      "num_input_tokens_seen": 189258752,
+      "step": 1095
+    },
+    {
+      "epoch": 0.4380495603517186,
+      "grad_norm": 54.20083299822031,
+      "learning_rate": 5e-06,
+      "loss": 0.4249,
+      "num_input_tokens_seen": 189431568,
+      "step": 1096
+    },
+    {
+      "epoch": 0.4380495603517186,
+      "loss": 0.49263429641723633,
+      "loss_ce": 0.006062053143978119,
+      "loss_xval": 0.486328125,
+      "num_input_tokens_seen": 189431568,
+      "step": 1096
+    },
+    {
+      "epoch": 0.438449240607514,
+      "grad_norm": 41.375718060440676,
+      "learning_rate": 5e-06,
+      "loss": 0.4014,
+      "num_input_tokens_seen": 189604344,
+      "step": 1097
+    },
+    {
+      "epoch": 0.438449240607514,
+      "loss": 0.5682648420333862,
+      "loss_ce": 0.00735173374414444,
+      "loss_xval": 0.5625,
+      "num_input_tokens_seen": 189604344,
+      "step": 1097
+    },
+    {
+      "epoch": 0.43884892086330934,
+      "grad_norm": 68.92925320134385,
+      "learning_rate": 5e-06,
+      "loss": 0.6919,
+      "num_input_tokens_seen": 189777200,
+      "step": 1098
+    },
+    {
+      "epoch": 0.43884892086330934,
+      "loss": 0.9103479385375977,
+      "loss_ce": 0.00611207727342844,
+      "loss_xval": 0.90234375,
+      "num_input_tokens_seen": 189777200,
+      "step": 1098
+    },
+    {
+      "epoch": 0.43924860111910474,
+      "grad_norm": 87.815067117457,
+      "learning_rate": 5e-06,
+      "loss": 0.6971,
+      "num_input_tokens_seen": 189950504,
+      "step": 1099
+    },
+    {
+      "epoch": 0.43924860111910474,
+      "loss": 0.8111795783042908,
+      "loss_ce": 0.009421739727258682,
+      "loss_xval": 0.80078125,
+      "num_input_tokens_seen": 189950504,
+      "step": 1099
+    },
+    {
+      "epoch": 0.4396482813749001,
+      "grad_norm": 72.59872907713559,
+      "learning_rate": 5e-06,
+      "loss": 0.7176,
+      "num_input_tokens_seen": 190123456,
+      "step": 1100
+    },
+    {
+      "epoch": 0.4396482813749001,
+      "loss": 0.6115920543670654,
+      "loss_ce": 0.004917819052934647,
+      "loss_xval": 0.60546875,
+      "num_input_tokens_seen": 190123456,
+      "step": 1100
+    },
+    {
+      "epoch": 0.44004796163069543,
+      "grad_norm": 43.80495265395074,
+      "learning_rate": 5e-06,
+      "loss": 0.398,
+      "num_input_tokens_seen": 190296440,
+      "step": 1101
+    },
+    {
+      "epoch": 0.44004796163069543,
+      "loss": 0.44945085048675537,
+      "loss_ce": 0.010089308023452759,
+      "loss_xval": 0.439453125,
+      "num_input_tokens_seen": 190296440,
+      "step": 1101
+    },
+    {
+      "epoch": 0.4404476418864908,
+      "grad_norm": 43.888561938956094,
+      "learning_rate": 5e-06,
+      "loss": 0.5756,
+      "num_input_tokens_seen": 190469448,
+      "step": 1102
+    },
+    {
+      "epoch": 0.4404476418864908,
+      "loss": 0.34963488578796387,
+      "loss_ce": 0.009516467340290546,
+      "loss_xval": 0.33984375,
+      "num_input_tokens_seen": 190469448,
+      "step": 1102
+    },
+    {
+      "epoch": 0.44084732214228617,
+      "grad_norm": 53.76726245558171,
+      "learning_rate": 5e-06,
+      "loss": 0.5227,
+      "num_input_tokens_seen": 190639032,
+      "step": 1103
+    },
+    {
+      "epoch": 0.44084732214228617,
+      "loss": 0.42856094241142273,
+      "loss_ce": 0.003573148977011442,
+      "loss_xval": 0.42578125,
+      "num_input_tokens_seen": 190639032,
+      "step": 1103
+    },
+    {
+      "epoch": 0.4412470023980815,
+      "grad_norm": 52.770932080369946,
+      "learning_rate": 5e-06,
+      "loss": 0.639,
+      "num_input_tokens_seen": 190811968,
+      "step": 1104
+    },
+    {
+      "epoch": 0.4412470023980815,
+      "loss": 0.8563051819801331,
+      "loss_ce": 0.00498683238402009,
+      "loss_xval": 0.8515625,
+      "num_input_tokens_seen": 190811968,
+      "step": 1104
+    },
+    {
+      "epoch": 0.4416466826538769,
+      "grad_norm": 108.72621992851067,
+      "learning_rate": 5e-06,
+      "loss": 0.6654,
+      "num_input_tokens_seen": 190984856,
+      "step": 1105
+    },
+    {
+      "epoch": 0.4416466826538769,
+      "loss": 0.4479440748691559,
+      "loss_ce": 0.012885487638413906,
+      "loss_xval": 0.435546875,
+      "num_input_tokens_seen": 190984856,
+      "step": 1105
+    },
+    {
+      "epoch": 0.44204636290967225,
+      "grad_norm": 57.656324232108965,
+      "learning_rate": 5e-06,
+      "loss": 0.3461,
+      "num_input_tokens_seen": 191157688,
+      "step": 1106
+    },
+    {
+      "epoch": 0.44204636290967225,
+      "loss": 0.3032693564891815,
+      "loss_ce": 0.004014000296592712,
+      "loss_xval": 0.298828125,
+      "num_input_tokens_seen": 191157688,
+      "step": 1106
+    },
+    {
+      "epoch": 0.44244604316546765,
+      "grad_norm": 55.89449040965285,
+      "learning_rate": 5e-06,
+      "loss": 0.5353,
+      "num_input_tokens_seen": 191330880,
+      "step": 1107
+    },
+    {
+      "epoch": 0.44244604316546765,
+      "loss": 0.45665621757507324,
+      "loss_ce": 0.010245123878121376,
+      "loss_xval": 0.447265625,
+      "num_input_tokens_seen": 191330880,
+      "step": 1107
+    },
+    {
+      "epoch": 0.442845723421263,
+      "grad_norm": 94.95423178563114,
+      "learning_rate": 5e-06,
+      "loss": 0.3389,
+      "num_input_tokens_seen": 191503792,
+      "step": 1108
+    },
+    {
+      "epoch": 0.442845723421263,
+      "loss": 0.40393486618995667,
+      "loss_ce": 0.009342581033706665,
+      "loss_xval": 0.39453125,
+      "num_input_tokens_seen": 191503792,
+      "step": 1108
+    },
+    {
+      "epoch": 0.44324540367705834,
+      "grad_norm": 78.28345803795365,
+      "learning_rate": 5e-06,
+      "loss": 0.6797,
+      "num_input_tokens_seen": 191676888,
+      "step": 1109
+    },
+    {
+      "epoch": 0.44324540367705834,
+      "loss": 0.7096420526504517,
+      "loss_ce": 0.00401464244350791,
+      "loss_xval": 0.70703125,
+      "num_input_tokens_seen": 191676888,
+      "step": 1109
+    },
+    {
+      "epoch": 0.44364508393285373,
+      "grad_norm": 61.34569052749395,
+      "learning_rate": 5e-06,
+      "loss": 0.4274,
+      "num_input_tokens_seen": 191850256,
+      "step": 1110
+    },
+    {
+      "epoch": 0.44364508393285373,
+      "loss": 0.44284114241600037,
+      "loss_ce": 0.004608696326613426,
+      "loss_xval": 0.4375,
+      "num_input_tokens_seen": 191850256,
+      "step": 1110
+    },
+    {
+      "epoch": 0.4440447641886491,
+      "grad_norm": 81.82998770177993,
+      "learning_rate": 5e-06,
+      "loss": 0.586,
+      "num_input_tokens_seen": 192023160,
+      "step": 1111
+    },
+    {
+      "epoch": 0.4440447641886491,
+      "loss": 0.41691532731056213,
+      "loss_ce": 0.0032190163619816303,
+      "loss_xval": 0.4140625,
+      "num_input_tokens_seen": 192023160,
+      "step": 1111
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 56.85534103714712,
+      "learning_rate": 5e-06,
+      "loss": 0.84,
+      "num_input_tokens_seen": 192196264,
+      "step": 1112
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "loss": 0.5856711268424988,
+      "loss_ce": 0.0033957427367568016,
+      "loss_xval": 0.58203125,
+      "num_input_tokens_seen": 192196264,
+      "step": 1112
+    },
+    {
+      "epoch": 0.4448441247002398,
+      "grad_norm": 53.319073892773986,
+      "learning_rate": 5e-06,
+      "loss": 0.5192,
+      "num_input_tokens_seen": 192369400,
+      "step": 1113
+    },
+    {
+      "epoch": 0.4448441247002398,
+      "loss": 0.6779003143310547,
+      "loss_ce": 0.007734273560345173,
+      "loss_xval": 0.671875,
+      "num_input_tokens_seen": 192369400,
+      "step": 1113
+    },
+    {
+      "epoch": 0.44524380495603516,
+      "grad_norm": 53.64924867403011,
+      "learning_rate": 5e-06,
+      "loss": 0.7078,
+      "num_input_tokens_seen": 192542208,
+      "step": 1114
+    },
+    {
+      "epoch": 0.44524380495603516,
+      "loss": 0.7112681865692139,
+      "loss_ce": 0.004114857874810696,
+      "loss_xval": 0.70703125,
+      "num_input_tokens_seen": 192542208,
+      "step": 1114
+    },
+    {
+      "epoch": 0.44564348521183056,
+      "grad_norm": 94.76319006567356,
+      "learning_rate": 5e-06,
+      "loss": 0.8391,
+      "num_input_tokens_seen": 192714968,
+      "step": 1115
+    },
+    {
+      "epoch": 0.44564348521183056,
+      "loss": 0.9513822793960571,
+      "loss_ce": 0.006313872057944536,
+      "loss_xval": 0.9453125,
+      "num_input_tokens_seen": 192714968,
+      "step": 1115
+    },
+    {
+      "epoch": 0.4460431654676259,
+      "grad_norm": 32.46405483729325,
+      "learning_rate": 5e-06,
+      "loss": 0.698,
+      "num_input_tokens_seen": 192887824,
+      "step": 1116
+    },
+    {
+      "epoch": 0.4460431654676259,
+      "loss": 0.3914491534233093,
+      "loss_ce": 0.00399797223508358,
+      "loss_xval": 0.38671875,
+      "num_input_tokens_seen": 192887824,
+      "step": 1116
+    },
+    {
+      "epoch": 0.44644284572342124,
+      "grad_norm": 86.48967997737158,
+      "learning_rate": 5e-06,
+      "loss": 0.649,
+      "num_input_tokens_seen": 193061072,
+      "step": 1117
+    },
+    {
+      "epoch": 0.44644284572342124,
+      "loss": 0.6223208904266357,
+      "loss_ce": 0.003363374387845397,
+      "loss_xval": 0.6171875,
+      "num_input_tokens_seen": 193061072,
+      "step": 1117
+    },
+    {
+      "epoch": 0.44684252597921664,
+      "grad_norm": 31.61585246517527,
+      "learning_rate": 5e-06,
+      "loss": 0.8002,
+      "num_input_tokens_seen": 193234224,
+      "step": 1118
+    },
+    {
+      "epoch": 0.44684252597921664,
+      "loss": 0.7989094257354736,
+      "loss_ce": 0.004201183095574379,
+      "loss_xval": 0.79296875,
+      "num_input_tokens_seen": 193234224,
+      "step": 1118
+    },
+    {
+      "epoch": 0.447242206235012,
+      "grad_norm": 74.71859039399737,
+      "learning_rate": 5e-06,
+      "loss": 0.6386,
+      "num_input_tokens_seen": 193406944,
+      "step": 1119
+    },
+    {
+      "epoch": 0.447242206235012,
+      "loss": 0.7952804565429688,
+      "loss_ce": 0.004783664830029011,
+      "loss_xval": 0.7890625,
+      "num_input_tokens_seen": 193406944,
+      "step": 1119
+    },
+    {
+      "epoch": 0.44764188649080733,
+      "grad_norm": 67.74121508591531,
+      "learning_rate": 5e-06,
+      "loss": 0.9679,
+      "num_input_tokens_seen": 193579568,
+      "step": 1120
+    },
+    {
+      "epoch": 0.44764188649080733,
+      "loss": 1.1605088710784912,
+      "loss_ce": 0.004624995868653059,
+      "loss_xval": 1.15625,
+      "num_input_tokens_seen": 193579568,
+      "step": 1120
+    },
+    {
+      "epoch": 0.4480415667466027,
+      "grad_norm": 159.3426492178321,
+      "learning_rate": 5e-06,
+      "loss": 0.6493,
+      "num_input_tokens_seen": 193752760,
+      "step": 1121
+    },
+    {
+      "epoch": 0.4480415667466027,
+      "loss": 0.7691453695297241,
+      "loss_ce": 0.009623829275369644,
+      "loss_xval": 0.7578125,
+      "num_input_tokens_seen": 193752760,
+      "step": 1121
+    },
+    {
+      "epoch": 0.44844124700239807,
+      "grad_norm": 19.412155259998478,
+      "learning_rate": 5e-06,
+      "loss": 0.4257,
+      "num_input_tokens_seen": 193925760,
+      "step": 1122
+    },
+    {
+      "epoch": 0.44844124700239807,
+      "loss": 0.35129088163375854,
+      "loss_ce": 0.019381720572710037,
+      "loss_xval": 0.33203125,
+      "num_input_tokens_seen": 193925760,
+      "step": 1122
+    },
+    {
+      "epoch": 0.44884092725819347,
+      "grad_norm": 132.37602488962582,
+      "learning_rate": 5e-06,
+      "loss": 0.6866,
+      "num_input_tokens_seen": 194098728,
+      "step": 1123
+    },
+    {
+      "epoch": 0.44884092725819347,
+      "loss": 0.681769847869873,
+      "loss_ce": 0.011481714434921741,
+      "loss_xval": 0.671875,
+      "num_input_tokens_seen": 194098728,
+      "step": 1123
+    },
+    {
+      "epoch": 0.4492406075139888,
+      "grad_norm": 56.93257373319191,
+      "learning_rate": 5e-06,
+      "loss": 0.4694,
+      "num_input_tokens_seen": 194271896,
+      "step": 1124
+    },
+    {
+      "epoch": 0.4492406075139888,
+      "loss": 0.3968222737312317,
+      "loss_ce": 0.008516602218151093,
+      "loss_xval": 0.388671875,
+      "num_input_tokens_seen": 194271896,
+      "step": 1124
+    },
+    {
+      "epoch": 0.44964028776978415,
+      "grad_norm": 141.95283709265078,
+      "learning_rate": 5e-06,
+      "loss": 0.4908,
+      "num_input_tokens_seen": 194444824,
+      "step": 1125
+    },
+    {
+      "epoch": 0.44964028776978415,
+      "loss": 0.46788841485977173,
+      "loss_ce": 0.005364010110497475,
+      "loss_xval": 0.462890625,
+      "num_input_tokens_seen": 194444824,
+      "step": 1125
+    },
+    {
+      "epoch": 0.45003996802557955,
+      "grad_norm": 74.83771643983036,
+      "learning_rate": 5e-06,
+      "loss": 0.6375,
+      "num_input_tokens_seen": 194614360,
+      "step": 1126
+    },
+    {
+      "epoch": 0.45003996802557955,
+      "loss": 0.42517510056495667,
+      "loss_ce": 0.006016166415065527,
+      "loss_xval": 0.419921875,
+      "num_input_tokens_seen": 194614360,
+      "step": 1126
+    },
+    {
+      "epoch": 0.4504396482813749,
+      "grad_norm": 89.4636056566743,
+      "learning_rate": 5e-06,
+      "loss": 0.7524,
+      "num_input_tokens_seen": 194786968,
+      "step": 1127
+    },
+    {
+      "epoch": 0.4504396482813749,
+      "loss": 0.8362482190132141,
+      "loss_ce": 0.0059259673580527306,
+      "loss_xval": 0.83203125,
+      "num_input_tokens_seen": 194786968,
+      "step": 1127
+    },
+    {
+      "epoch": 0.45083932853717024,
+      "grad_norm": 104.5467139927948,
+      "learning_rate": 5e-06,
+      "loss": 0.7947,
+      "num_input_tokens_seen": 194959904,
+      "step": 1128
+    },
+    {
+      "epoch": 0.45083932853717024,
+      "loss": 0.5858356952667236,
+      "loss_ce": 0.0061237625777721405,
+      "loss_xval": 0.578125,
+      "num_input_tokens_seen": 194959904,
+      "step": 1128
+    },
+    {
+      "epoch": 0.45123900879296563,
+      "grad_norm": 103.50952784722763,
+      "learning_rate": 5e-06,
+      "loss": 0.5609,
+      "num_input_tokens_seen": 195133032,
+      "step": 1129
+    },
+    {
+      "epoch": 0.45123900879296563,
+      "loss": 0.3132474422454834,
+      "loss_ce": 0.005569221451878548,
+      "loss_xval": 0.30859375,
+      "num_input_tokens_seen": 195133032,
+      "step": 1129
+    },
+    {
+      "epoch": 0.451638689048761,
+      "grad_norm": 85.79342122693706,
+      "learning_rate": 5e-06,
+      "loss": 0.636,
+      "num_input_tokens_seen": 195305808,
+      "step": 1130
+    },
+    {
+      "epoch": 0.451638689048761,
+      "loss": 0.5406002402305603,
+      "loss_ce": 0.00495569733902812,
+      "loss_xval": 0.53515625,
+      "num_input_tokens_seen": 195305808,
+      "step": 1130
+    },
+    {
+      "epoch": 0.4520383693045564,
+      "grad_norm": 57.37006766323614,
+      "learning_rate": 5e-06,
+      "loss": 0.516,
+      "num_input_tokens_seen": 195478768,
+      "step": 1131
+    },
+    {
+      "epoch": 0.4520383693045564,
+      "loss": 0.344220370054245,
+      "loss_ce": 0.004925938788801432,
+      "loss_xval": 0.33984375,
+      "num_input_tokens_seen": 195478768,
+      "step": 1131
+    },
+    {
+      "epoch": 0.4524380495603517,
+      "grad_norm": 120.1394915291317,
+      "learning_rate": 5e-06,
+      "loss": 0.459,
+      "num_input_tokens_seen": 195651456,
+      "step": 1132
+    },
+    {
+      "epoch": 0.4524380495603517,
+      "loss": 0.5401527881622314,
+      "loss_ce": 0.0051185921765863895,
+      "loss_xval": 0.53515625,
+      "num_input_tokens_seen": 195651456,
+      "step": 1132
+    },
+    {
+      "epoch": 0.45283772981614706,
+      "grad_norm": 54.69748517929681,
+      "learning_rate": 5e-06,
+      "loss": 0.7013,
+      "num_input_tokens_seen": 195824560,
+      "step": 1133
+    },
+    {
+      "epoch": 0.45283772981614706,
+      "loss": 0.8380387425422668,
+      "loss_ce": 0.006373690906912088,
+      "loss_xval": 0.83203125,
+      "num_input_tokens_seen": 195824560,
+      "step": 1133
+    },
+    {
+      "epoch": 0.45323741007194246,
+      "grad_norm": 95.7615162884942,
+      "learning_rate": 5e-06,
+      "loss": 0.4366,
+      "num_input_tokens_seen": 195997400,
+      "step": 1134
+    },
+    {
+      "epoch": 0.45323741007194246,
+      "loss": 0.31681621074676514,
+      "loss_ce": 0.0037669152952730656,
+      "loss_xval": 0.3125,
+      "num_input_tokens_seen": 195997400,
+      "step": 1134
+    },
+    {
+      "epoch": 0.4536370903277378,
+      "grad_norm": 51.51343251960469,
+      "learning_rate": 5e-06,
+      "loss": 0.9125,
+      "num_input_tokens_seen": 196170648,
+      "step": 1135
+    },
+    {
+      "epoch": 0.4536370903277378,
+      "loss": 0.5430760979652405,
+      "loss_ce": 0.004868092946708202,
+      "loss_xval": 0.5390625,
+      "num_input_tokens_seen": 196170648,
+      "step": 1135
+    },
+    {
+      "epoch": 0.4540367705835332,
+      "grad_norm": 41.699713092805354,
+      "learning_rate": 5e-06,
+      "loss": 0.8595,
+      "num_input_tokens_seen": 196343824,
+      "step": 1136
+    },
+    {
+      "epoch": 0.4540367705835332,
+      "loss": 0.8823078274726868,
+      "loss_ce": 0.013533404096961021,
+      "loss_xval": 0.8671875,
+      "num_input_tokens_seen": 196343824,
+      "step": 1136
+    },
+    {
+      "epoch": 0.45443645083932854,
+      "grad_norm": 47.49786214842191,
+      "learning_rate": 5e-06,
+      "loss": 0.7696,
+      "num_input_tokens_seen": 196517272,
+      "step": 1137
+    },
+    {
+      "epoch": 0.45443645083932854,
+      "loss": 0.6541973948478699,
+      "loss_ce": 0.006553375627845526,
+      "loss_xval": 0.6484375,
+      "num_input_tokens_seen": 196517272,
+      "step": 1137
+    },
+    {
+      "epoch": 0.4548361310951239,
+      "grad_norm": 38.86335658205585,
+      "learning_rate": 5e-06,
+      "loss": 0.5626,
+      "num_input_tokens_seen": 196690024,
+      "step": 1138
+    },
+    {
+      "epoch": 0.4548361310951239,
+      "loss": 0.49186328053474426,
+      "loss_ce": 0.0104790348559618,
+      "loss_xval": 0.48046875,
+      "num_input_tokens_seen": 196690024,
+      "step": 1138
+    },
+    {
+      "epoch": 0.4552358113509193,
+      "grad_norm": 74.08500005053307,
+      "learning_rate": 5e-06,
+      "loss": 0.6865,
+      "num_input_tokens_seen": 196862856,
+      "step": 1139
+    },
+    {
+      "epoch": 0.4552358113509193,
+      "loss": 0.9089970588684082,
+      "loss_ce": 0.010742646642029285,
+      "loss_xval": 0.8984375,
+      "num_input_tokens_seen": 196862856,
+      "step": 1139
+    },
+    {
+      "epoch": 0.4556354916067146,
+      "grad_norm": 62.43683214837666,
+      "learning_rate": 5e-06,
+      "loss": 0.9647,
+      "num_input_tokens_seen": 197035824,
+      "step": 1140
+    },
+    {
+      "epoch": 0.4556354916067146,
+      "loss": 1.02647864818573,
+      "loss_ce": 0.0059097823686897755,
+      "loss_xval": 1.0234375,
+      "num_input_tokens_seen": 197035824,
+      "step": 1140
+    },
+    {
+      "epoch": 0.45603517186250997,
+      "grad_norm": 44.531689617859236,
+      "learning_rate": 5e-06,
+      "loss": 0.7474,
+      "num_input_tokens_seen": 197208824,
+      "step": 1141
+    },
+    {
+      "epoch": 0.45603517186250997,
+      "loss": 0.6352089643478394,
+      "loss_ce": 0.005020937416702509,
+      "loss_xval": 0.62890625,
+      "num_input_tokens_seen": 197208824,
+      "step": 1141
+    },
+    {
+      "epoch": 0.45643485211830537,
+      "grad_norm": 33.00928243102856,
+      "learning_rate": 5e-06,
+      "loss": 0.5729,
+      "num_input_tokens_seen": 197381696,
+      "step": 1142
+    },
+    {
+      "epoch": 0.45643485211830537,
+      "loss": 0.5751632452011108,
+      "loss_ce": 0.005094892345368862,
+      "loss_xval": 0.5703125,
+      "num_input_tokens_seen": 197381696,
+      "step": 1142
+    },
+    {
+      "epoch": 0.4568345323741007,
+      "grad_norm": 110.0605177033546,
+      "learning_rate": 5e-06,
+      "loss": 0.8354,
+      "num_input_tokens_seen": 197554728,
+      "step": 1143
+    },
+    {
+      "epoch": 0.4568345323741007,
+      "loss": 0.8544121384620667,
+      "loss_ce": 0.005535189062356949,
+      "loss_xval": 0.84765625,
+      "num_input_tokens_seen": 197554728,
+      "step": 1143
+    },
+    {
+      "epoch": 0.4572342126298961,
+      "grad_norm": 66.44659371930612,
+      "learning_rate": 5e-06,
+      "loss": 0.6322,
+      "num_input_tokens_seen": 197727824,
+      "step": 1144
+    },
+    {
+      "epoch": 0.4572342126298961,
+      "loss": 0.6607143878936768,
+      "loss_ce": 0.006173363886773586,
+      "loss_xval": 0.65625,
+      "num_input_tokens_seen": 197727824,
+      "step": 1144
+    },
+    {
+      "epoch": 0.45763389288569145,
+      "grad_norm": 43.536496164695684,
+      "learning_rate": 5e-06,
+      "loss": 0.6087,
+      "num_input_tokens_seen": 197900352,
+      "step": 1145
+    },
+    {
+      "epoch": 0.45763389288569145,
+      "loss": 0.5236250162124634,
+      "loss_ce": 0.0048262146301567554,
+      "loss_xval": 0.51953125,
+      "num_input_tokens_seen": 197900352,
+      "step": 1145
+    },
+    {
+      "epoch": 0.4580335731414868,
+      "grad_norm": 99.45161663771454,
+      "learning_rate": 5e-06,
+      "loss": 0.7284,
+      "num_input_tokens_seen": 198073304,
+      "step": 1146
+    },
+    {
+      "epoch": 0.4580335731414868,
+      "loss": 0.7672001123428345,
+      "loss_ce": 0.005206714384257793,
+      "loss_xval": 0.76171875,
+      "num_input_tokens_seen": 198073304,
+      "step": 1146
+    },
+    {
+      "epoch": 0.4584332533972822,
+      "grad_norm": 81.21506953379286,
+      "learning_rate": 5e-06,
+      "loss": 0.6978,
+      "num_input_tokens_seen": 198246440,
+      "step": 1147
+    },
+    {
+      "epoch": 0.4584332533972822,
+      "loss": 0.574648380279541,
+      "loss_ce": 0.012514561414718628,
+      "loss_xval": 0.5625,
+      "num_input_tokens_seen": 198246440,
+      "step": 1147
+    },
+    {
+      "epoch": 0.45883293365307753,
+      "grad_norm": 79.41751309974842,
+      "learning_rate": 5e-06,
+      "loss": 1.0044,
+      "num_input_tokens_seen": 198419656,
+      "step": 1148
+    },
+    {
+      "epoch": 0.45883293365307753,
+      "loss": 0.8175091743469238,
+      "loss_ce": 0.004032664000988007,
+      "loss_xval": 0.8125,
+      "num_input_tokens_seen": 198419656,
+      "step": 1148
+    },
+    {
+      "epoch": 0.4592326139088729,
+      "grad_norm": 69.40833245914523,
+      "learning_rate": 5e-06,
+      "loss": 0.4482,
+      "num_input_tokens_seen": 198592384,
+      "step": 1149
+    },
+    {
+      "epoch": 0.4592326139088729,
+      "loss": 0.37215864658355713,
+      "loss_ce": 0.00448285136371851,
+      "loss_xval": 0.3671875,
+      "num_input_tokens_seen": 198592384,
+      "step": 1149
+    },
+    {
+      "epoch": 0.4596322941646683,
+      "grad_norm": 122.05219702328993,
+      "learning_rate": 5e-06,
+      "loss": 0.5041,
+      "num_input_tokens_seen": 198765368,
+      "step": 1150
+    },
+    {
+      "epoch": 0.4596322941646683,
+      "loss": 0.2772751450538635,
+      "loss_ce": 0.010124286636710167,
+      "loss_xval": 0.267578125,
+      "num_input_tokens_seen": 198765368,
+      "step": 1150
+    },
+    {
+      "epoch": 0.4600319744204636,
+      "grad_norm": 55.85383031494442,
+      "learning_rate": 5e-06,
+      "loss": 0.76,
+      "num_input_tokens_seen": 198938392,
+      "step": 1151
+    },
+    {
+      "epoch": 0.4600319744204636,
+      "loss": 0.8261213302612305,
+      "loss_ce": 0.0045881494879722595,
+      "loss_xval": 0.8203125,
+      "num_input_tokens_seen": 198938392,
+      "step": 1151
+    },
+    {
+      "epoch": 0.460431654676259,
+      "grad_norm": 53.35549520327359,
+      "learning_rate": 5e-06,
+      "loss": 0.489,
+      "num_input_tokens_seen": 199111568,
+      "step": 1152
+    },
+    {
+      "epoch": 0.460431654676259,
+      "loss": 0.6392042636871338,
+      "loss_ce": 0.007368315011262894,
+      "loss_xval": 0.6328125,
+      "num_input_tokens_seen": 199111568,
+      "step": 1152
+    },
+    {
+      "epoch": 0.46083133493205436,
+      "grad_norm": 41.969663825725945,
+      "learning_rate": 5e-06,
+      "loss": 0.5099,
+      "num_input_tokens_seen": 199284384,
+      "step": 1153
+    },
+    {
+      "epoch": 0.46083133493205436,
+      "loss": 0.5351383686065674,
+      "loss_ce": 0.004376672208309174,
+      "loss_xval": 0.53125,
+      "num_input_tokens_seen": 199284384,
+      "step": 1153
+    },
+    {
+      "epoch": 0.4612310151878497,
+      "grad_norm": 62.75425126705116,
+      "learning_rate": 5e-06,
+      "loss": 0.5918,
+      "num_input_tokens_seen": 199457280,
+      "step": 1154
+    },
+    {
+      "epoch": 0.4612310151878497,
+      "loss": 0.7125241756439209,
+      "loss_ce": 0.006286341696977615,
+      "loss_xval": 0.70703125,
+      "num_input_tokens_seen": 199457280,
+      "step": 1154
+    },
+    {
+      "epoch": 0.4616306954436451,
+      "grad_norm": 50.715666738129826,
+      "learning_rate": 5e-06,
+      "loss": 0.5002,
+      "num_input_tokens_seen": 199630232,
+      "step": 1155
+    },
+    {
+      "epoch": 0.4616306954436451,
+      "loss": 0.25332915782928467,
+      "loss_ce": 0.0032681506127119064,
+      "loss_xval": 0.25,
+      "num_input_tokens_seen": 199630232,
+      "step": 1155
+    },
+    {
+      "epoch": 0.46203037569944044,
+      "grad_norm": 29.166937844481254,
+      "learning_rate": 5e-06,
+      "loss": 0.4687,
+      "num_input_tokens_seen": 199803208,
+      "step": 1156
+    },
+    {
+      "epoch": 0.46203037569944044,
+      "loss": 0.3712252378463745,
+      "loss_ce": 0.0047701504081487656,
+      "loss_xval": 0.3671875,
+      "num_input_tokens_seen": 199803208,
+      "step": 1156
+    },
+    {
+      "epoch": 0.4624300559552358,
+      "grad_norm": 67.21113680973119,
+      "learning_rate": 5e-06,
+      "loss": 0.8676,
+      "num_input_tokens_seen": 199976416,
+      "step": 1157
+    },
+    {
+      "epoch": 0.4624300559552358,
+      "loss": 0.41837334632873535,
+      "loss_ce": 0.003608925500884652,
+      "loss_xval": 0.4140625,
+      "num_input_tokens_seen": 199976416,
+      "step": 1157
+    },
+    {
+      "epoch": 0.4628297362110312,
+      "grad_norm": 36.177291288625426,
+      "learning_rate": 5e-06,
+      "loss": 0.4889,
+      "num_input_tokens_seen": 200149720,
+      "step": 1158
+    },
+    {
+      "epoch": 0.4628297362110312,
+      "loss": 0.7105360627174377,
+      "loss_ce": 0.005763140507042408,
+      "loss_xval": 0.703125,
+      "num_input_tokens_seen": 200149720,
+      "step": 1158
+    },
+    {
+      "epoch": 0.4632294164668265,
+      "grad_norm": 144.37390819755106,
+      "learning_rate": 5e-06,
+      "loss": 0.3905,
+      "num_input_tokens_seen": 200322696,
+      "step": 1159
+    },
+    {
+      "epoch": 0.4632294164668265,
+      "loss": 0.48566287755966187,
+      "loss_ce": 0.0023254724219441414,
+      "loss_xval": 0.482421875,
+      "num_input_tokens_seen": 200322696,
+      "step": 1159
+    },
+    {
+      "epoch": 0.4636290967226219,
+      "grad_norm": 34.84183224871753,
+      "learning_rate": 5e-06,
+      "loss": 0.2845,
+      "num_input_tokens_seen": 200496096,
+      "step": 1160
+    },
+    {
+      "epoch": 0.4636290967226219,
+      "loss": 0.27525389194488525,
+      "loss_ce": 0.0022894316352903843,
+      "loss_xval": 0.2734375,
+      "num_input_tokens_seen": 200496096,
+      "step": 1160
+    },
+    {
+      "epoch": 0.46402877697841727,
+      "grad_norm": 52.0086165058688,
+      "learning_rate": 5e-06,
+      "loss": 0.6896,
+      "num_input_tokens_seen": 200669288,
+      "step": 1161
+    },
+    {
+      "epoch": 0.46402877697841727,
+      "loss": 1.063295602798462,
+      "loss_ce": 0.009096423164010048,
+      "loss_xval": 1.0546875,
+      "num_input_tokens_seen": 200669288,
+      "step": 1161
+    },
+    {
+      "epoch": 0.4644284572342126,
+      "grad_norm": 48.3637411249726,
+      "learning_rate": 5e-06,
+      "loss": 0.5238,
+      "num_input_tokens_seen": 200842184,
+      "step": 1162
+    },
+    {
+      "epoch": 0.4644284572342126,
+      "loss": 0.41702714562416077,
+      "loss_ce": 0.00394120067358017,
+      "loss_xval": 0.4140625,
+      "num_input_tokens_seen": 200842184,
+      "step": 1162
+    },
+    {
+      "epoch": 0.464828137490008,
+      "grad_norm": 95.71936689991736,
+      "learning_rate": 5e-06,
+      "loss": 0.5964,
+      "num_input_tokens_seen": 201015320,
+      "step": 1163
+    },
+    {
+      "epoch": 0.464828137490008,
+      "loss": 0.45856761932373047,
+      "loss_ce": 0.002146715298295021,
+      "loss_xval": 0.45703125,
+      "num_input_tokens_seen": 201015320,
+      "step": 1163
+    },
+    {
+      "epoch": 0.46522781774580335,
+      "grad_norm": 47.786200135317,
+      "learning_rate": 5e-06,
+      "loss": 0.8803,
+      "num_input_tokens_seen": 201187928,
+      "step": 1164
+    },
+    {
+      "epoch": 0.46522781774580335,
+      "loss": 1.0784153938293457,
+      "loss_ce": 0.007370521314442158,
+      "loss_xval": 1.0703125,
+      "num_input_tokens_seen": 201187928,
+      "step": 1164
+    },
+    {
+      "epoch": 0.4656274980015987,
+      "grad_norm": 70.62039457961404,
+      "learning_rate": 5e-06,
+      "loss": 0.9221,
+      "num_input_tokens_seen": 201360888,
+      "step": 1165
+    },
+    {
+      "epoch": 0.4656274980015987,
+      "loss": 0.8973113298416138,
+      "loss_ce": 0.004855302162468433,
+      "loss_xval": 0.890625,
+      "num_input_tokens_seen": 201360888,
+      "step": 1165
+    },
+    {
+      "epoch": 0.4660271782573941,
+      "grad_norm": 35.876824576405056,
+      "learning_rate": 5e-06,
+      "loss": 0.4456,
+      "num_input_tokens_seen": 201533736,
+      "step": 1166
+    },
+    {
+      "epoch": 0.4660271782573941,
+      "loss": 0.5968400835990906,
+      "loss_ce": 0.006630140822380781,
+      "loss_xval": 0.58984375,
+      "num_input_tokens_seen": 201533736,
+      "step": 1166
+    },
+    {
+      "epoch": 0.46642685851318944,
+      "grad_norm": 63.15386629040931,
+      "learning_rate": 5e-06,
+      "loss": 0.683,
+      "num_input_tokens_seen": 201706496,
+      "step": 1167
+    },
+    {
+      "epoch": 0.46642685851318944,
+      "loss": 0.5146918296813965,
+      "loss_ce": 0.0032782740890979767,
+      "loss_xval": 0.51171875,
+      "num_input_tokens_seen": 201706496,
+      "step": 1167
+    },
+    {
+      "epoch": 0.46682653876898483,
+      "grad_norm": 51.66674260877597,
+      "learning_rate": 5e-06,
+      "loss": 0.6915,
+      "num_input_tokens_seen": 201879464,
+      "step": 1168
+    },
+    {
+      "epoch": 0.46682653876898483,
+      "loss": 1.018492341041565,
+      "loss_ce": 0.00811633188277483,
+      "loss_xval": 1.0078125,
+      "num_input_tokens_seen": 201879464,
+      "step": 1168
+    },
+    {
+      "epoch": 0.4672262190247802,
+      "grad_norm": 49.273976329122995,
+      "learning_rate": 5e-06,
+      "loss": 0.376,
+      "num_input_tokens_seen": 202052384,
+      "step": 1169
+    },
+    {
+      "epoch": 0.4672262190247802,
+      "loss": 0.39832669496536255,
+      "loss_ce": 0.003398712258785963,
+      "loss_xval": 0.39453125,
+      "num_input_tokens_seen": 202052384,
+      "step": 1169
+    },
+    {
+      "epoch": 0.4676258992805755,
+      "grad_norm": 101.63398509107819,
+      "learning_rate": 5e-06,
+      "loss": 0.6936,
+      "num_input_tokens_seen": 202225344,
+      "step": 1170
+    },
+    {
+      "epoch": 0.4676258992805755,
+      "loss": 0.5724492073059082,
+      "loss_ce": 0.004242459312081337,
+      "loss_xval": 0.56640625,
+      "num_input_tokens_seen": 202225344,
+      "step": 1170
+    },
+    {
+      "epoch": 0.4680255795363709,
+      "grad_norm": 21.379650294342827,
+      "learning_rate": 5e-06,
+      "loss": 0.4938,
+      "num_input_tokens_seen": 202398136,
+      "step": 1171
+    },
+    {
+      "epoch": 0.4680255795363709,
+      "loss": 0.41817671060562134,
+      "loss_ce": 0.0021305850241333246,
+      "loss_xval": 0.416015625,
+      "num_input_tokens_seen": 202398136,
+      "step": 1171
+    },
+    {
+      "epoch": 0.46842525979216626,
+      "grad_norm": 70.14687736374864,
+      "learning_rate": 5e-06,
+      "loss": 0.695,
+      "num_input_tokens_seen": 202571104,
+      "step": 1172
+    },
+    {
+      "epoch": 0.46842525979216626,
+      "loss": 0.5816267728805542,
+      "loss_ce": 0.005393843166530132,
+      "loss_xval": 0.578125,
+      "num_input_tokens_seen": 202571104,
+      "step": 1172
+    },
+    {
+      "epoch": 0.46882494004796166,
+      "grad_norm": 24.91607803294252,
+      "learning_rate": 5e-06,
+      "loss": 0.6048,
+      "num_input_tokens_seen": 202744160,
+      "step": 1173
+    },
+    {
+      "epoch": 0.46882494004796166,
+      "loss": 0.5543652176856995,
+      "loss_ce": 0.004911464173346758,
+      "loss_xval": 0.55078125,
+      "num_input_tokens_seen": 202744160,
+      "step": 1173
+    },
+    {
+      "epoch": 0.469224620303757,
+      "grad_norm": 59.37963682222382,
+      "learning_rate": 5e-06,
+      "loss": 0.4961,
+      "num_input_tokens_seen": 202916928,
+      "step": 1174
+    },
+    {
+      "epoch": 0.469224620303757,
+      "loss": 0.5824704170227051,
+      "loss_ce": 0.008221141993999481,
+      "loss_xval": 0.57421875,
+      "num_input_tokens_seen": 202916928,
+      "step": 1174
+    },
+    {
+      "epoch": 0.46962430055955234,
+      "grad_norm": 61.38563783071624,
+      "learning_rate": 5e-06,
+      "loss": 0.9222,
+      "num_input_tokens_seen": 203090040,
+      "step": 1175
+    },
+    {
+      "epoch": 0.46962430055955234,
+      "loss": 0.6337473392486572,
+      "loss_ce": 0.003986579366028309,
+      "loss_xval": 0.62890625,
+      "num_input_tokens_seen": 203090040,
+      "step": 1175
+    },
+    {
+      "epoch": 0.47002398081534774,
+      "grad_norm": 30.520568694364325,
+      "learning_rate": 5e-06,
+      "loss": 0.5868,
+      "num_input_tokens_seen": 203260272,
+      "step": 1176
+    },
+    {
+      "epoch": 0.47002398081534774,
+      "loss": 0.7021505236625671,
+      "loss_ce": 0.009065819904208183,
+      "loss_xval": 0.69140625,
+      "num_input_tokens_seen": 203260272,
+      "step": 1176
+    },
+    {
+      "epoch": 0.4704236610711431,
+      "grad_norm": 114.80561125694719,
+      "learning_rate": 5e-06,
+      "loss": 0.6283,
+      "num_input_tokens_seen": 203433192,
+      "step": 1177
+    },
+    {
+      "epoch": 0.4704236610711431,
+      "loss": 0.46350085735321045,
+      "loss_ce": 0.004699579905718565,
+      "loss_xval": 0.458984375,
+      "num_input_tokens_seen": 203433192,
+      "step": 1177
+    },
+    {
+      "epoch": 0.4708233413269384,
+      "grad_norm": 90.34627311896233,
+      "learning_rate": 5e-06,
+      "loss": 0.5641,
+      "num_input_tokens_seen": 203606144,
+      "step": 1178
+    },
+    {
+      "epoch": 0.4708233413269384,
+      "loss": 0.4923925995826721,
+      "loss_ce": 0.007163085043430328,
+      "loss_xval": 0.484375,
+      "num_input_tokens_seen": 203606144,
+      "step": 1178
+    },
+    {
+      "epoch": 0.4712230215827338,
+      "grad_norm": 71.19184014400291,
+      "learning_rate": 5e-06,
+      "loss": 0.5977,
+      "num_input_tokens_seen": 203779104,
+      "step": 1179
+    },
+    {
+      "epoch": 0.4712230215827338,
+      "loss": 0.6201607584953308,
+      "loss_ce": 0.0019356525735929608,
+      "loss_xval": 0.6171875,
+      "num_input_tokens_seen": 203779104,
+      "step": 1179
+    },
+    {
+      "epoch": 0.47162270183852917,
+      "grad_norm": 46.09540182862563,
+      "learning_rate": 5e-06,
+      "loss": 0.7048,
+      "num_input_tokens_seen": 203951968,
+      "step": 1180
+    },
+    {
+      "epoch": 0.47162270183852917,
+      "loss": 0.6933472752571106,
+      "loss_ce": 0.003711057361215353,
+      "loss_xval": 0.69140625,
+      "num_input_tokens_seen": 203951968,
+      "step": 1180
+    },
+    {
+      "epoch": 0.47202238209432457,
+      "grad_norm": 85.31817735510187,
+      "learning_rate": 5e-06,
+      "loss": 0.4103,
+      "num_input_tokens_seen": 204124320,
+      "step": 1181
+    },
+    {
+      "epoch": 0.47202238209432457,
+      "loss": 0.45448797941207886,
+      "loss_ce": 0.0026142210699617863,
+      "loss_xval": 0.451171875,
+      "num_input_tokens_seen": 204124320,
+      "step": 1181
+    },
+    {
+      "epoch": 0.4724220623501199,
+      "grad_norm": 62.585221065215585,
+      "learning_rate": 5e-06,
+      "loss": 0.5123,
+      "num_input_tokens_seen": 204296704,
+      "step": 1182
+    },
+    {
+      "epoch": 0.4724220623501199,
+      "loss": 0.753317654132843,
+      "loss_ce": 0.004050097428262234,
+      "loss_xval": 0.75,
+      "num_input_tokens_seen": 204296704,
+      "step": 1182
+    },
+    {
+      "epoch": 0.47282174260591525,
+      "grad_norm": 90.40966754196259,
+      "learning_rate": 5e-06,
+      "loss": 0.6652,
+      "num_input_tokens_seen": 204469256,
+      "step": 1183
+    },
+    {
+      "epoch": 0.47282174260591525,
+      "loss": 0.42565417289733887,
+      "loss_ce": 0.003901238553225994,
+      "loss_xval": 0.421875,
+      "num_input_tokens_seen": 204469256,
+      "step": 1183
+    },
+    {
+      "epoch": 0.47322142286171065,
+      "grad_norm": 54.39935747092517,
+      "learning_rate": 5e-06,
+      "loss": 0.7614,
+      "num_input_tokens_seen": 204642296,
+      "step": 1184
+    },
+    {
+      "epoch": 0.47322142286171065,
+      "loss": 0.5638756155967712,
+      "loss_ce": 0.005281836725771427,
+      "loss_xval": 0.55859375,
+      "num_input_tokens_seen": 204642296,
+      "step": 1184
+    },
+    {
+      "epoch": 0.473621103117506,
+      "grad_norm": 69.45566268019499,
+      "learning_rate": 5e-06,
+      "loss": 0.7909,
+      "num_input_tokens_seen": 204815504,
+      "step": 1185
+    },
+    {
+      "epoch": 0.473621103117506,
+      "loss": 0.9263577461242676,
+      "loss_ce": 0.0036892304196953773,
+      "loss_xval": 0.921875,
+      "num_input_tokens_seen": 204815504,
+      "step": 1185
+    },
+    {
+      "epoch": 0.47402078337330134,
+      "grad_norm": 47.95557312190612,
+      "learning_rate": 5e-06,
+      "loss": 0.5052,
+      "num_input_tokens_seen": 204988160,
+      "step": 1186
+    },
+    {
+      "epoch": 0.47402078337330134,
+      "loss": 0.42373624444007874,
+      "loss_ce": 0.004943536594510078,
+      "loss_xval": 0.41796875,
+      "num_input_tokens_seen": 204988160,
+      "step": 1186
+    },
+    {
+      "epoch": 0.47442046362909673,
+      "grad_norm": 80.91810811660899,
+      "learning_rate": 5e-06,
+      "loss": 0.4477,
+      "num_input_tokens_seen": 205160608,
+      "step": 1187
+    },
+    {
+      "epoch": 0.47442046362909673,
+      "loss": 0.27876970171928406,
+      "loss_ce": 0.0027076760306954384,
+      "loss_xval": 0.275390625,
+      "num_input_tokens_seen": 205160608,
+      "step": 1187
+    },
+    {
+      "epoch": 0.4748201438848921,
+      "grad_norm": 89.19904810541342,
+      "learning_rate": 5e-06,
+      "loss": 0.8543,
+      "num_input_tokens_seen": 205333520,
+      "step": 1188
+    },
+    {
+      "epoch": 0.4748201438848921,
+      "loss": 1.167051076889038,
+      "loss_ce": 0.00945834070444107,
+      "loss_xval": 1.15625,
+      "num_input_tokens_seen": 205333520,
+      "step": 1188
+    },
+    {
+      "epoch": 0.4752198241406875,
+      "grad_norm": 129.51637700147677,
+      "learning_rate": 5e-06,
+      "loss": 0.6642,
+      "num_input_tokens_seen": 205505920,
+      "step": 1189
+    },
+    {
+      "epoch": 0.4752198241406875,
+      "loss": 0.6400755643844604,
+      "loss_ce": 0.003539936849847436,
+      "loss_xval": 0.63671875,
+      "num_input_tokens_seen": 205505920,
+      "step": 1189
+    },
+    {
+      "epoch": 0.4756195043964828,
+      "grad_norm": 147.50728598390194,
+      "learning_rate": 5e-06,
+      "loss": 0.7091,
+      "num_input_tokens_seen": 205679128,
+      "step": 1190
+    },
+    {
+      "epoch": 0.4756195043964828,
+      "loss": 0.9833164215087891,
+      "loss_ce": 0.005899389274418354,
+      "loss_xval": 0.9765625,
+      "num_input_tokens_seen": 205679128,
+      "step": 1190
+    },
+    {
+      "epoch": 0.47601918465227816,
+      "grad_norm": 90.94767641525118,
+      "learning_rate": 5e-06,
+      "loss": 0.7318,
+      "num_input_tokens_seen": 205851816,
+      "step": 1191
+    },
+    {
+      "epoch": 0.47601918465227816,
+      "loss": 0.7062619924545288,
+      "loss_ce": 0.006860113237053156,
+      "loss_xval": 0.69921875,
+      "num_input_tokens_seen": 205851816,
+      "step": 1191
+    },
+    {
+      "epoch": 0.47641886490807356,
+      "grad_norm": 149.49872792375933,
+      "learning_rate": 5e-06,
+      "loss": 0.5292,
+      "num_input_tokens_seen": 206024792,
+      "step": 1192
+    },
+    {
+      "epoch": 0.47641886490807356,
+      "loss": 0.5177109837532043,
+      "loss_ce": 0.005381924565881491,
+      "loss_xval": 0.51171875,
+      "num_input_tokens_seen": 206024792,
+      "step": 1192
+    },
+    {
+      "epoch": 0.4768185451638689,
+      "grad_norm": 36.85115396826063,
+      "learning_rate": 5e-06,
+      "loss": 0.4891,
+      "num_input_tokens_seen": 206197976,
+      "step": 1193
+    },
+    {
+      "epoch": 0.4768185451638689,
+      "loss": 0.6350235939025879,
+      "loss_ce": 0.006605636328458786,
+      "loss_xval": 0.62890625,
+      "num_input_tokens_seen": 206197976,
+      "step": 1193
+    },
+    {
+      "epoch": 0.47721822541966424,
+      "grad_norm": 45.87647325830105,
+      "learning_rate": 5e-06,
+      "loss": 0.3795,
+      "num_input_tokens_seen": 206370960,
+      "step": 1194
+    },
+    {
+      "epoch": 0.47721822541966424,
+      "loss": 0.31491148471832275,
+      "loss_ce": 0.004608749412000179,
+      "loss_xval": 0.310546875,
+      "num_input_tokens_seen": 206370960,
+      "step": 1194
+    },
+    {
+      "epoch": 0.47761790567545964,
+      "grad_norm": 112.11711434198487,
+      "learning_rate": 5e-06,
+      "loss": 0.7471,
+      "num_input_tokens_seen": 206544200,
+      "step": 1195
+    },
+    {
+      "epoch": 0.47761790567545964,
+      "loss": 0.9842346906661987,
+      "loss_ce": 0.004620386753231287,
+      "loss_xval": 0.98046875,
+      "num_input_tokens_seen": 206544200,
+      "step": 1195
+    },
+    {
+      "epoch": 0.478017585931255,
+      "grad_norm": 65.02709178533176,
+      "learning_rate": 5e-06,
+      "loss": 0.7812,
+      "num_input_tokens_seen": 206716880,
+      "step": 1196
+    },
+    {
+      "epoch": 0.478017585931255,
+      "loss": 1.0724844932556152,
+      "loss_ce": 0.012914232909679413,
+      "loss_xval": 1.0625,
+      "num_input_tokens_seen": 206716880,
+      "step": 1196
+    },
+    {
+      "epoch": 0.4784172661870504,
+      "grad_norm": 64.89552423131474,
+      "learning_rate": 5e-06,
+      "loss": 0.6697,
+      "num_input_tokens_seen": 206889208,
+      "step": 1197
+    },
+    {
+      "epoch": 0.4784172661870504,
+      "loss": 0.5000320076942444,
+      "loss_ce": 0.006379666738212109,
+      "loss_xval": 0.494140625,
+      "num_input_tokens_seen": 206889208,
+      "step": 1197
+    },
+    {
+      "epoch": 0.4788169464428457,
+      "grad_norm": 92.45595988265173,
+      "learning_rate": 5e-06,
+      "loss": 0.4587,
+      "num_input_tokens_seen": 207062608,
+      "step": 1198
+    },
+    {
+      "epoch": 0.4788169464428457,
+      "loss": 0.6541969776153564,
+      "loss_ce": 0.0036232522688806057,
+      "loss_xval": 0.65234375,
+      "num_input_tokens_seen": 207062608,
+      "step": 1198
+    },
+    {
+      "epoch": 0.47921662669864107,
+      "grad_norm": 82.54766047585346,
+      "learning_rate": 5e-06,
+      "loss": 0.6257,
+      "num_input_tokens_seen": 207235096,
+      "step": 1199
+    },
+    {
+      "epoch": 0.47921662669864107,
+      "loss": 0.689261257648468,
+      "loss_ce": 0.007254431024193764,
+      "loss_xval": 0.68359375,
+      "num_input_tokens_seen": 207235096,
+      "step": 1199
+    },
+    {
+      "epoch": 0.47961630695443647,
+      "grad_norm": 57.082823434112576,
+      "learning_rate": 5e-06,
+      "loss": 0.5072,
+      "num_input_tokens_seen": 207408280,
+      "step": 1200
+    },
+    {
+      "epoch": 0.47961630695443647,
+      "loss": 0.5904377102851868,
+      "loss_ce": 0.003889882005751133,
+      "loss_xval": 0.5859375,
+      "num_input_tokens_seen": 207408280,
+      "step": 1200
+    },
+    {
+      "epoch": 0.4800159872102318,
+      "grad_norm": 37.253625537767235,
+      "learning_rate": 5e-06,
+      "loss": 0.7844,
+      "num_input_tokens_seen": 207581328,
+      "step": 1201
+    },
+    {
+      "epoch": 0.4800159872102318,
+      "loss": 0.5707876682281494,
+      "loss_ce": 0.0070670172572135925,
+      "loss_xval": 0.5625,
+      "num_input_tokens_seen": 207581328,
+      "step": 1201
+    },
+    {
+      "epoch": 0.48041566746602715,
+      "grad_norm": 126.39021086125909,
+      "learning_rate": 5e-06,
+      "loss": 0.47,
+      "num_input_tokens_seen": 207754272,
+      "step": 1202
+    },
+    {
+      "epoch": 0.48041566746602715,
+      "loss": 0.369029700756073,
+      "loss_ce": 0.005626373924314976,
+      "loss_xval": 0.36328125,
+      "num_input_tokens_seen": 207754272,
+      "step": 1202
+    },
+    {
+      "epoch": 0.48081534772182255,
+      "grad_norm": 27.399518912536287,
+      "learning_rate": 5e-06,
+      "loss": 0.4326,
+      "num_input_tokens_seen": 207926864,
+      "step": 1203
+    },
+    {
+      "epoch": 0.48081534772182255,
+      "loss": 0.48411285877227783,
+      "loss_ce": 0.0038882247172296047,
+      "loss_xval": 0.48046875,
+      "num_input_tokens_seen": 207926864,
+      "step": 1203
+    },
+    {
+      "epoch": 0.4812150279776179,
+      "grad_norm": 133.10942772969344,
+      "learning_rate": 5e-06,
+      "loss": 0.8218,
+      "num_input_tokens_seen": 208099896,
+      "step": 1204
+    },
+    {
+      "epoch": 0.4812150279776179,
+      "loss": 0.7755193114280701,
+      "loss_ce": 0.012824056670069695,
+      "loss_xval": 0.76171875,
+      "num_input_tokens_seen": 208099896,
+      "step": 1204
+    },
+    {
+      "epoch": 0.4816147082334133,
+      "grad_norm": 39.05446343546031,
+      "learning_rate": 5e-06,
+      "loss": 0.5318,
+      "num_input_tokens_seen": 208272824,
+      "step": 1205
+    },
+    {
+      "epoch": 0.4816147082334133,
+      "loss": 0.4078354239463806,
+      "loss_ce": 0.0037826700136065483,
+      "loss_xval": 0.404296875,
+      "num_input_tokens_seen": 208272824,
+      "step": 1205
+    },
+    {
+      "epoch": 0.48201438848920863,
+      "grad_norm": 141.26378845226603,
+      "learning_rate": 5e-06,
+      "loss": 0.9037,
+      "num_input_tokens_seen": 208445320,
+      "step": 1206
+    },
+    {
+      "epoch": 0.48201438848920863,
+      "loss": 0.4204305112361908,
+      "loss_ce": 0.007832853123545647,
+      "loss_xval": 0.412109375,
+      "num_input_tokens_seen": 208445320,
+      "step": 1206
+    },
+    {
+      "epoch": 0.482414068745004,
+      "grad_norm": 65.24571131237124,
+      "learning_rate": 5e-06,
+      "loss": 0.781,
+      "num_input_tokens_seen": 208618264,
+      "step": 1207
+    },
+    {
+      "epoch": 0.482414068745004,
+      "loss": 1.0000226497650146,
+      "loss_ce": 0.005759958643466234,
+      "loss_xval": 0.99609375,
+      "num_input_tokens_seen": 208618264,
+      "step": 1207
+    },
+    {
+      "epoch": 0.4828137490007994,
+      "grad_norm": 93.46614098455318,
+      "learning_rate": 5e-06,
+      "loss": 0.6181,
+      "num_input_tokens_seen": 208791320,
+      "step": 1208
+    },
+    {
+      "epoch": 0.4828137490007994,
+      "loss": 0.5935106873512268,
+      "loss_ce": 0.007390075363218784,
+      "loss_xval": 0.5859375,
+      "num_input_tokens_seen": 208791320,
+      "step": 1208
+    },
+    {
+      "epoch": 0.4832134292565947,
+      "grad_norm": 197.0479425394529,
+      "learning_rate": 5e-06,
+      "loss": 0.7052,
+      "num_input_tokens_seen": 208964360,
+      "step": 1209
+    },
+    {
+      "epoch": 0.4832134292565947,
+      "loss": 0.6921088695526123,
+      "loss_ce": 0.00509719830006361,
+      "loss_xval": 0.6875,
+      "num_input_tokens_seen": 208964360,
+      "step": 1209
+    },
+    {
+      "epoch": 0.48361310951239006,
+      "grad_norm": 128.35610143451706,
+      "learning_rate": 5e-06,
+      "loss": 0.6615,
+      "num_input_tokens_seen": 209137008,
+      "step": 1210
+    },
+    {
+      "epoch": 0.48361310951239006,
+      "loss": 0.6662713289260864,
+      "loss_ce": 0.0055047329515218735,
+      "loss_xval": 0.66015625,
+      "num_input_tokens_seen": 209137008,
+      "step": 1210
+    },
+    {
+      "epoch": 0.48401278976818546,
+      "grad_norm": 97.43877540168052,
+      "learning_rate": 5e-06,
+      "loss": 0.4814,
+      "num_input_tokens_seen": 209309968,
+      "step": 1211
+    },
+    {
+      "epoch": 0.48401278976818546,
+      "loss": 0.5262230634689331,
+      "loss_ce": 0.005654177628457546,
+      "loss_xval": 0.51953125,
+      "num_input_tokens_seen": 209309968,
+      "step": 1211
+    },
+    {
+      "epoch": 0.4844124700239808,
+      "grad_norm": 72.44506988992362,
+      "learning_rate": 5e-06,
+      "loss": 0.5673,
+      "num_input_tokens_seen": 209483056,
+      "step": 1212
+    },
+    {
+      "epoch": 0.4844124700239808,
+      "loss": 0.6535665988922119,
+      "loss_ce": 0.005800464190542698,
+      "loss_xval": 0.6484375,
+      "num_input_tokens_seen": 209483056,
+      "step": 1212
+    },
+    {
+      "epoch": 0.4848121502797762,
+      "grad_norm": 82.26685181094909,
+      "learning_rate": 5e-06,
+      "loss": 0.2986,
+      "num_input_tokens_seen": 209655808,
+      "step": 1213
+    },
+    {
+      "epoch": 0.4848121502797762,
+      "loss": 0.24768781661987305,
+      "loss_ce": 0.005134111270308495,
+      "loss_xval": 0.2421875,
+      "num_input_tokens_seen": 209655808,
+      "step": 1213
+    },
+    {
+      "epoch": 0.48521183053557154,
+      "grad_norm": 2883.265707805072,
+      "learning_rate": 5e-06,
+      "loss": 3.4834,
+      "num_input_tokens_seen": 209828696,
+      "step": 1214
+    },
+    {
+      "epoch": 0.48521183053557154,
+      "loss": 6.084342002868652,
+      "loss_ce": 0.01479253824800253,
+      "loss_xval": 6.0625,
+      "num_input_tokens_seen": 209828696,
+      "step": 1214
+    },
+    {
+      "epoch": 0.4856115107913669,
+      "grad_norm": 88.50388639064461,
+      "learning_rate": 5e-06,
+      "loss": 0.7424,
+      "num_input_tokens_seen": 210001296,
+      "step": 1215
+    },
+    {
+      "epoch": 0.4856115107913669,
+      "loss": 1.1838319301605225,
+      "loss_ce": 0.00505995936691761,
+      "loss_xval": 1.1796875,
+      "num_input_tokens_seen": 210001296,
+      "step": 1215
+    },
+    {
+      "epoch": 0.4860111910471623,
+      "grad_norm": 103.36056926681852,
+      "learning_rate": 5e-06,
+      "loss": 0.9452,
+      "num_input_tokens_seen": 210174048,
+      "step": 1216
+    },
+    {
+      "epoch": 0.4860111910471623,
+      "loss": 0.7499319314956665,
+      "loss_ce": 0.10924588143825531,
+      "loss_xval": 0.640625,
+      "num_input_tokens_seen": 210174048,
+      "step": 1216
+    },
+    {
+      "epoch": 0.4864108713029576,
+      "grad_norm": 55.89331329285388,
+      "learning_rate": 5e-06,
+      "loss": 0.8338,
+      "num_input_tokens_seen": 210347120,
+      "step": 1217
+    },
+    {
+      "epoch": 0.4864108713029576,
+      "loss": 0.9395196437835693,
+      "loss_ce": 0.15698786079883575,
+      "loss_xval": 0.78125,
+      "num_input_tokens_seen": 210347120,
+      "step": 1217
+    },
+    {
+      "epoch": 0.486810551558753,
+      "grad_norm": 67.56062531813605,
+      "learning_rate": 5e-06,
+      "loss": 0.8645,
+      "num_input_tokens_seen": 210519800,
+      "step": 1218
+    },
+    {
+      "epoch": 0.486810551558753,
+      "loss": 0.8125213980674744,
+      "loss_ce": 0.18675847351551056,
+      "loss_xval": 0.625,
+      "num_input_tokens_seen": 210519800,
+      "step": 1218
+    },
+    {
+      "epoch": 0.48721023181454837,
+      "grad_norm": 71.24757754808115,
+      "learning_rate": 5e-06,
+      "loss": 0.8123,
+      "num_input_tokens_seen": 210692952,
+      "step": 1219
+    },
+    {
+      "epoch": 0.48721023181454837,
+      "loss": 0.9922150373458862,
+      "loss_ce": 0.23125924170017242,
+      "loss_xval": 0.76171875,
+      "num_input_tokens_seen": 210692952,
+      "step": 1219
+    },
+    {
+      "epoch": 0.4876099120703437,
+      "grad_norm": 114.99129622606719,
+      "learning_rate": 5e-06,
+      "loss": 0.8695,
+      "num_input_tokens_seen": 210862584,
+      "step": 1220
+    },
+    {
+      "epoch": 0.4876099120703437,
+      "loss": 0.7880289554595947,
+      "loss_ce": 0.1557047963142395,
+      "loss_xval": 0.6328125,
+      "num_input_tokens_seen": 210862584,
+      "step": 1220
+    },
+    {
+      "epoch": 0.4880095923261391,
+      "grad_norm": 37.624977084364716,
+      "learning_rate": 5e-06,
+      "loss": 0.8068,
+      "num_input_tokens_seen": 211035584,
+      "step": 1221
+    },
+    {
+      "epoch": 0.4880095923261391,
+      "loss": 0.8313114047050476,
+      "loss_ce": 0.13703647255897522,
+      "loss_xval": 0.6953125,
+      "num_input_tokens_seen": 211035584,
+      "step": 1221
+    },
+    {
+      "epoch": 0.48840927258193445,
+      "grad_norm": 42.83229604580505,
+      "learning_rate": 5e-06,
+      "loss": 0.6414,
+      "num_input_tokens_seen": 211208152,
+      "step": 1222
+    },
+    {
+      "epoch": 0.48840927258193445,
+      "loss": 0.6869634985923767,
+      "loss_ce": 0.12171684950590134,
+      "loss_xval": 0.56640625,
+      "num_input_tokens_seen": 211208152,
+      "step": 1222
+    },
+    {
+      "epoch": 0.4888089528377298,
+      "grad_norm": 37.91970336856216,
+      "learning_rate": 5e-06,
+      "loss": 0.8735,
+      "num_input_tokens_seen": 211380896,
+      "step": 1223
+    },
+    {
+      "epoch": 0.4888089528377298,
+      "loss": 0.47167566418647766,
+      "loss_ce": 0.15661218762397766,
+      "loss_xval": 0.314453125,
+      "num_input_tokens_seen": 211380896,
+      "step": 1223
+    },
+    {
+      "epoch": 0.4892086330935252,
+      "grad_norm": 38.52062556987781,
+      "learning_rate": 5e-06,
+      "loss": 0.8148,
+      "num_input_tokens_seen": 211553704,
+      "step": 1224
+    },
+    {
+      "epoch": 0.4892086330935252,
+      "loss": 0.5824769735336304,
+      "loss_ce": 0.11915907263755798,
+      "loss_xval": 0.462890625,
+      "num_input_tokens_seen": 211553704,
+      "step": 1224
+    },
+    {
+      "epoch": 0.48960831334932053,
+      "grad_norm": 81.00693493140086,
+      "learning_rate": 5e-06,
+      "loss": 0.7234,
+      "num_input_tokens_seen": 211726768,
+      "step": 1225
+    },
+    {
+      "epoch": 0.48960831334932053,
+      "loss": 0.9797881841659546,
+      "loss_ce": 0.1069854348897934,
+      "loss_xval": 0.87109375,
+      "num_input_tokens_seen": 211726768,
+      "step": 1225
+    },
+    {
+      "epoch": 0.49000799360511593,
+      "grad_norm": 37.58450026948904,
+      "learning_rate": 5e-06,
+      "loss": 0.6889,
+      "num_input_tokens_seen": 211899872,
+      "step": 1226
+    },
+    {
+      "epoch": 0.49000799360511593,
+      "loss": 0.9251545667648315,
+      "loss_ce": 0.10462842881679535,
+      "loss_xval": 0.8203125,
+      "num_input_tokens_seen": 211899872,
+      "step": 1226
+    },
+    {
+      "epoch": 0.4904076738609113,
+      "grad_norm": 42.74553283537623,
+      "learning_rate": 5e-06,
+      "loss": 0.917,
+      "num_input_tokens_seen": 212072968,
+      "step": 1227
+    },
+    {
+      "epoch": 0.4904076738609113,
+      "loss": 1.1364541053771973,
+      "loss_ce": 0.09052520245313644,
+      "loss_xval": 1.046875,
+      "num_input_tokens_seen": 212072968,
+      "step": 1227
+    },
+    {
+      "epoch": 0.4908073541167066,
+      "grad_norm": 39.42896536840982,
+      "learning_rate": 5e-06,
+      "loss": 0.4878,
+      "num_input_tokens_seen": 212246136,
+      "step": 1228
+    },
+    {
+      "epoch": 0.4908073541167066,
+      "loss": 0.45796746015548706,
+      "loss_ce": 0.05721063166856766,
+      "loss_xval": 0.400390625,
+      "num_input_tokens_seen": 212246136,
+      "step": 1228
+    },
+    {
+      "epoch": 0.491207034372502,
+      "grad_norm": 49.5355844201104,
+      "learning_rate": 5e-06,
+      "loss": 1.0534,
+      "num_input_tokens_seen": 212419256,
+      "step": 1229
+    },
+    {
+      "epoch": 0.491207034372502,
+      "loss": 1.6057854890823364,
+      "loss_ce": 0.05982610583305359,
+      "loss_xval": 1.546875,
+      "num_input_tokens_seen": 212419256,
+      "step": 1229
+    },
+    {
+      "epoch": 0.49160671462829736,
+      "grad_norm": 53.85482243731108,
+      "learning_rate": 5e-06,
+      "loss": 0.4841,
+      "num_input_tokens_seen": 212592272,
+      "step": 1230
+    },
+    {
+      "epoch": 0.49160671462829736,
+      "loss": 0.3914153575897217,
+      "loss_ce": 0.05328058823943138,
+      "loss_xval": 0.337890625,
+      "num_input_tokens_seen": 212592272,
+      "step": 1230
+    },
+    {
+      "epoch": 0.4920063948840927,
+      "grad_norm": 29.615996478413024,
+      "learning_rate": 5e-06,
+      "loss": 0.6303,
+      "num_input_tokens_seen": 212765424,
+      "step": 1231
+    },
+    {
+      "epoch": 0.4920063948840927,
+      "loss": 0.8910754919052124,
+      "loss_ce": 0.04480774700641632,
+      "loss_xval": 0.84765625,
+      "num_input_tokens_seen": 212765424,
+      "step": 1231
+    },
+    {
+      "epoch": 0.4924060751398881,
+      "grad_norm": 22.122138227281248,
+      "learning_rate": 5e-06,
+      "loss": 0.6796,
+      "num_input_tokens_seen": 212938128,
+      "step": 1232
+    },
+    {
+      "epoch": 0.4924060751398881,
+      "loss": 0.9208757281303406,
+      "loss_ce": 0.03565235063433647,
+      "loss_xval": 0.88671875,
+      "num_input_tokens_seen": 212938128,
+      "step": 1232
+    },
+    {
+      "epoch": 0.49280575539568344,
+      "grad_norm": 37.455588321599855,
+      "learning_rate": 5e-06,
+      "loss": 0.5403,
+      "num_input_tokens_seen": 213111032,
+      "step": 1233
+    },
+    {
+      "epoch": 0.49280575539568344,
+      "loss": 0.3303181231021881,
+      "loss_ce": 0.027003923431038857,
+      "loss_xval": 0.302734375,
+      "num_input_tokens_seen": 213111032,
+      "step": 1233
+    },
+    {
+      "epoch": 0.49320543565147884,
+      "grad_norm": 26.199194983743542,
+      "learning_rate": 5e-06,
+      "loss": 0.5541,
+      "num_input_tokens_seen": 213284168,
+      "step": 1234
+    },
+    {
+      "epoch": 0.49320543565147884,
+      "loss": 0.5545949935913086,
+      "loss_ce": 0.04916280135512352,
+      "loss_xval": 0.50390625,
+      "num_input_tokens_seen": 213284168,
+      "step": 1234
+    },
+    {
+      "epoch": 0.4936051159072742,
+      "grad_norm": 48.729256475162536,
+      "learning_rate": 5e-06,
+      "loss": 0.6151,
+      "num_input_tokens_seen": 213456952,
+      "step": 1235
+    },
+    {
+      "epoch": 0.4936051159072742,
+      "loss": 0.6374036073684692,
+      "loss_ce": 0.032087456434965134,
+      "loss_xval": 0.60546875,
+      "num_input_tokens_seen": 213456952,
+      "step": 1235
+    },
+    {
+      "epoch": 0.4940047961630695,
+      "grad_norm": 43.01829750124253,
+      "learning_rate": 5e-06,
+      "loss": 0.4977,
+      "num_input_tokens_seen": 213630232,
+      "step": 1236
+    },
+    {
+      "epoch": 0.4940047961630695,
+      "loss": 0.4653409421443939,
+      "loss_ce": 0.024789176881313324,
+      "loss_xval": 0.44140625,
+      "num_input_tokens_seen": 213630232,
+      "step": 1236
+    },
+    {
+      "epoch": 0.4944044764188649,
+      "grad_norm": 32.54880413499179,
+      "learning_rate": 5e-06,
+      "loss": 0.3181,
+      "num_input_tokens_seen": 213803368,
+      "step": 1237
+    },
+    {
+      "epoch": 0.4944044764188649,
+      "loss": 0.4874266982078552,
+      "loss_ce": 0.01226796768605709,
+      "loss_xval": 0.474609375,
+      "num_input_tokens_seen": 213803368,
+      "step": 1237
+    },
+    {
+      "epoch": 0.49480415667466027,
+      "grad_norm": 45.33323015772085,
+      "learning_rate": 5e-06,
+      "loss": 0.793,
+      "num_input_tokens_seen": 213976184,
+      "step": 1238
+    },
+    {
+      "epoch": 0.49480415667466027,
+      "loss": 0.8546011447906494,
+      "loss_ce": 0.0273917093873024,
+      "loss_xval": 0.828125,
+      "num_input_tokens_seen": 213976184,
+      "step": 1238
+    },
+    {
+      "epoch": 0.4952038369304556,
+      "grad_norm": 58.6602616771861,
+      "learning_rate": 5e-06,
+      "loss": 0.6672,
+      "num_input_tokens_seen": 214149208,
+      "step": 1239
+    },
+    {
+      "epoch": 0.4952038369304556,
+      "loss": 0.7796196341514587,
+      "loss_ce": 0.021196816116571426,
+      "loss_xval": 0.7578125,
+      "num_input_tokens_seen": 214149208,
+      "step": 1239
+    },
+    {
+      "epoch": 0.495603517186251,
+      "grad_norm": 41.12794193465622,
+      "learning_rate": 5e-06,
+      "loss": 0.4236,
+      "num_input_tokens_seen": 214322368,
+      "step": 1240
+    },
+    {
+      "epoch": 0.495603517186251,
+      "loss": 0.352802038192749,
+      "loss_ce": 0.019183889031410217,
+      "loss_xval": 0.333984375,
+      "num_input_tokens_seen": 214322368,
+      "step": 1240
+    },
+    {
+      "epoch": 0.49600319744204635,
+      "grad_norm": 57.576106531202115,
+      "learning_rate": 5e-06,
+      "loss": 0.5261,
+      "num_input_tokens_seen": 214494992,
+      "step": 1241
+    },
+    {
+      "epoch": 0.49600319744204635,
+      "loss": 0.36257174611091614,
+      "loss_ce": 0.01869969069957733,
+      "loss_xval": 0.34375,
+      "num_input_tokens_seen": 214494992,
+      "step": 1241
+    },
+    {
+      "epoch": 0.49640287769784175,
+      "grad_norm": 44.020812396343615,
+      "learning_rate": 5e-06,
+      "loss": 0.5488,
+      "num_input_tokens_seen": 214668120,
+      "step": 1242
+    },
+    {
+      "epoch": 0.49640287769784175,
+      "loss": 0.610977828502655,
+      "loss_ce": 0.02009648270905018,
+      "loss_xval": 0.58984375,
+      "num_input_tokens_seen": 214668120,
+      "step": 1242
+    },
+    {
+      "epoch": 0.4968025579536371,
+      "grad_norm": 61.870825774278416,
+      "learning_rate": 5e-06,
+      "loss": 0.5893,
+      "num_input_tokens_seen": 214841232,
+      "step": 1243
+    },
+    {
+      "epoch": 0.4968025579536371,
+      "loss": 0.7896366715431213,
+      "loss_ce": 0.028238333761692047,
+      "loss_xval": 0.76171875,
+      "num_input_tokens_seen": 214841232,
+      "step": 1243
+    },
+    {
+      "epoch": 0.49720223820943243,
+      "grad_norm": 41.17697077521213,
+      "learning_rate": 5e-06,
+      "loss": 0.5542,
+      "num_input_tokens_seen": 215014424,
+      "step": 1244
+    },
+    {
+      "epoch": 0.49720223820943243,
+      "loss": 0.680115818977356,
+      "loss_ce": 0.009522556327283382,
+      "loss_xval": 0.671875,
+      "num_input_tokens_seen": 215014424,
+      "step": 1244
+    },
+    {
+      "epoch": 0.49760191846522783,
+      "grad_norm": 76.82017942798518,
+      "learning_rate": 5e-06,
+      "loss": 0.6606,
+      "num_input_tokens_seen": 215187240,
+      "step": 1245
+    },
+    {
+      "epoch": 0.49760191846522783,
+      "loss": 0.577049732208252,
+      "loss_ce": 0.02297259122133255,
+      "loss_xval": 0.5546875,
+      "num_input_tokens_seen": 215187240,
+      "step": 1245
+    },
+    {
+      "epoch": 0.4980015987210232,
+      "grad_norm": 49.35990869457503,
+      "learning_rate": 5e-06,
+      "loss": 0.4436,
+      "num_input_tokens_seen": 215356856,
+      "step": 1246
+    },
+    {
+      "epoch": 0.4980015987210232,
+      "loss": 0.52464359998703,
+      "loss_ce": 0.01289433240890503,
+      "loss_xval": 0.51171875,
+      "num_input_tokens_seen": 215356856,
+      "step": 1246
+    },
+    {
+      "epoch": 0.4984012789768185,
+      "grad_norm": 30.431804132343178,
+      "learning_rate": 5e-06,
+      "loss": 0.4152,
+      "num_input_tokens_seen": 215529512,
+      "step": 1247
+    },
+    {
+      "epoch": 0.4984012789768185,
+      "loss": 0.39520263671875,
+      "loss_ce": 0.004180910065770149,
+      "loss_xval": 0.390625,
+      "num_input_tokens_seen": 215529512,
+      "step": 1247
+    },
+    {
+      "epoch": 0.4988009592326139,
+      "grad_norm": 79.43813542549815,
+      "learning_rate": 5e-06,
+      "loss": 0.7606,
+      "num_input_tokens_seen": 215702560,
+      "step": 1248
+    },
+    {
+      "epoch": 0.4988009592326139,
+      "loss": 0.8635843396186829,
+      "loss_ce": 0.006284565664827824,
+      "loss_xval": 0.85546875,
+      "num_input_tokens_seen": 215702560,
+      "step": 1248
+    },
+    {
+      "epoch": 0.49920063948840926,
+      "grad_norm": 46.9042618380455,
+      "learning_rate": 5e-06,
+      "loss": 0.5143,
+      "num_input_tokens_seen": 215875760,
+      "step": 1249
+    },
+    {
+      "epoch": 0.49920063948840926,
+      "loss": 0.5450088381767273,
+      "loss_ce": 0.0034438944421708584,
+      "loss_xval": 0.54296875,
+      "num_input_tokens_seen": 215875760,
+      "step": 1249
+    },
+    {
+      "epoch": 0.49960031974420466,
+      "grad_norm": 44.95576452572528,
+      "learning_rate": 5e-06,
+      "loss": 0.8945,
+      "num_input_tokens_seen": 216048592,
+      "step": 1250
+    },
+    {
+      "epoch": 0.49960031974420466,
+      "eval_websight_new_IoU": 0.46755318343639374,
+      "eval_websight_new_MAE_all": 0.01638866774737835,
+      "eval_websight_new_MAE_h": 0.004519310197792947,
+      "eval_websight_new_MAE_w": 0.030832246877253056,
+      "eval_websight_new_MAE_x": 0.014988915994763374,
+      "eval_websight_new_MAE_y": 0.015214197337627411,
+      "eval_websight_new_NUM_probability": 0.9706818461418152,
+      "eval_websight_new_inside_bbox": 0.7760416567325592,
+      "eval_websight_new_loss": 0.11890730261802673,
+      "eval_websight_new_loss_ce": 0.0031176727497950196,
+      "eval_websight_new_loss_xval": 0.097412109375,
+      "eval_websight_new_runtime": 56.3167,
+      "eval_websight_new_samples_per_second": 0.888,
+      "eval_websight_new_steps_per_second": 0.036,
+      "num_input_tokens_seen": 216048592,
+      "step": 1250
+    },
+    {
+      "epoch": 0.49960031974420466,
+      "eval_seeclick_IoU": 0.2279941290616989,
+      "eval_seeclick_MAE_all": 0.07300104945898056,
+      "eval_seeclick_MAE_h": 0.023876951076090336,
+      "eval_seeclick_MAE_w": 0.0947648361325264,
+      "eval_seeclick_MAE_x": 0.10035844147205353,
+      "eval_seeclick_MAE_y": 0.0730039793998003,
+      "eval_seeclick_NUM_probability": 0.9678144454956055,
+      "eval_seeclick_inside_bbox": 0.4288194477558136,
+      "eval_seeclick_loss": 1.8150830268859863,
+      "eval_seeclick_loss_ce": 0.013575777411460876,
+      "eval_seeclick_loss_xval": 1.76678466796875,
+      "eval_seeclick_runtime": 81.5951,
+      "eval_seeclick_samples_per_second": 0.613,
+      "eval_seeclick_steps_per_second": 0.025,
+      "num_input_tokens_seen": 216048592,
+      "step": 1250
+    },
+    {
+      "epoch": 0.49960031974420466,
+      "eval_icons_IoU": 0.1491006501019001,
+      "eval_icons_MAE_all": 0.023428103420883417,
+      "eval_icons_MAE_h": 0.009299044031649828,
+      "eval_icons_MAE_w": 0.006808809470385313,
+      "eval_icons_MAE_x": 0.0501435212790966,
+      "eval_icons_MAE_y": 0.0274610361084342,
+      "eval_icons_NUM_probability": 0.9710031449794769,
+      "eval_icons_inside_bbox": 0.2708333358168602,
+      "eval_icons_loss": 0.2193080484867096,
+      "eval_icons_loss_ce": 0.0031963232904672623,
+      "eval_icons_loss_xval": 0.18771743774414062,
+      "eval_icons_runtime": 86.547,
+      "eval_icons_samples_per_second": 0.578,
+      "eval_icons_steps_per_second": 0.023,
+      "num_input_tokens_seen": 216048592,
+      "step": 1250
+    },
+    {
+      "epoch": 0.49960031974420466,
+      "loss": 0.33800265192985535,
+      "loss_ce": 0.003209566930308938,
+      "loss_xval": 0.333984375,
+      "num_input_tokens_seen": 216048592,
+      "step": 1250
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 56.2359235987798,
+      "learning_rate": 5e-06,
+      "loss": 0.9024,
+      "num_input_tokens_seen": 216221720,
+      "step": 1251
+    },
+    {
+      "epoch": 0.5,
+      "loss": 0.8478096723556519,
+      "loss_ce": 0.007721788249909878,
+      "loss_xval": 0.83984375,
+      "num_input_tokens_seen": 216221720,
+      "step": 1251
+    },
+    {
+      "epoch": 0.5003996802557954,
+      "grad_norm": 25.41910553147172,
+      "learning_rate": 5e-06,
+      "loss": 0.5755,
+      "num_input_tokens_seen": 216394976,
+      "step": 1252
+    },
+    {
+      "epoch": 0.5003996802557954,
+      "loss": 0.5523375272750854,
+      "loss_ce": 0.006713734474033117,
+      "loss_xval": 0.546875,
+      "num_input_tokens_seen": 216394976,
+      "step": 1252
+    },
+    {
+      "epoch": 0.5007993605115907,
+      "grad_norm": 32.41052618484067,
+      "learning_rate": 5e-06,
+      "loss": 0.7387,
+      "num_input_tokens_seen": 216567976,
+      "step": 1253
+    },
+    {
+      "epoch": 0.5007993605115907,
+      "loss": 0.8942447900772095,
+      "loss_ce": 0.009235035628080368,
+      "loss_xval": 0.88671875,
+      "num_input_tokens_seen": 216567976,
+      "step": 1253
+    },
+    {
+      "epoch": 0.5011990407673861,
+      "grad_norm": 47.47149033729788,
+      "learning_rate": 5e-06,
+      "loss": 0.5451,
+      "num_input_tokens_seen": 216740976,
+      "step": 1254
+    },
+    {
+      "epoch": 0.5011990407673861,
+      "loss": 0.34523525834083557,
+      "loss_ce": 0.006917405407875776,
+      "loss_xval": 0.337890625,
+      "num_input_tokens_seen": 216740976,
+      "step": 1254
+    },
+    {
+      "epoch": 0.5015987210231815,
+      "grad_norm": 33.76916038849005,
+      "learning_rate": 5e-06,
+      "loss": 0.462,
+      "num_input_tokens_seen": 216913768,
+      "step": 1255
+    },
+    {
+      "epoch": 0.5015987210231815,
+      "loss": 0.37124156951904297,
+      "loss_ce": 0.002772345207631588,
+      "loss_xval": 0.369140625,
+      "num_input_tokens_seen": 216913768,
+      "step": 1255
+    },
+    {
+      "epoch": 0.5019984012789768,
+      "grad_norm": 38.361290403427155,
+      "learning_rate": 5e-06,
+      "loss": 0.4189,
+      "num_input_tokens_seen": 217086576,
+      "step": 1256
+    },
+    {
+      "epoch": 0.5019984012789768,
+      "loss": 0.36219191551208496,
+      "loss_ce": 0.00684523768723011,
+      "loss_xval": 0.35546875,
+      "num_input_tokens_seen": 217086576,
+      "step": 1256
+    },
+    {
+      "epoch": 0.5023980815347722,
+      "grad_norm": 39.2253317331318,
+      "learning_rate": 5e-06,
+      "loss": 0.4246,
+      "num_input_tokens_seen": 217259736,
+      "step": 1257
+    },
+    {
+      "epoch": 0.5023980815347722,
+      "loss": 0.5401076078414917,
+      "loss_ce": 0.010536082088947296,
+      "loss_xval": 0.53125,
+      "num_input_tokens_seen": 217259736,
+      "step": 1257
+    },
+    {
+      "epoch": 0.5027977617905676,
+      "grad_norm": 32.08576453335854,
+      "learning_rate": 5e-06,
+      "loss": 0.6911,
+      "num_input_tokens_seen": 217432720,
+      "step": 1258
+    },
+    {
+      "epoch": 0.5027977617905676,
+      "loss": 0.46980804204940796,
+      "loss_ce": 0.004964273888617754,
+      "loss_xval": 0.46484375,
+      "num_input_tokens_seen": 217432720,
+      "step": 1258
+    },
+    {
+      "epoch": 0.503197442046363,
+      "grad_norm": 52.40906144418351,
+      "learning_rate": 5e-06,
+      "loss": 0.4735,
+      "num_input_tokens_seen": 217605680,
+      "step": 1259
+    },
+    {
+      "epoch": 0.503197442046363,
+      "loss": 0.3017037510871887,
+      "loss_ce": 0.009772591292858124,
+      "loss_xval": 0.291015625,
+      "num_input_tokens_seen": 217605680,
+      "step": 1259
+    },
+    {
+      "epoch": 0.5035971223021583,
+      "grad_norm": 27.32132146628816,
+      "learning_rate": 5e-06,
+      "loss": 0.5435,
+      "num_input_tokens_seen": 217778576,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5035971223021583,
+      "loss": 0.30970054864883423,
+      "loss_ce": 0.009041349403560162,
+      "loss_xval": 0.30078125,
+      "num_input_tokens_seen": 217778576,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5039968025579536,
+      "grad_norm": 56.69177348549417,
+      "learning_rate": 5e-06,
+      "loss": 0.4164,
+      "num_input_tokens_seen": 217951296,
+      "step": 1261
+    },
+    {
+      "epoch": 0.5039968025579536,
+      "loss": 0.32917362451553345,
+      "loss_ce": 0.0054126461036503315,
+      "loss_xval": 0.32421875,
+      "num_input_tokens_seen": 217951296,
+      "step": 1261
+    },
+    {
+      "epoch": 0.504396482813749,
+      "grad_norm": 33.190618492693645,
+      "learning_rate": 5e-06,
+      "loss": 0.5033,
+      "num_input_tokens_seen": 218124328,
+      "step": 1262
+    },
+    {
+      "epoch": 0.504396482813749,
+      "loss": 0.45435625314712524,
+      "loss_ce": 0.0076399631798267365,
+      "loss_xval": 0.447265625,
+      "num_input_tokens_seen": 218124328,
+      "step": 1262
+    },
+    {
+      "epoch": 0.5047961630695443,
+      "grad_norm": 108.08898692175731,
+      "learning_rate": 5e-06,
+      "loss": 0.4897,
+      "num_input_tokens_seen": 218296984,
+      "step": 1263
+    },
+    {
+      "epoch": 0.5047961630695443,
+      "loss": 0.45390087366104126,
+      "loss_ce": 0.00871045421808958,
+      "loss_xval": 0.4453125,
+      "num_input_tokens_seen": 218296984,
+      "step": 1263
+    },
+    {
+      "epoch": 0.5051958433253397,
+      "grad_norm": 21.718718812429533,
+      "learning_rate": 5e-06,
+      "loss": 0.2889,
+      "num_input_tokens_seen": 218469976,
+      "step": 1264
+    },
+    {
+      "epoch": 0.5051958433253397,
+      "loss": 0.2596575617790222,
+      "loss_ce": 0.009230328723788261,
+      "loss_xval": 0.25,
+      "num_input_tokens_seen": 218469976,
+      "step": 1264
+    },
+    {
+      "epoch": 0.5055955235811351,
+      "grad_norm": 37.47124945247608,
+      "learning_rate": 5e-06,
+      "loss": 0.6292,
+      "num_input_tokens_seen": 218639192,
+      "step": 1265
+    },
+    {
+      "epoch": 0.5055955235811351,
+      "loss": 0.6127042770385742,
+      "loss_ce": 0.003237716155126691,
+      "loss_xval": 0.609375,
+      "num_input_tokens_seen": 218639192,
+      "step": 1265
+    },
+    {
+      "epoch": 0.5059952038369304,
+      "grad_norm": 61.16539980854701,
+      "learning_rate": 5e-06,
+      "loss": 0.7032,
+      "num_input_tokens_seen": 218812232,
+      "step": 1266
+    },
+    {
+      "epoch": 0.5059952038369304,
+      "loss": 0.6988984942436218,
+      "loss_ce": 0.00425736466422677,
+      "loss_xval": 0.6953125,
+      "num_input_tokens_seen": 218812232,
+      "step": 1266
+    },
+    {
+      "epoch": 0.5063948840927258,
+      "grad_norm": 78.5806516668246,
+      "learning_rate": 5e-06,
+      "loss": 0.3494,
+      "num_input_tokens_seen": 218985632,
+      "step": 1267
+    },
+    {
+      "epoch": 0.5063948840927258,
+      "loss": 0.35586732625961304,
+      "loss_ce": 0.007844888605177402,
+      "loss_xval": 0.34765625,
+      "num_input_tokens_seen": 218985632,
+      "step": 1267
+    },
+    {
+      "epoch": 0.5067945643485212,
+      "grad_norm": 59.790638905805274,
+      "learning_rate": 5e-06,
+      "loss": 0.6626,
+      "num_input_tokens_seen": 219159072,
+      "step": 1268
+    },
+    {
+      "epoch": 0.5067945643485212,
+      "loss": 0.6986931562423706,
+      "loss_ce": 0.0025871843099594116,
+      "loss_xval": 0.6953125,
+      "num_input_tokens_seen": 219159072,
+      "step": 1268
+    },
+    {
+      "epoch": 0.5071942446043165,
+      "grad_norm": 62.29636011421407,
+      "learning_rate": 5e-06,
+      "loss": 0.487,
+      "num_input_tokens_seen": 219332328,
+      "step": 1269
+    },
+    {
+      "epoch": 0.5071942446043165,
+      "loss": 0.49609100818634033,
+      "loss_ce": 0.0033542001619935036,
+      "loss_xval": 0.4921875,
+      "num_input_tokens_seen": 219332328,
+      "step": 1269
+    },
+    {
+      "epoch": 0.5075939248601119,
+      "grad_norm": 69.1067299073295,
+      "learning_rate": 5e-06,
+      "loss": 0.4005,
+      "num_input_tokens_seen": 219505336,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5075939248601119,
+      "loss": 0.40173617005348206,
+      "loss_ce": 0.006960791535675526,
+      "loss_xval": 0.39453125,
+      "num_input_tokens_seen": 219505336,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5079936051159073,
+      "grad_norm": 46.18987949039075,
+      "learning_rate": 5e-06,
+      "loss": 0.6363,
+      "num_input_tokens_seen": 219678016,
+      "step": 1271
+    },
+    {
+      "epoch": 0.5079936051159073,
+      "loss": 0.8009523749351501,
+      "loss_ce": 0.003787450725212693,
+      "loss_xval": 0.796875,
+      "num_input_tokens_seen": 219678016,
+      "step": 1271
+    },
+    {
+      "epoch": 0.5083932853717026,
+      "grad_norm": 80.61756373894711,
+      "learning_rate": 5e-06,
+      "loss": 0.5925,
+      "num_input_tokens_seen": 219851080,
+      "step": 1272
+    },
+    {
+      "epoch": 0.5083932853717026,
+      "loss": 0.4208008050918579,
+      "loss_ce": 0.00719609297811985,
+      "loss_xval": 0.4140625,
+      "num_input_tokens_seen": 219851080,
+      "step": 1272
+    },
+    {
+      "epoch": 0.508792965627498,
+      "grad_norm": 24.109669016327093,
+      "learning_rate": 5e-06,
+      "loss": 0.3739,
+      "num_input_tokens_seen": 220024640,
+      "step": 1273
+    },
+    {
+      "epoch": 0.508792965627498,
+      "loss": 0.387967050075531,
+      "loss_ce": 0.005032491870224476,
+      "loss_xval": 0.3828125,
+      "num_input_tokens_seen": 220024640,
+      "step": 1273
+    },
+    {
+      "epoch": 0.5091926458832934,
+      "grad_norm": 45.963819514467495,
+      "learning_rate": 5e-06,
+      "loss": 0.4557,
+      "num_input_tokens_seen": 220197848,
+      "step": 1274
+    },
+    {
+      "epoch": 0.5091926458832934,
+      "loss": 0.29403769969940186,
+      "loss_ce": 0.008789882063865662,
+      "loss_xval": 0.28515625,
+      "num_input_tokens_seen": 220197848,
+      "step": 1274
+    },
+    {
+      "epoch": 0.5095923261390888,
+      "grad_norm": 54.94754414475741,
+      "learning_rate": 5e-06,
+      "loss": 0.6258,
+      "num_input_tokens_seen": 220370784,
+      "step": 1275
+    },
+    {
+      "epoch": 0.5095923261390888,
+      "loss": 0.6867777109146118,
+      "loss_ce": 0.009470607154071331,
+      "loss_xval": 0.67578125,
+      "num_input_tokens_seen": 220370784,
+      "step": 1275
+    },
+    {
+      "epoch": 0.5099920063948841,
+      "grad_norm": 37.56208223998764,
+      "learning_rate": 5e-06,
+      "loss": 0.7402,
+      "num_input_tokens_seen": 220543944,
+      "step": 1276
+    },
+    {
+      "epoch": 0.5099920063948841,
+      "loss": 0.28449493646621704,
+      "loss_ce": 0.0019937213510274887,
+      "loss_xval": 0.283203125,
+      "num_input_tokens_seen": 220543944,
+      "step": 1276
+    },
+    {
+      "epoch": 0.5103916866506795,
+      "grad_norm": 86.38962127574528,
+      "learning_rate": 5e-06,
+      "loss": 0.2525,
+      "num_input_tokens_seen": 220716584,
+      "step": 1277
+    },
+    {
+      "epoch": 0.5103916866506795,
+      "loss": 0.36348748207092285,
+      "loss_ce": 0.004051441326737404,
+      "loss_xval": 0.359375,
+      "num_input_tokens_seen": 220716584,
+      "step": 1277
+    },
+    {
+      "epoch": 0.5107913669064749,
+      "grad_norm": 41.557195679205826,
+      "learning_rate": 5e-06,
+      "loss": 0.4988,
+      "num_input_tokens_seen": 220889464,
+      "step": 1278
+    },
+    {
+      "epoch": 0.5107913669064749,
+      "loss": 0.4272310435771942,
+      "loss_ce": 0.0021822056733071804,
+      "loss_xval": 0.42578125,
+      "num_input_tokens_seen": 220889464,
+      "step": 1278
+    },
+    {
+      "epoch": 0.5111910471622702,
+      "grad_norm": 72.04043333354636,
+      "learning_rate": 5e-06,
+      "loss": 0.5884,
+      "num_input_tokens_seen": 221061952,
+      "step": 1279
+    },
+    {
+      "epoch": 0.5111910471622702,
+      "loss": 0.7456511855125427,
+      "loss_ce": 0.004440242424607277,
+      "loss_xval": 0.7421875,
+      "num_input_tokens_seen": 221061952,
+      "step": 1279
+    },
+    {
+      "epoch": 0.5115907274180655,
+      "grad_norm": 54.40269586756929,
+      "learning_rate": 5e-06,
+      "loss": 0.5129,
+      "num_input_tokens_seen": 221234880,
+      "step": 1280
+    },
+    {
+      "epoch": 0.5115907274180655,
+      "loss": 0.6264010071754456,
+      "loss_ce": 0.0085421372205019,
+      "loss_xval": 0.6171875,
+      "num_input_tokens_seen": 221234880,
+      "step": 1280
+    },
+    {
+      "epoch": 0.511990407673861,
+      "grad_norm": 60.383568725505285,
+      "learning_rate": 5e-06,
+      "loss": 0.9545,
+      "num_input_tokens_seen": 221408088,
+      "step": 1281
+    },
+    {
+      "epoch": 0.511990407673861,
+      "loss": 0.9138003587722778,
+      "loss_ce": 0.009747644886374474,
+      "loss_xval": 0.90234375,
+      "num_input_tokens_seen": 221408088,
+      "step": 1281
+    },
+    {
+      "epoch": 0.5123900879296562,
+      "grad_norm": 24.245343297674463,
+      "learning_rate": 5e-06,
+      "loss": 0.4102,
+      "num_input_tokens_seen": 221581192,
+      "step": 1282
+    },
+    {
+      "epoch": 0.5123900879296562,
+      "loss": 0.2816739082336426,
+      "loss_ce": 0.0051236217841506,
+      "loss_xval": 0.27734375,
+      "num_input_tokens_seen": 221581192,
+      "step": 1282
+    },
+    {
+      "epoch": 0.5127897681854516,
+      "grad_norm": 36.034373770787454,
+      "learning_rate": 5e-06,
+      "loss": 0.4183,
+      "num_input_tokens_seen": 221753984,
+      "step": 1283
+    },
+    {
+      "epoch": 0.5127897681854516,
+      "loss": 0.28008684515953064,
+      "loss_ce": 0.006466236896812916,
+      "loss_xval": 0.2734375,
+      "num_input_tokens_seen": 221753984,
+      "step": 1283
+    },
+    {
+      "epoch": 0.513189448441247,
+      "grad_norm": 33.97082506216034,
+      "learning_rate": 5e-06,
+      "loss": 0.7656,
+      "num_input_tokens_seen": 221927128,
+      "step": 1284
+    },
+    {
+      "epoch": 0.513189448441247,
+      "loss": 0.9152973890304565,
+      "loss_ce": 0.005415809340775013,
+      "loss_xval": 0.91015625,
+      "num_input_tokens_seen": 221927128,
+      "step": 1284
+    },
+    {
+      "epoch": 0.5135891286970423,
+      "grad_norm": 38.15398027342218,
+      "learning_rate": 5e-06,
+      "loss": 0.6912,
+      "num_input_tokens_seen": 222100064,
+      "step": 1285
+    },
+    {
+      "epoch": 0.5135891286970423,
+      "loss": 0.43050551414489746,
+      "loss_ce": 0.0032594138756394386,
+      "loss_xval": 0.427734375,
+      "num_input_tokens_seen": 222100064,
+      "step": 1285
+    },
+    {
+      "epoch": 0.5139888089528377,
+      "grad_norm": 17.77718576528173,
+      "learning_rate": 5e-06,
+      "loss": 0.4619,
+      "num_input_tokens_seen": 222273144,
+      "step": 1286
+    },
+    {
+      "epoch": 0.5139888089528377,
+      "loss": 0.502855122089386,
+      "loss_ce": 0.007493783254176378,
+      "loss_xval": 0.49609375,
+      "num_input_tokens_seen": 222273144,
+      "step": 1286
+    },
+    {
+      "epoch": 0.5143884892086331,
+      "grad_norm": 49.07971279565783,
+      "learning_rate": 5e-06,
+      "loss": 0.5318,
+      "num_input_tokens_seen": 222446248,
+      "step": 1287
+    },
+    {
+      "epoch": 0.5143884892086331,
+      "loss": 0.3896329402923584,
+      "loss_ce": 0.01567053608596325,
+      "loss_xval": 0.373046875,
+      "num_input_tokens_seen": 222446248,
+      "step": 1287
+    },
+    {
+      "epoch": 0.5147881694644284,
+      "grad_norm": 21.411674481901443,
+      "learning_rate": 5e-06,
+      "loss": 0.4787,
+      "num_input_tokens_seen": 222619208,
+      "step": 1288
+    },
+    {
+      "epoch": 0.5147881694644284,
+      "loss": 0.6500849723815918,
+      "loss_ce": 0.01007033046334982,
+      "loss_xval": 0.640625,
+      "num_input_tokens_seen": 222619208,
+      "step": 1288
+    },
+    {
+      "epoch": 0.5151878497202238,
+      "grad_norm": 69.27709990958668,
+      "learning_rate": 5e-06,
+      "loss": 0.6783,
+      "num_input_tokens_seen": 222792208,
+      "step": 1289
+    },
+    {
+      "epoch": 0.5151878497202238,
+      "loss": 0.657429575920105,
+      "loss_ce": 0.0020950797479599714,
+      "loss_xval": 0.65625,
+      "num_input_tokens_seen": 222792208,
+      "step": 1289
+    },
+    {
+      "epoch": 0.5155875299760192,
+      "grad_norm": 35.61428154048361,
+      "learning_rate": 5e-06,
+      "loss": 0.4603,
+      "num_input_tokens_seen": 222965128,
+      "step": 1290
+    },
+    {
+      "epoch": 0.5155875299760192,
+      "loss": 0.27936655282974243,
+      "loss_ce": 0.0025415923446416855,
+      "loss_xval": 0.27734375,
+      "num_input_tokens_seen": 222965128,
+      "step": 1290
+    },
+    {
+      "epoch": 0.5159872102318146,
+      "grad_norm": 74.58818630856017,
+      "learning_rate": 5e-06,
+      "loss": 0.5112,
+      "num_input_tokens_seen": 223137904,
+      "step": 1291
+    },
+    {
+      "epoch": 0.5159872102318146,
+      "loss": 0.5828518867492676,
+      "loss_ce": 0.003628222271800041,
+      "loss_xval": 0.578125,
+      "num_input_tokens_seen": 223137904,
+      "step": 1291
+    },
+    {
+      "epoch": 0.5163868904876099,
+      "grad_norm": 80.74060896190802,
+      "learning_rate": 5e-06,
+      "loss": 0.4543,
+      "num_input_tokens_seen": 223310688,
+      "step": 1292
+    },
+    {
+      "epoch": 0.5163868904876099,
+      "loss": 0.4423733055591583,
+      "loss_ce": 0.004201945383101702,
+      "loss_xval": 0.4375,
+      "num_input_tokens_seen": 223310688,
+      "step": 1292
+    },
+    {
+      "epoch": 0.5167865707434053,
+      "grad_norm": 84.13859190094642,
+      "learning_rate": 5e-06,
+      "loss": 0.3072,
+      "num_input_tokens_seen": 223483768,
+      "step": 1293
+    },
+    {
+      "epoch": 0.5167865707434053,
+      "loss": 0.27045226097106934,
+      "loss_ce": 0.007879025302827358,
+      "loss_xval": 0.26171875,
+      "num_input_tokens_seen": 223483768,
+      "step": 1293
+    },
+    {
+      "epoch": 0.5171862509992007,
+      "grad_norm": 67.13775547647433,
+      "learning_rate": 5e-06,
+      "loss": 0.4929,
+      "num_input_tokens_seen": 223656944,
+      "step": 1294
+    },
+    {
+      "epoch": 0.5171862509992007,
+      "loss": 0.6396459341049194,
+      "loss_ce": 0.004178367555141449,
+      "loss_xval": 0.63671875,
+      "num_input_tokens_seen": 223656944,
+      "step": 1294
+    },
+    {
+      "epoch": 0.517585931254996,
+      "grad_norm": 122.1235623959299,
+      "learning_rate": 5e-06,
+      "loss": 0.6337,
+      "num_input_tokens_seen": 223829944,
+      "step": 1295
+    },
+    {
+      "epoch": 0.517585931254996,
+      "loss": 0.5107072591781616,
+      "loss_ce": 0.006068557035177946,
+      "loss_xval": 0.50390625,
+      "num_input_tokens_seen": 223829944,
+      "step": 1295
+    },
+    {
+      "epoch": 0.5179856115107914,
+      "grad_norm": 23.06635214962515,
+      "learning_rate": 5e-06,
+      "loss": 0.451,
+      "num_input_tokens_seen": 224002944,
+      "step": 1296
+    },
+    {
+      "epoch": 0.5179856115107914,
+      "loss": 0.3327631950378418,
+      "loss_ce": 0.0022272877395153046,
+      "loss_xval": 0.330078125,
+      "num_input_tokens_seen": 224002944,
+      "step": 1296
+    },
+    {
+      "epoch": 0.5183852917665868,
+      "grad_norm": 72.82118466464544,
+      "learning_rate": 5e-06,
+      "loss": 0.3968,
+      "num_input_tokens_seen": 224176144,
+      "step": 1297
+    },
+    {
+      "epoch": 0.5183852917665868,
+      "loss": 0.18834558129310608,
+      "loss_ce": 0.003409042488783598,
+      "loss_xval": 0.1845703125,
+      "num_input_tokens_seen": 224176144,
+      "step": 1297
+    },
+    {
+      "epoch": 0.518784972022382,
+      "grad_norm": 22.046556325441585,
+      "learning_rate": 5e-06,
+      "loss": 0.6103,
+      "num_input_tokens_seen": 224349112,
+      "step": 1298
+    },
+    {
+      "epoch": 0.518784972022382,
+      "loss": 0.6086263656616211,
+      "loss_ce": 0.003767983755096793,
+      "loss_xval": 0.60546875,
+      "num_input_tokens_seen": 224349112,
+      "step": 1298
+    },
+    {
+      "epoch": 0.5191846522781774,
+      "grad_norm": 46.80144712333731,
+      "learning_rate": 5e-06,
+      "loss": 0.5122,
+      "num_input_tokens_seen": 224522008,
+      "step": 1299
+    },
+    {
+      "epoch": 0.5191846522781774,
+      "loss": 0.6673205494880676,
+      "loss_ce": 0.00789671204984188,
+      "loss_xval": 0.66015625,
+      "num_input_tokens_seen": 224522008,
+      "step": 1299
+    },
+    {
+      "epoch": 0.5195843325339728,
+      "grad_norm": 58.87556869060338,
+      "learning_rate": 5e-06,
+      "loss": 0.6155,
+      "num_input_tokens_seen": 224694608,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5195843325339728,
+      "loss": 0.45236122608184814,
+      "loss_ce": 0.004302144981920719,
+      "loss_xval": 0.447265625,
+      "num_input_tokens_seen": 224694608,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5199840127897681,
+      "grad_norm": 59.57025192167172,
+      "learning_rate": 5e-06,
+      "loss": 0.6062,
+      "num_input_tokens_seen": 224867824,
+      "step": 1301
+    },
+    {
+      "epoch": 0.5199840127897681,
+      "loss": 0.5515105128288269,
+      "loss_ce": 0.007199006155133247,
+      "loss_xval": 0.54296875,
+      "num_input_tokens_seen": 224867824,
+      "step": 1301
+    },
+    {
+      "epoch": 0.5203836930455635,
+      "grad_norm": 46.648119620488075,
+      "learning_rate": 5e-06,
+      "loss": 0.5472,
+      "num_input_tokens_seen": 225040896,
+      "step": 1302
+    },
+    {
+      "epoch": 0.5203836930455635,
+      "loss": 0.3536621034145355,
+      "loss_ce": 0.0044799624010920525,
+      "loss_xval": 0.349609375,
+      "num_input_tokens_seen": 225040896,
+      "step": 1302
+    },
+    {
+      "epoch": 0.5207833733013589,
+      "grad_norm": 21.096710126232633,
+      "learning_rate": 5e-06,
+      "loss": 0.3661,
+      "num_input_tokens_seen": 225213776,
+      "step": 1303
+    },
+    {
+      "epoch": 0.5207833733013589,
+      "loss": 0.47925370931625366,
+      "loss_ce": 0.004583288915455341,
+      "loss_xval": 0.474609375,
+      "num_input_tokens_seen": 225213776,
+      "step": 1303
+    },
+    {
+      "epoch": 0.5211830535571543,
+      "grad_norm": 45.00401125931439,
+      "learning_rate": 5e-06,
+      "loss": 0.4723,
+      "num_input_tokens_seen": 225386776,
+      "step": 1304
+    },
+    {
+      "epoch": 0.5211830535571543,
+      "loss": 0.3989310562610626,
+      "loss_ce": 0.005376371555030346,
+      "loss_xval": 0.39453125,
+      "num_input_tokens_seen": 225386776,
+      "step": 1304
+    },
+    {
+      "epoch": 0.5215827338129496,
+      "grad_norm": 47.83089787844274,
+      "learning_rate": 5e-06,
+      "loss": 0.4133,
+      "num_input_tokens_seen": 225559840,
+      "step": 1305
+    },
+    {
+      "epoch": 0.5215827338129496,
+      "loss": 0.2589433789253235,
+      "loss_ce": 0.0025346819311380386,
+      "loss_xval": 0.255859375,
+      "num_input_tokens_seen": 225559840,
+      "step": 1305
+    },
+    {
+      "epoch": 0.521982414068745,
+      "grad_norm": 76.45941526870152,
+      "learning_rate": 5e-06,
+      "loss": 0.4183,
+      "num_input_tokens_seen": 225732832,
+      "step": 1306
+    },
+    {
+      "epoch": 0.521982414068745,
+      "loss": 0.35908687114715576,
+      "loss_ce": 0.005754332058131695,
+      "loss_xval": 0.353515625,
+      "num_input_tokens_seen": 225732832,
+      "step": 1306
+    },
+    {
+      "epoch": 0.5223820943245404,
+      "grad_norm": 28.346923450799792,
+      "learning_rate": 5e-06,
+      "loss": 0.2043,
+      "num_input_tokens_seen": 225905584,
+      "step": 1307
+    },
+    {
+      "epoch": 0.5223820943245404,
+      "loss": 0.30641642212867737,
+      "loss_ce": 0.004780675284564495,
+      "loss_xval": 0.30078125,
+      "num_input_tokens_seen": 225905584,
+      "step": 1307
+    },
+    {
+      "epoch": 0.5227817745803357,
+      "grad_norm": 52.38544353874319,
+      "learning_rate": 5e-06,
+      "loss": 0.3302,
+      "num_input_tokens_seen": 226075200,
+      "step": 1308
+    },
+    {
+      "epoch": 0.5227817745803357,
+      "loss": 0.39421164989471436,
+      "loss_ce": 0.005997546017169952,
+      "loss_xval": 0.388671875,
+      "num_input_tokens_seen": 226075200,
+      "step": 1308
+    },
+    {
+      "epoch": 0.5231814548361311,
+      "grad_norm": 30.047970923730745,
+      "learning_rate": 5e-06,
+      "loss": 0.362,
+      "num_input_tokens_seen": 226248032,
+      "step": 1309
+    },
+    {
+      "epoch": 0.5231814548361311,
+      "loss": 0.17206686735153198,
+      "loss_ce": 0.002251807600259781,
+      "loss_xval": 0.169921875,
+      "num_input_tokens_seen": 226248032,
+      "step": 1309
+    },
+    {
+      "epoch": 0.5235811350919265,
+      "grad_norm": 21.06650577505968,
+      "learning_rate": 5e-06,
+      "loss": 0.3305,
+      "num_input_tokens_seen": 226420696,
+      "step": 1310
+    },
+    {
+      "epoch": 0.5235811350919265,
+      "loss": 0.42764365673065186,
+      "loss_ce": 0.01628197729587555,
+      "loss_xval": 0.412109375,
+      "num_input_tokens_seen": 226420696,
+      "step": 1310
+    },
+    {
+      "epoch": 0.5239808153477218,
+      "grad_norm": 54.162401748623466,
+      "learning_rate": 5e-06,
+      "loss": 0.3938,
+      "num_input_tokens_seen": 226593672,
+      "step": 1311
+    },
+    {
+      "epoch": 0.5239808153477218,
+      "loss": 0.16174665093421936,
+      "loss_ce": 0.0044895680621266365,
+      "loss_xval": 0.1572265625,
+      "num_input_tokens_seen": 226593672,
+      "step": 1311
+    },
+    {
+      "epoch": 0.5243804956035172,
+      "grad_norm": 25.92578935552127,
+      "learning_rate": 5e-06,
+      "loss": 0.7577,
+      "num_input_tokens_seen": 226766864,
+      "step": 1312
+    },
+    {
+      "epoch": 0.5243804956035172,
+      "loss": 0.7232966423034668,
+      "loss_ce": 0.0022577994968742132,
+      "loss_xval": 0.72265625,
+      "num_input_tokens_seen": 226766864,
+      "step": 1312
+    },
+    {
+      "epoch": 0.5247801758593126,
+      "grad_norm": 30.005024485668603,
+      "learning_rate": 5e-06,
+      "loss": 0.497,
+      "num_input_tokens_seen": 226939656,
+      "step": 1313
+    },
+    {
+      "epoch": 0.5247801758593126,
+      "loss": 0.4305632710456848,
+      "loss_ce": 0.0025236960500478745,
+      "loss_xval": 0.427734375,
+      "num_input_tokens_seen": 226939656,
+      "step": 1313
+    },
+    {
+      "epoch": 0.5251798561151079,
+      "grad_norm": 42.69744397870593,
+      "learning_rate": 5e-06,
+      "loss": 0.4521,
+      "num_input_tokens_seen": 227112800,
+      "step": 1314
+    },
+    {
+      "epoch": 0.5251798561151079,
+      "loss": 0.30210599303245544,
+      "loss_ce": 0.0036135392729192972,
+      "loss_xval": 0.298828125,
+      "num_input_tokens_seen": 227112800,
+      "step": 1314
+    },
+    {
+      "epoch": 0.5255795363709033,
+      "grad_norm": 15.197513540024648,
+      "learning_rate": 5e-06,
+      "loss": 0.3364,
+      "num_input_tokens_seen": 227285992,
+      "step": 1315
+    },
+    {
+      "epoch": 0.5255795363709033,
+      "loss": 0.37036991119384766,
+      "loss_ce": 0.005036352667957544,
+      "loss_xval": 0.365234375,
+      "num_input_tokens_seen": 227285992,
+      "step": 1315
+    },
+    {
+      "epoch": 0.5259792166266987,
+      "grad_norm": 59.42411346211391,
+      "learning_rate": 5e-06,
+      "loss": 0.5199,
+      "num_input_tokens_seen": 227458960,
+      "step": 1316
+    },
+    {
+      "epoch": 0.5259792166266987,
+      "loss": 0.28569337725639343,
+      "loss_ce": 0.004321303218603134,
+      "loss_xval": 0.28125,
+      "num_input_tokens_seen": 227458960,
+      "step": 1316
+    },
+    {
+      "epoch": 0.526378896882494,
+      "grad_norm": 69.21561612485712,
+      "learning_rate": 5e-06,
+      "loss": 0.491,
+      "num_input_tokens_seen": 227632200,
+      "step": 1317
+    },
+    {
+      "epoch": 0.526378896882494,
+      "loss": 0.2640664279460907,
+      "loss_ce": 0.003949846141040325,
+      "loss_xval": 0.259765625,
+      "num_input_tokens_seen": 227632200,
+      "step": 1317
+    },
+    {
+      "epoch": 0.5267785771382894,
+      "grad_norm": 13.132135435903631,
+      "learning_rate": 5e-06,
+      "loss": 0.2884,
+      "num_input_tokens_seen": 227805296,
+      "step": 1318
+    },
+    {
+      "epoch": 0.5267785771382894,
+      "loss": 0.28863468766212463,
+      "loss_ce": 0.006469154264777899,
+      "loss_xval": 0.28125,
+      "num_input_tokens_seen": 227805296,
+      "step": 1318
+    },
+    {
+      "epoch": 0.5271782573940847,
+      "grad_norm": 57.694864530698325,
+      "learning_rate": 5e-06,
+      "loss": 0.5443,
+      "num_input_tokens_seen": 227978120,
+      "step": 1319
+    },
+    {
+      "epoch": 0.5271782573940847,
+      "loss": 0.5344159007072449,
+      "loss_ce": 0.006644911132752895,
+      "loss_xval": 0.52734375,
+      "num_input_tokens_seen": 227978120,
+      "step": 1319
+    },
+    {
+      "epoch": 0.5275779376498801,
+      "grad_norm": 37.97773385737496,
+      "learning_rate": 5e-06,
+      "loss": 0.353,
+      "num_input_tokens_seen": 228151056,
+      "step": 1320
+    },
+    {
+      "epoch": 0.5275779376498801,
+      "loss": 0.3334610164165497,
+      "loss_ce": 0.006907662842422724,
+      "loss_xval": 0.326171875,
+      "num_input_tokens_seen": 228151056,
+      "step": 1320
+    },
+    {
+      "epoch": 0.5279776179056754,
+      "grad_norm": 23.410095734672666,
+      "learning_rate": 5e-06,
+      "loss": 0.6552,
+      "num_input_tokens_seen": 228323968,
+      "step": 1321
+    },
+    {
+      "epoch": 0.5279776179056754,
+      "loss": 0.579754114151001,
+      "loss_ce": 0.005108083598315716,
+      "loss_xval": 0.57421875,
+      "num_input_tokens_seen": 228323968,
+      "step": 1321
+    },
+    {
+      "epoch": 0.5283772981614708,
+      "grad_norm": 45.88258781654939,
+      "learning_rate": 5e-06,
+      "loss": 0.7877,
+      "num_input_tokens_seen": 228497032,
+      "step": 1322
+    },
+    {
+      "epoch": 0.5283772981614708,
+      "loss": 0.7026103734970093,
+      "loss_ce": 0.005100608803331852,
+      "loss_xval": 0.69921875,
+      "num_input_tokens_seen": 228497032,
+      "step": 1322
+    },
+    {
+      "epoch": 0.5287769784172662,
+      "grad_norm": 20.4423042983933,
+      "learning_rate": 5e-06,
+      "loss": 0.4286,
+      "num_input_tokens_seen": 228670088,
+      "step": 1323
+    },
+    {
+      "epoch": 0.5287769784172662,
+      "loss": 0.3816264271736145,
+      "loss_ce": 0.014408385381102562,
+      "loss_xval": 0.3671875,
+      "num_input_tokens_seen": 228670088,
+      "step": 1323
+    },
+    {
+      "epoch": 0.5291766586730615,
+      "grad_norm": 51.63250028305346,
+      "learning_rate": 5e-06,
+      "loss": 0.2495,
+      "num_input_tokens_seen": 228843096,
+      "step": 1324
+    },
+    {
+      "epoch": 0.5291766586730615,
+      "loss": 0.3274524211883545,
+      "loss_ce": 0.005583534948527813,
+      "loss_xval": 0.322265625,
+      "num_input_tokens_seen": 228843096,
+      "step": 1324
+    },
+    {
+      "epoch": 0.5295763389288569,
+      "grad_norm": 24.608922162922916,
+      "learning_rate": 5e-06,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 229016144,
+      "step": 1325
+    },
+    {
+      "epoch": 0.5295763389288569,
+      "loss": 0.486013799905777,
+      "loss_ce": 0.0058578504249453545,
+      "loss_xval": 0.48046875,
+      "num_input_tokens_seen": 229016144,
+      "step": 1325
+    },
+    {
+      "epoch": 0.5299760191846523,
+      "grad_norm": 61.57937595911081,
+      "learning_rate": 5e-06,
+      "loss": 0.312,
+      "num_input_tokens_seen": 229188832,
+      "step": 1326
+    },
+    {
+      "epoch": 0.5299760191846523,
+      "loss": 0.3464367985725403,
+      "loss_ce": 0.007767999544739723,
+      "loss_xval": 0.337890625,
+      "num_input_tokens_seen": 229188832,
+      "step": 1326
+    },
+    {
+      "epoch": 0.5303756994404476,
+      "grad_norm": 44.936253935063796,
+      "learning_rate": 5e-06,
+      "loss": 0.8079,
+      "num_input_tokens_seen": 229361504,
+      "step": 1327
+    },
+    {
+      "epoch": 0.5303756994404476,
+      "loss": 1.1617729663848877,
+      "loss_ce": 0.0061028143391013145,
+      "loss_xval": 1.15625,
+      "num_input_tokens_seen": 229361504,
+      "step": 1327
+    },
+    {
+      "epoch": 0.530775379696243,
+      "grad_norm": 57.45812813973755,
+      "learning_rate": 5e-06,
+      "loss": 0.447,
+      "num_input_tokens_seen": 229534336,
+      "step": 1328
+    },
+    {
+      "epoch": 0.530775379696243,
+      "loss": 0.42143499851226807,
+      "loss_ce": 0.005541440099477768,
+      "loss_xval": 0.416015625,
+      "num_input_tokens_seen": 229534336,
+      "step": 1328
+    },
+    {
+      "epoch": 0.5311750599520384,
+      "grad_norm": 95.69310855679585,
+      "learning_rate": 5e-06,
+      "loss": 0.6078,
+      "num_input_tokens_seen": 229707488,
+      "step": 1329
+    },
+    {
+      "epoch": 0.5311750599520384,
+      "loss": 0.42394664883613586,
+      "loss_ce": 0.0022547650150954723,
+      "loss_xval": 0.421875,
+      "num_input_tokens_seen": 229707488,
+      "step": 1329
+    },
+    {
+      "epoch": 0.5315747402078337,
+      "grad_norm": 55.23809125724533,
+      "learning_rate": 5e-06,
+      "loss": 0.9022,
+      "num_input_tokens_seen": 229880592,
+      "step": 1330
+    },
+    {
+      "epoch": 0.5315747402078337,
+      "loss": 1.1072825193405151,
+      "loss_ce": 0.010541743598878384,
+      "loss_xval": 1.09375,
+      "num_input_tokens_seen": 229880592,
+      "step": 1330
+    },
+    {
+      "epoch": 0.5319744204636291,
+      "grad_norm": 107.65601955216079,
+      "learning_rate": 5e-06,
+      "loss": 0.5116,
+      "num_input_tokens_seen": 230053800,
+      "step": 1331
+    },
+    {
+      "epoch": 0.5319744204636291,
+      "loss": 0.4177815020084381,
+      "loss_ce": 0.0035969249438494444,
+      "loss_xval": 0.4140625,
+      "num_input_tokens_seen": 230053800,
+      "step": 1331
+    },
+    {
+      "epoch": 0.5323741007194245,
+      "grad_norm": 47.508790422209,
+      "learning_rate": 5e-06,
+      "loss": 0.4268,
+      "num_input_tokens_seen": 230226896,
+      "step": 1332
+    },
+    {
+      "epoch": 0.5323741007194245,
+      "loss": 0.4874696731567383,
+      "loss_ce": 0.003766059409826994,
+      "loss_xval": 0.484375,
+      "num_input_tokens_seen": 230226896,
+      "step": 1332
+    },
+    {
+      "epoch": 0.5327737809752199,
+      "grad_norm": 44.833401746884746,
+      "learning_rate": 5e-06,
+      "loss": 0.2839,
+      "num_input_tokens_seen": 230399952,
+      "step": 1333
+    },
+    {
+      "epoch": 0.5327737809752199,
+      "loss": 0.21195606887340546,
+      "loss_ce": 0.003459974192082882,
+      "loss_xval": 0.208984375,
+      "num_input_tokens_seen": 230399952,
+      "step": 1333
+    },
+    {
+      "epoch": 0.5331734612310152,
+      "grad_norm": 22.979639420354616,
+      "learning_rate": 5e-06,
+      "loss": 0.5363,
+      "num_input_tokens_seen": 230573048,
+      "step": 1334
+    },
+    {
+      "epoch": 0.5331734612310152,
+      "loss": 0.5578432083129883,
+      "loss_ce": 0.015240712091326714,
+      "loss_xval": 0.54296875,
+      "num_input_tokens_seen": 230573048,
+      "step": 1334
+    },
+    {
+      "epoch": 0.5335731414868106,
+      "grad_norm": 38.390194365787885,
+      "learning_rate": 5e-06,
+      "loss": 0.4866,
+      "num_input_tokens_seen": 230746344,
+      "step": 1335
+    },
+    {
+      "epoch": 0.5335731414868106,
+      "loss": 0.5222955942153931,
+      "loss_ce": 0.003130522556602955,
+      "loss_xval": 0.51953125,
+      "num_input_tokens_seen": 230746344,
+      "step": 1335
+    },
+    {
+      "epoch": 0.533972821742606,
+      "grad_norm": 62.630756568579976,
+      "learning_rate": 5e-06,
+      "loss": 0.4862,
+      "num_input_tokens_seen": 230919112,
+      "step": 1336
+    },
+    {
+      "epoch": 0.533972821742606,
+      "loss": 0.20648841559886932,
+      "loss_ce": 0.00534704327583313,
+      "loss_xval": 0.201171875,
+      "num_input_tokens_seen": 230919112,
+      "step": 1336
+    },
+    {
+      "epoch": 0.5343725019984013,
+      "grad_norm": 54.98815999554934,
+      "learning_rate": 5e-06,
+      "loss": 0.357,
+      "num_input_tokens_seen": 231092360,
+      "step": 1337
+    },
+    {
+      "epoch": 0.5343725019984013,
+      "loss": 0.24189867079257965,
+      "loss_ce": 0.0023204381577670574,
+      "loss_xval": 0.2392578125,
+      "num_input_tokens_seen": 231092360,
+      "step": 1337
+    },
+    {
+      "epoch": 0.5347721822541966,
+      "grad_norm": 61.52109754634168,
+      "learning_rate": 5e-06,
+      "loss": 0.5032,
+      "num_input_tokens_seen": 231265440,
+      "step": 1338
+    },
+    {
+      "epoch": 0.5347721822541966,
+      "loss": 0.5029772520065308,
+      "loss_ce": 0.0066393520683050156,
+      "loss_xval": 0.49609375,
+      "num_input_tokens_seen": 231265440,
+      "step": 1338
+    },
+    {
+      "epoch": 0.535171862509992,
+      "grad_norm": 36.05634221729635,
+      "learning_rate": 5e-06,
+      "loss": 0.6178,
+      "num_input_tokens_seen": 231438576,
+      "step": 1339
+    },
+    {
+      "epoch": 0.535171862509992,
+      "loss": 0.7768712639808655,
+      "loss_ce": 0.002121466211974621,
+      "loss_xval": 0.7734375,
+      "num_input_tokens_seen": 231438576,
+      "step": 1339
+    },
+    {
+      "epoch": 0.5355715427657873,
+      "grad_norm": 64.96571340372034,
+      "learning_rate": 5e-06,
+      "loss": 0.9467,
+      "num_input_tokens_seen": 231611296,
+      "step": 1340
+    },
+    {
+      "epoch": 0.5355715427657873,
+      "loss": 1.1156829595565796,
+      "loss_ce": 0.00386651698499918,
+      "loss_xval": 1.109375,
+      "num_input_tokens_seen": 231611296,
+      "step": 1340
+    },
+    {
+      "epoch": 0.5359712230215827,
+      "grad_norm": 84.07508123457501,
+      "learning_rate": 5e-06,
+      "loss": 0.4938,
+      "num_input_tokens_seen": 231783904,
+      "step": 1341
+    },
+    {
+      "epoch": 0.5359712230215827,
+      "loss": 0.5198108553886414,
+      "loss_ce": 0.0021717222407460213,
+      "loss_xval": 0.51953125,
+      "num_input_tokens_seen": 231783904,
+      "step": 1341
+    },
+    {
+      "epoch": 0.5363709032773781,
+      "grad_norm": 57.64533848978117,
+      "learning_rate": 5e-06,
+      "loss": 0.3062,
+      "num_input_tokens_seen": 231956376,
+      "step": 1342
+    },
+    {
+      "epoch": 0.5363709032773781,
+      "loss": 0.36183974146842957,
+      "loss_ce": 0.00447891466319561,
+      "loss_xval": 0.357421875,
+      "num_input_tokens_seen": 231956376,
+      "step": 1342
+    },
+    {
+      "epoch": 0.5367705835331734,
+      "grad_norm": 90.55074914704535,
+      "learning_rate": 5e-06,
+      "loss": 0.5969,
+      "num_input_tokens_seen": 232125528,
+      "step": 1343
+    },
+    {
+      "epoch": 0.5367705835331734,
+      "loss": 0.3362892270088196,
+      "loss_ce": 0.0024879206903278828,
+      "loss_xval": 0.333984375,
+      "num_input_tokens_seen": 232125528,
+      "step": 1343
+    },
+    {
+      "epoch": 0.5371702637889688,
+      "grad_norm": 12.81961083789221,
+      "learning_rate": 5e-06,
+      "loss": 0.2753,
+      "num_input_tokens_seen": 232298760,
+      "step": 1344
+    },
+    {
+      "epoch": 0.5371702637889688,
+      "loss": 0.2364044338464737,
+      "loss_ce": 0.006698611192405224,
+      "loss_xval": 0.2294921875,
+      "num_input_tokens_seen": 232298760,
+      "step": 1344
+    },
+    {
+      "epoch": 0.5375699440447642,
+      "grad_norm": 45.502407796394216,
+      "learning_rate": 5e-06,
+      "loss": 0.4094,
+      "num_input_tokens_seen": 232468344,
+      "step": 1345
+    },
+    {
+      "epoch": 0.5375699440447642,
+      "loss": 0.4168083667755127,
+      "loss_ce": 0.002806881908327341,
+      "loss_xval": 0.4140625,
+      "num_input_tokens_seen": 232468344,
+      "step": 1345
+    },
+    {
+      "epoch": 0.5379696243005595,
+      "grad_norm": 51.143260733380274,
+      "learning_rate": 5e-06,
+      "loss": 0.5264,
+      "num_input_tokens_seen": 232641464,
+      "step": 1346
+    },
+    {
+      "epoch": 0.5379696243005595,
+      "loss": 0.5115495324134827,
+      "loss_ce": 0.002791010309010744,
+      "loss_xval": 0.5078125,
+      "num_input_tokens_seen": 232641464,
+      "step": 1346
+    },
+    {
+      "epoch": 0.5383693045563549,
+      "grad_norm": 40.13135649023107,
+      "learning_rate": 5e-06,
+      "loss": 0.5977,
+      "num_input_tokens_seen": 232814664,
+      "step": 1347
+    },
+    {
+      "epoch": 0.5383693045563549,
+      "loss": 0.27177077531814575,
+      "loss_ce": 0.006420427467674017,
+      "loss_xval": 0.265625,
+      "num_input_tokens_seen": 232814664,
+      "step": 1347
+    },
+    {
+      "epoch": 0.5387689848121503,
+      "grad_norm": 96.30534320206739,
+      "learning_rate": 5e-06,
+      "loss": 0.6539,
+      "num_input_tokens_seen": 232987248,
+      "step": 1348
+    },
+    {
+      "epoch": 0.5387689848121503,
+      "loss": 0.4249582290649414,
+      "loss_ce": 0.0066537680104374886,
+      "loss_xval": 0.41796875,
+      "num_input_tokens_seen": 232987248,
+      "step": 1348
+    },
+    {
+      "epoch": 0.5391686650679457,
+      "grad_norm": 77.13815649979884,
+      "learning_rate": 5e-06,
+      "loss": 0.6195,
+      "num_input_tokens_seen": 233160320,
+      "step": 1349
+    },
+    {
+      "epoch": 0.5391686650679457,
+      "loss": 0.7565589547157288,
+      "loss_ce": 0.0020728609524667263,
+      "loss_xval": 0.75390625,
+      "num_input_tokens_seen": 233160320,
+      "step": 1349
+    },
+    {
+      "epoch": 0.539568345323741,
+      "grad_norm": 98.78007103206556,
+      "learning_rate": 5e-06,
+      "loss": 0.4941,
+      "num_input_tokens_seen": 233328096,
+      "step": 1350
+    },
+    {
+      "epoch": 0.539568345323741,
+      "loss": 0.6630009412765503,
+      "loss_ce": 0.007361266296356916,
+      "loss_xval": 0.65625,
+      "num_input_tokens_seen": 233328096,
+      "step": 1350
+    },
+    {
+      "epoch": 0.5399680255795364,
+      "grad_norm": 36.141697477602044,
+      "learning_rate": 5e-06,
+      "loss": 0.4463,
+      "num_input_tokens_seen": 233501160,
+      "step": 1351
+    },
+    {
+      "epoch": 0.5399680255795364,
+      "loss": 0.2609432339668274,
+      "loss_ce": 0.0051449015736579895,
+      "loss_xval": 0.255859375,
+      "num_input_tokens_seen": 233501160,
+      "step": 1351
+    },
+    {
+      "epoch": 0.5403677058353318,
+      "grad_norm": 116.14707098226158,
+      "learning_rate": 5e-06,
+      "loss": 0.7684,
+      "num_input_tokens_seen": 233673680,
+      "step": 1352
+    },
+    {
+      "epoch": 0.5403677058353318,
+      "loss": 0.9591152667999268,
+      "loss_ce": 0.0037320067640393972,
+      "loss_xval": 0.95703125,
+      "num_input_tokens_seen": 233673680,
+      "step": 1352
+    },
+    {
+      "epoch": 0.5407673860911271,
+      "grad_norm": 32.51684246973528,
+      "learning_rate": 5e-06,
+      "loss": 0.3522,
+      "num_input_tokens_seen": 233846656,
+      "step": 1353
+    },
+    {
+      "epoch": 0.5407673860911271,
+      "loss": 0.17604267597198486,
+      "loss_ce": 0.00724994670599699,
+      "loss_xval": 0.1689453125,
+      "num_input_tokens_seen": 233846656,
+      "step": 1353
+    },
+    {
+      "epoch": 0.5411670663469225,
+      "grad_norm": 95.46125369800038,
+      "learning_rate": 5e-06,
+      "loss": 0.4154,
+      "num_input_tokens_seen": 234019816,
+      "step": 1354
+    },
+    {
+      "epoch": 0.5411670663469225,
+      "loss": 0.5023761987686157,
+      "loss_ce": 0.003169646020978689,
+      "loss_xval": 0.5,
+      "num_input_tokens_seen": 234019816,
+      "step": 1354
+    },
+    {
+      "epoch": 0.5415667466027179,
+      "grad_norm": 39.52923561929836,
+      "learning_rate": 5e-06,
+      "loss": 0.3683,
+      "num_input_tokens_seen": 234192592,
+      "step": 1355
+    },
+    {
+      "epoch": 0.5415667466027179,
+      "loss": 0.23313309252262115,
+      "loss_ce": 0.0046327258460223675,
+      "loss_xval": 0.228515625,
+      "num_input_tokens_seen": 234192592,
+      "step": 1355
+    },
+    {
+      "epoch": 0.5419664268585132,
+      "grad_norm": 101.44654311999328,
+      "learning_rate": 5e-06,
+      "loss": 0.7023,
+      "num_input_tokens_seen": 234365312,
+      "step": 1356
+    },
+    {
+      "epoch": 0.5419664268585132,
+      "loss": 0.6109759211540222,
+      "loss_ce": 0.0038592463824898005,
+      "loss_xval": 0.60546875,
+      "num_input_tokens_seen": 234365312,
+      "step": 1356
+    },
+    {
+      "epoch": 0.5423661071143085,
+      "grad_norm": 68.28777793206135,
+      "learning_rate": 5e-06,
+      "loss": 0.4509,
+      "num_input_tokens_seen": 234538280,
+      "step": 1357
+    },
+    {
+      "epoch": 0.5423661071143085,
+      "loss": 0.4432651400566101,
+      "loss_ce": 0.004788582678884268,
+      "loss_xval": 0.4375,
+      "num_input_tokens_seen": 234538280,
+      "step": 1357
+    },
+    {
+      "epoch": 0.542765787370104,
+      "grad_norm": 80.01066832816397,
+      "learning_rate": 5e-06,
+      "loss": 0.5568,
+      "num_input_tokens_seen": 234711248,
+      "step": 1358
+    },
+    {
+      "epoch": 0.542765787370104,
+      "loss": 0.4560088813304901,
+      "loss_ce": 0.008193954825401306,
+      "loss_xval": 0.447265625,
+      "num_input_tokens_seen": 234711248,
+      "step": 1358
+    },
+    {
+      "epoch": 0.5431654676258992,
+      "grad_norm": 72.31855145193121,
+      "learning_rate": 5e-06,
+      "loss": 0.8891,
+      "num_input_tokens_seen": 234884400,
+      "step": 1359
+    },
+    {
+      "epoch": 0.5431654676258992,
+      "loss": 0.7763038873672485,
+      "loss_ce": 0.0035377484746277332,
+      "loss_xval": 0.7734375,
+      "num_input_tokens_seen": 234884400,
+      "step": 1359
+    },
+    {
+      "epoch": 0.5435651478816946,
+      "grad_norm": 43.434452462882426,
+      "learning_rate": 5e-06,
+      "loss": 0.4146,
+      "num_input_tokens_seen": 235057136,
+      "step": 1360
+    },
+    {
+      "epoch": 0.5435651478816946,
+      "loss": 0.5203279256820679,
+      "loss_ce": 0.002963472157716751,
+      "loss_xval": 0.515625,
+      "num_input_tokens_seen": 235057136,
+      "step": 1360
+    },
+    {
+      "epoch": 0.54396482813749,
+      "grad_norm": 118.75692026928306,
+      "learning_rate": 5e-06,
+      "loss": 0.4007,
+      "num_input_tokens_seen": 235230312,
+      "step": 1361
+    },
+    {
+      "epoch": 0.54396482813749,
+      "loss": 0.4342734217643738,
+      "loss_ce": 0.0037924526259303093,
+      "loss_xval": 0.4296875,
+      "num_input_tokens_seen": 235230312,
+      "step": 1361
+    },
+    {
+      "epoch": 0.5443645083932853,
+      "grad_norm": 49.47107440249342,
+      "learning_rate": 5e-06,
+      "loss": 0.7464,
+      "num_input_tokens_seen": 235403296,
+      "step": 1362
+    },
+    {
+      "epoch": 0.5443645083932853,
+      "loss": 0.6611525416374207,
+      "loss_ce": 0.003864938160404563,
+      "loss_xval": 0.65625,
+      "num_input_tokens_seen": 235403296,
+      "step": 1362
+    },
+    {
+      "epoch": 0.5447641886490807,
+      "grad_norm": 70.75775745041976,
+      "learning_rate": 5e-06,
+      "loss": 0.6533,
+      "num_input_tokens_seen": 235576152,
+      "step": 1363
+    },
+    {
+      "epoch": 0.5447641886490807,
+      "loss": 0.7079252600669861,
+      "loss_ce": 0.003945786505937576,
+      "loss_xval": 0.703125,
+      "num_input_tokens_seen": 235576152,
+      "step": 1363
+    },
+    {
+      "epoch": 0.5451638689048761,
+      "grad_norm": 70.38526419899421,
+      "learning_rate": 5e-06,
+      "loss": 0.4057,
+      "num_input_tokens_seen": 235748992,
+      "step": 1364
+    },
+    {
+      "epoch": 0.5451638689048761,
+      "loss": 0.6269418001174927,
+      "loss_ce": 0.003559216158464551,
+      "loss_xval": 0.625,
+      "num_input_tokens_seen": 235748992,
+      "step": 1364
+    },
+    {
+      "epoch": 0.5455635491606715,
+      "grad_norm": 31.366011027189284,
+      "learning_rate": 5e-06,
+      "loss": 0.3862,
+      "num_input_tokens_seen": 235921912,
+      "step": 1365
+    },
+    {
+      "epoch": 0.5455635491606715,
+      "loss": 0.4212551712989807,
+      "loss_ce": 0.007284234277904034,
+      "loss_xval": 0.4140625,
+      "num_input_tokens_seen": 235921912,
+      "step": 1365
+    },
+    {
+      "epoch": 0.5459632294164668,
+      "grad_norm": 105.28341921676295,
+      "learning_rate": 5e-06,
+      "loss": 1.079,
+      "num_input_tokens_seen": 236094904,
+      "step": 1366
+    },
+    {
+      "epoch": 0.5459632294164668,
+      "loss": 0.4033566415309906,
+      "loss_ce": 0.0030270516872406006,
+      "loss_xval": 0.400390625,
+      "num_input_tokens_seen": 236094904,
+      "step": 1366
+    },
+    {
+      "epoch": 0.5463629096722622,
+      "grad_norm": 42.70774593040797,
+      "learning_rate": 5e-06,
+      "loss": 0.663,
+      "num_input_tokens_seen": 236268016,
+      "step": 1367
+    },
+    {
+      "epoch": 0.5463629096722622,
+      "loss": 0.1966470330953598,
+      "loss_ce": 0.004935611039400101,
+      "loss_xval": 0.19140625,
+      "num_input_tokens_seen": 236268016,
+      "step": 1367
+    },
+    {
+      "epoch": 0.5467625899280576,
+      "grad_norm": 112.81975987822089,
+      "learning_rate": 5e-06,
+      "loss": 0.5069,
+      "num_input_tokens_seen": 236440808,
+      "step": 1368
+    },
+    {
+      "epoch": 0.5467625899280576,
+      "loss": 0.7222706079483032,
+      "loss_ce": 0.005046539939939976,
+      "loss_xval": 0.71875,
+      "num_input_tokens_seen": 236440808,
+      "step": 1368
+    },
+    {
+      "epoch": 0.5471622701838529,
+      "grad_norm": 50.88949130940376,
+      "learning_rate": 5e-06,
+      "loss": 0.4146,
+      "num_input_tokens_seen": 236613648,
+      "step": 1369
+    },
+    {
+      "epoch": 0.5471622701838529,
+      "loss": 0.4492402970790863,
+      "loss_ce": 0.004294017795473337,
+      "loss_xval": 0.4453125,
+      "num_input_tokens_seen": 236613648,
+      "step": 1369
+    },
+    {
+      "epoch": 0.5475619504396483,
+      "grad_norm": 104.13474925279456,
+      "learning_rate": 5e-06,
+      "loss": 0.9189,
+      "num_input_tokens_seen": 236786680,
+      "step": 1370
+    },
+    {
+      "epoch": 0.5475619504396483,
+      "loss": 0.8582189679145813,
+      "loss_ce": 0.0034826004412025213,
+      "loss_xval": 0.85546875,
+      "num_input_tokens_seen": 236786680,
+      "step": 1370
+    },
+    {
+      "epoch": 0.5479616306954437,
+      "grad_norm": 32.81711209453196,
+      "learning_rate": 5e-06,
+      "loss": 0.3459,
+      "num_input_tokens_seen": 236959600,
+      "step": 1371
+    },
+    {
+      "epoch": 0.5479616306954437,
+      "loss": 0.272049218416214,
+      "loss_ce": 0.008255256339907646,
+      "loss_xval": 0.263671875,
+      "num_input_tokens_seen": 236959600,
+      "step": 1371
+    },
+    {
+      "epoch": 0.548361310951239,
+      "grad_norm": 105.1381007340414,
+      "learning_rate": 5e-06,
+      "loss": 0.592,
+      "num_input_tokens_seen": 237132680,
+      "step": 1372
+    },
+    {
+      "epoch": 0.548361310951239,
+      "loss": 0.6921520233154297,
+      "loss_ce": 0.005262310616672039,
+      "loss_xval": 0.6875,
+      "num_input_tokens_seen": 237132680,
+      "step": 1372
+    },
+    {
+      "epoch": 0.5487609912070344,
+      "grad_norm": 66.93404166002924,
+      "learning_rate": 5e-06,
+      "loss": 0.515,
+      "num_input_tokens_seen": 237305536,
+      "step": 1373
+    },
+    {
+      "epoch": 0.5487609912070344,
+      "loss": 0.4059692621231079,
+      "loss_ce": 0.0069824280217289925,
+      "loss_xval": 0.3984375,
+      "num_input_tokens_seen": 237305536,
+      "step": 1373
+    },
+    {
+      "epoch": 0.5491606714628298,
+      "grad_norm": 73.26212946796912,
+      "learning_rate": 5e-06,
+      "loss": 0.6015,
+      "num_input_tokens_seen": 237478648,
+      "step": 1374
+    },
+    {
+      "epoch": 0.5491606714628298,
+      "loss": 0.5105670690536499,
+      "loss_ce": 0.004585604183375835,
+      "loss_xval": 0.5078125,
+      "num_input_tokens_seen": 237478648,
+      "step": 1374
+    },
+    {
+      "epoch": 0.549560351718625,
+      "grad_norm": 107.19992432502981,
+      "learning_rate": 5e-06,
+      "loss": 0.8017,
+      "num_input_tokens_seen": 237651648,
+      "step": 1375
+    },
+    {
+      "epoch": 0.549560351718625,
+      "loss": 0.6293633580207825,
+      "loss_ce": 0.004180216696113348,
+      "loss_xval": 0.625,
+      "num_input_tokens_seen": 237651648,
+      "step": 1375
+    },
+    {
+      "epoch": 0.5499600319744204,
+      "grad_norm": 102.85773361268112,
+      "learning_rate": 5e-06,
+      "loss": 0.6284,
+      "num_input_tokens_seen": 237824552,
+      "step": 1376
+    },
+    {
+      "epoch": 0.5499600319744204,
+      "loss": 0.6715470552444458,
+      "loss_ce": 0.007576065603643656,
+      "loss_xval": 0.6640625,
+      "num_input_tokens_seen": 237824552,
+      "step": 1376
+    },
+    {
+      "epoch": 0.5503597122302158,
+      "grad_norm": 51.34013198873488,
+      "learning_rate": 5e-06,
+      "loss": 0.5408,
+      "num_input_tokens_seen": 237997088,
+      "step": 1377
+    },
+    {
+      "epoch": 0.5503597122302158,
+      "loss": 0.5498093366622925,
+      "loss_ce": 0.0029343212954699993,
+      "loss_xval": 0.546875,
+      "num_input_tokens_seen": 237997088,
+      "step": 1377
+    },
+    {
+      "epoch": 0.5507593924860112,
+      "grad_norm": 45.16480729836272,
+      "learning_rate": 5e-06,
+      "loss": 0.5291,
+      "num_input_tokens_seen": 238170104,
+      "step": 1378
+    },
+    {
+      "epoch": 0.5507593924860112,
+      "loss": 0.6173465847969055,
+      "loss_ce": 0.006995024159550667,
+      "loss_xval": 0.609375,
+      "num_input_tokens_seen": 238170104,
+      "step": 1378
+    },
+    {
+      "epoch": 0.5511590727418065,
+      "grad_norm": 90.67189419837551,
+      "learning_rate": 5e-06,
+      "loss": 0.341,
+      "num_input_tokens_seen": 238342840,
+      "step": 1379
+    },
+    {
+      "epoch": 0.5511590727418065,
+      "loss": 0.33946144580841064,
+      "loss_ce": 0.0049888077192008495,
+      "loss_xval": 0.333984375,
+      "num_input_tokens_seen": 238342840,
+      "step": 1379
+    },
+    {
+      "epoch": 0.5515587529976019,
+      "grad_norm": 52.043973144528145,
+      "learning_rate": 5e-06,
+      "loss": 0.4572,
+      "num_input_tokens_seen": 238515808,
+      "step": 1380
+    },
+    {
+      "epoch": 0.5515587529976019,
+      "loss": 0.5051401257514954,
+      "loss_ce": 0.011243650689721107,
+      "loss_xval": 0.494140625,
+      "num_input_tokens_seen": 238515808,
+      "step": 1380
+    },
+    {
+      "epoch": 0.5519584332533973,
+      "grad_norm": 56.17714897064993,
+      "learning_rate": 5e-06,
+      "loss": 0.3739,
+      "num_input_tokens_seen": 238688664,
+      "step": 1381
+    },
+    {
+      "epoch": 0.5519584332533973,
+      "loss": 0.5631752610206604,
+      "loss_ce": 0.00677874032407999,
+      "loss_xval": 0.5546875,
+      "num_input_tokens_seen": 238688664,
+      "step": 1381
+    },
+    {
+      "epoch": 0.5523581135091926,
+      "grad_norm": 40.5381866842805,
+      "learning_rate": 5e-06,
+      "loss": 0.3333,
+      "num_input_tokens_seen": 238861488,
+      "step": 1382
+    },
+    {
+      "epoch": 0.5523581135091926,
+      "loss": 0.37881040573120117,
+      "loss_ce": 0.00214719888754189,
+      "loss_xval": 0.376953125,
+      "num_input_tokens_seen": 238861488,
+      "step": 1382
+    },
+    {
+      "epoch": 0.552757793764988,
+      "grad_norm": 51.78581653084787,
+      "learning_rate": 5e-06,
+      "loss": 0.5934,
+      "num_input_tokens_seen": 239034336,
+      "step": 1383
+    },
+    {
+      "epoch": 0.552757793764988,
+      "loss": 0.6673434972763062,
+      "loss_ce": 0.0035251579247415066,
+      "loss_xval": 0.6640625,
+      "num_input_tokens_seen": 239034336,
+      "step": 1383
+    },
+    {
+      "epoch": 0.5531574740207834,
+      "grad_norm": 65.06524952164565,
+      "learning_rate": 5e-06,
+      "loss": 0.3498,
+      "num_input_tokens_seen": 239207232,
+      "step": 1384
+    },
+    {
+      "epoch": 0.5531574740207834,
+      "loss": 0.5492129325866699,
+      "loss_ce": 0.008563470095396042,
+      "loss_xval": 0.5390625,
+      "num_input_tokens_seen": 239207232,
+      "step": 1384
+    },
+    {
+      "epoch": 0.5535571542765787,
+      "grad_norm": 24.785324730924025,
+      "learning_rate": 5e-06,
+      "loss": 0.4747,
+      "num_input_tokens_seen": 239380368,
+      "step": 1385
+    },
+    {
+      "epoch": 0.5535571542765787,
+      "loss": 0.6038126349449158,
+      "loss_ce": 0.006461561657488346,
+      "loss_xval": 0.59765625,
+      "num_input_tokens_seen": 239380368,
+      "step": 1385
+    },
+    {
+      "epoch": 0.5539568345323741,
+      "grad_norm": 22.3044022119237,
+      "learning_rate": 5e-06,
+      "loss": 0.309,
+      "num_input_tokens_seen": 239553512,
+      "step": 1386
+    },
+    {
+      "epoch": 0.5539568345323741,
+      "loss": 0.23669841885566711,
+      "loss_ce": 0.0036051569040864706,
+      "loss_xval": 0.2333984375,
+      "num_input_tokens_seen": 239553512,
+      "step": 1386
+    },
+    {
+      "epoch": 0.5543565147881695,
+      "grad_norm": 32.16457873391064,
+      "learning_rate": 5e-06,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 239726688,
+      "step": 1387
+    },
+    {
+      "epoch": 0.5543565147881695,
+      "loss": 0.39722371101379395,
+      "loss_ce": 0.006537655834108591,
+      "loss_xval": 0.390625,
+      "num_input_tokens_seen": 239726688,
+      "step": 1387
+    },
+    {
+      "epoch": 0.5547561950439648,
+      "grad_norm": 40.175745398782205,
+      "learning_rate": 5e-06,
+      "loss": 0.3402,
+      "num_input_tokens_seen": 239899592,
+      "step": 1388
+    },
+    {
+      "epoch": 0.5547561950439648,
+      "loss": 0.26957184076309204,
+      "loss_ce": 0.00232940586283803,
+      "loss_xval": 0.267578125,
+      "num_input_tokens_seen": 239899592,
+      "step": 1388
+    },
+    {
+      "epoch": 0.5551558752997602,
+      "grad_norm": 18.426941380820455,
+      "learning_rate": 5e-06,
+      "loss": 0.4403,
+      "num_input_tokens_seen": 240072512,
+      "step": 1389
+    },
+    {
+      "epoch": 0.5551558752997602,
+      "loss": 0.46690550446510315,
+      "loss_ce": 0.0025653140619397163,
+      "loss_xval": 0.46484375,
+      "num_input_tokens_seen": 240072512,
+      "step": 1389
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "grad_norm": 45.49727718405183,
+      "learning_rate": 5e-06,
+      "loss": 0.5213,
+      "num_input_tokens_seen": 240245672,
+      "step": 1390
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "loss": 0.593445897102356,
+      "loss_ce": 0.005082281306385994,
+      "loss_xval": 0.58984375,
+      "num_input_tokens_seen": 240245672,
+      "step": 1390
+    },
+    {
+      "epoch": 0.5559552358113509,
+      "grad_norm": 53.104840422529556,
+      "learning_rate": 5e-06,
+      "loss": 0.5958,
+      "num_input_tokens_seen": 240418408,
+      "step": 1391
+    },
+    {
+      "epoch": 0.5559552358113509,
+      "loss": 0.519351601600647,
+      "loss_ce": 0.005221944767981768,
+      "loss_xval": 0.515625,
+      "num_input_tokens_seen": 240418408,
+      "step": 1391
+    },
+    {
+      "epoch": 0.5563549160671463,
+      "grad_norm": 89.13366947751527,
+      "learning_rate": 5e-06,
+      "loss": 0.7433,
+      "num_input_tokens_seen": 240591376,
+      "step": 1392
+    },
+    {
+      "epoch": 0.5563549160671463,
+      "loss": 0.9261295795440674,
+      "loss_ce": 0.010220762342214584,
+      "loss_xval": 0.9140625,
+      "num_input_tokens_seen": 240591376,
+      "step": 1392
+    },
+    {
+      "epoch": 0.5567545963229417,
+      "grad_norm": 35.338435295261455,
+      "learning_rate": 5e-06,
+      "loss": 0.4817,
+      "num_input_tokens_seen": 240764424,
+      "step": 1393
+    },
+    {
+      "epoch": 0.5567545963229417,
+      "loss": 0.23436526954174042,
+      "loss_ce": 0.005239281803369522,
+      "loss_xval": 0.2294921875,
+      "num_input_tokens_seen": 240764424,
+      "step": 1393
+    },
+    {
+      "epoch": 0.5571542765787371,
+      "grad_norm": 64.32086168686824,
+      "learning_rate": 5e-06,
+      "loss": 0.5221,
+      "num_input_tokens_seen": 240937200,
+      "step": 1394
+    },
+    {
+      "epoch": 0.5571542765787371,
+      "loss": 0.38562482595443726,
+      "loss_ce": 0.003971992991864681,
+      "loss_xval": 0.380859375,
+      "num_input_tokens_seen": 240937200,
+      "step": 1394
+    },
+    {
+      "epoch": 0.5575539568345323,
+      "grad_norm": 21.415086573261146,
+      "learning_rate": 5e-06,
+      "loss": 0.2177,
+      "num_input_tokens_seen": 241110088,
+      "step": 1395
+    },
+    {
+      "epoch": 0.5575539568345323,
+      "loss": 0.2166837602853775,
+      "loss_ce": 0.0027860510163009167,
+      "loss_xval": 0.2138671875,
+      "num_input_tokens_seen": 241110088,
+      "step": 1395
+    },
+    {
+      "epoch": 0.5579536370903277,
+      "grad_norm": 62.42230199682289,
+      "learning_rate": 5e-06,
+      "loss": 0.4826,
+      "num_input_tokens_seen": 241282992,
+      "step": 1396
+    },
+    {
+      "epoch": 0.5579536370903277,
+      "loss": 0.5386009216308594,
+      "loss_ce": 0.002742763375863433,
+      "loss_xval": 0.53515625,
+      "num_input_tokens_seen": 241282992,
+      "step": 1396
+    },
+    {
+      "epoch": 0.5583533173461231,
+      "grad_norm": 29.710934144805904,
+      "learning_rate": 5e-06,
+      "loss": 0.4846,
+      "num_input_tokens_seen": 241455856,
+      "step": 1397
+    },
+    {
+      "epoch": 0.5583533173461231,
+      "loss": 0.6360405683517456,
+      "loss_ce": 0.004456415772438049,
+      "loss_xval": 0.6328125,
+      "num_input_tokens_seen": 241455856,
+      "step": 1397
+    },
+    {
+      "epoch": 0.5587529976019184,
+      "grad_norm": 30.202754655810416,
+      "learning_rate": 5e-06,
+      "loss": 0.4387,
+      "num_input_tokens_seen": 241628576,
+      "step": 1398
+    },
+    {
+      "epoch": 0.5587529976019184,
+      "loss": 0.41940563917160034,
+      "loss_ce": 0.005099033936858177,
+      "loss_xval": 0.4140625,
+      "num_input_tokens_seen": 241628576,
+      "step": 1398
+    },
+    {
+      "epoch": 0.5591526778577138,
+      "grad_norm": 34.58672133188951,
+      "learning_rate": 5e-06,
+      "loss": 0.5131,
+      "num_input_tokens_seen": 241801464,
+      "step": 1399
+    },
+    {
+      "epoch": 0.5591526778577138,
+      "loss": 0.8912590742111206,
+      "loss_ce": 0.004296140745282173,
+      "loss_xval": 0.88671875,
+      "num_input_tokens_seen": 241801464,
+      "step": 1399
+    },
+    {
+      "epoch": 0.5595523581135092,
+      "grad_norm": 61.9029431455141,
+      "learning_rate": 5e-06,
+      "loss": 0.3072,
+      "num_input_tokens_seen": 241974584,
+      "step": 1400
+    },
+    {
+      "epoch": 0.5595523581135092,
+      "loss": 0.3766733407974243,
+      "loss_ce": 0.004877682775259018,
+      "loss_xval": 0.37109375,
+      "num_input_tokens_seen": 241974584,
+      "step": 1400
+    },
+    {
+      "epoch": 0.5599520383693045,
+      "grad_norm": 58.06942738123757,
+      "learning_rate": 5e-06,
+      "loss": 0.4248,
+      "num_input_tokens_seen": 242147592,
+      "step": 1401
+    },
+    {
+      "epoch": 0.5599520383693045,
+      "loss": 0.3648153245449066,
+      "loss_ce": 0.0030446944292634726,
+      "loss_xval": 0.361328125,
+      "num_input_tokens_seen": 242147592,
+      "step": 1401
+    },
+    {
+      "epoch": 0.5603517186250999,
+      "grad_norm": 61.23774543866974,
+      "learning_rate": 5e-06,
+      "loss": 0.4822,
+      "num_input_tokens_seen": 242317160,
+      "step": 1402
+    },
+    {
+      "epoch": 0.5603517186250999,
+      "loss": 0.24395032227039337,
+      "loss_ce": 0.003014039946720004,
+      "loss_xval": 0.2412109375,
+      "num_input_tokens_seen": 242317160,
+      "step": 1402
+    },
+    {
+      "epoch": 0.5607513988808953,
+      "grad_norm": 35.92228501713754,
+      "learning_rate": 5e-06,
+      "loss": 0.4341,
+      "num_input_tokens_seen": 242486528,
+      "step": 1403
+    },
+    {
+      "epoch": 0.5607513988808953,
+      "loss": 0.39893341064453125,
+      "loss_ce": 0.0020217944402247667,
+      "loss_xval": 0.396484375,
+      "num_input_tokens_seen": 242486528,
+      "step": 1403
+    },
+    {
+      "epoch": 0.5611510791366906,
+      "grad_norm": 91.09500736565018,
+      "learning_rate": 5e-06,
+      "loss": 0.5419,
+      "num_input_tokens_seen": 242659688,
+      "step": 1404
+    },
+    {
+      "epoch": 0.5611510791366906,
+      "loss": 0.6004331111907959,
+      "loss_ce": 0.0020444332621991634,
+      "loss_xval": 0.59765625,
+      "num_input_tokens_seen": 242659688,
+      "step": 1404
+    },
+    {
+      "epoch": 0.561550759392486,
+      "grad_norm": 55.4921140642313,
+      "learning_rate": 5e-06,
+      "loss": 0.5621,
+      "num_input_tokens_seen": 242832520,
+      "step": 1405
+    },
+    {
+      "epoch": 0.561550759392486,
+      "loss": 0.6540317535400391,
+      "loss_ce": 0.0017490473110228777,
+      "loss_xval": 0.65234375,
+      "num_input_tokens_seen": 242832520,
+      "step": 1405
+    },
+    {
+      "epoch": 0.5619504396482814,
+      "grad_norm": 51.074231439851395,
+      "learning_rate": 5e-06,
+      "loss": 0.3966,
+      "num_input_tokens_seen": 243005600,
+      "step": 1406
+    },
+    {
+      "epoch": 0.5619504396482814,
+      "loss": 0.48184454441070557,
+      "loss_ce": 0.006624825298786163,
+      "loss_xval": 0.474609375,
+      "num_input_tokens_seen": 243005600,
+      "step": 1406
+    },
+    {
+      "epoch": 0.5623501199040767,
+      "grad_norm": 90.03472614066028,
+      "learning_rate": 5e-06,
+      "loss": 0.4644,
+      "num_input_tokens_seen": 243178984,
+      "step": 1407
+    },
+    {
+      "epoch": 0.5623501199040767,
+      "loss": 0.6506166458129883,
+      "loss_ce": 0.006390602793544531,
+      "loss_xval": 0.64453125,
+      "num_input_tokens_seen": 243178984,
+      "step": 1407
+    },
+    {
+      "epoch": 0.5627498001598721,
+      "grad_norm": 57.773260923011286,
+      "learning_rate": 5e-06,
+      "loss": 0.8877,
+      "num_input_tokens_seen": 243352152,
+      "step": 1408
+    },
+    {
+      "epoch": 0.5627498001598721,
+      "loss": 0.8280885219573975,
+      "loss_ce": 0.00386980758048594,
+      "loss_xval": 0.82421875,
+      "num_input_tokens_seen": 243352152,
+      "step": 1408
+    },
+    {
+      "epoch": 0.5631494804156675,
+      "grad_norm": 116.82277290671593,
+      "learning_rate": 5e-06,
+      "loss": 0.4323,
+      "num_input_tokens_seen": 243525104,
+      "step": 1409
+    },
+    {
+      "epoch": 0.5631494804156675,
+      "loss": 0.4614856243133545,
+      "loss_ce": 0.006285438779741526,
+      "loss_xval": 0.455078125,
+      "num_input_tokens_seen": 243525104,
+      "step": 1409
+    },
+    {
+      "epoch": 0.5635491606714629,
+      "grad_norm": 61.1230282236721,
+      "learning_rate": 5e-06,
+      "loss": 0.35,
+      "num_input_tokens_seen": 243697976,
+      "step": 1410
+    },
+    {
+      "epoch": 0.5635491606714629,
+      "loss": 0.38546931743621826,
+      "loss_ce": 0.0026262898463755846,
+      "loss_xval": 0.3828125,
+      "num_input_tokens_seen": 243697976,
+      "step": 1410
+    },
+    {
+      "epoch": 0.5639488409272582,
+      "grad_norm": 111.85099191601515,
+      "learning_rate": 5e-06,
+      "loss": 0.3607,
+      "num_input_tokens_seen": 243870560,
+      "step": 1411
+    },
+    {
+      "epoch": 0.5639488409272582,
+      "loss": 0.37697547674179077,
+      "loss_ce": 0.00398966483771801,
+      "loss_xval": 0.373046875,
+      "num_input_tokens_seen": 243870560,
+      "step": 1411
+    },
+    {
+      "epoch": 0.5643485211830536,
+      "grad_norm": 88.33100579942653,
+      "learning_rate": 5e-06,
+      "loss": 0.3984,
+      "num_input_tokens_seen": 244043272,
+      "step": 1412
+    },
+    {
+      "epoch": 0.5643485211830536,
+      "loss": 0.432317852973938,
+      "loss_ce": 0.004156234674155712,
+      "loss_xval": 0.427734375,
+      "num_input_tokens_seen": 244043272,
+      "step": 1412
+    },
+    {
+      "epoch": 0.564748201438849,
+      "grad_norm": 81.4102017754153,
+      "learning_rate": 5e-06,
+      "loss": 0.6458,
+      "num_input_tokens_seen": 244216144,
+      "step": 1413
+    },
+    {
+      "epoch": 0.564748201438849,
+      "loss": 0.6670348048210144,
+      "loss_ce": 0.0025145430117845535,
+      "loss_xval": 0.6640625,
+      "num_input_tokens_seen": 244216144,
+      "step": 1413
+    },
+    {
+      "epoch": 0.5651478816946442,
+      "grad_norm": 46.391307098818544,
+      "learning_rate": 5e-06,
+      "loss": 0.4551,
+      "num_input_tokens_seen": 244389072,
+      "step": 1414
+    },
+    {
+      "epoch": 0.5651478816946442,
+      "loss": 0.3752412796020508,
+      "loss_ce": 0.005246136337518692,
+      "loss_xval": 0.369140625,
+      "num_input_tokens_seen": 244389072,
+      "step": 1414
+    },
+    {
+      "epoch": 0.5655475619504396,
+      "grad_norm": 129.86301928613088,
+      "learning_rate": 5e-06,
+      "loss": 0.4808,
+      "num_input_tokens_seen": 244561792,
+      "step": 1415
+    },
+    {
+      "epoch": 0.5655475619504396,
+      "loss": 0.30836910009384155,
+      "loss_ce": 0.007160608656704426,
+      "loss_xval": 0.30078125,
+      "num_input_tokens_seen": 244561792,
+      "step": 1415
+    },
+    {
+      "epoch": 0.565947242206235,
+      "grad_norm": 40.89946165935015,
+      "learning_rate": 5e-06,
+      "loss": 0.4916,
+      "num_input_tokens_seen": 244735040,
+      "step": 1416
+    },
+    {
+      "epoch": 0.565947242206235,
+      "loss": 0.36573469638824463,
+      "loss_ce": 0.002453463850542903,
+      "loss_xval": 0.36328125,
+      "num_input_tokens_seen": 244735040,
+      "step": 1416
+    },
+    {
+      "epoch": 0.5663469224620303,
+      "grad_norm": 57.37518618513914,
+      "learning_rate": 5e-06,
+      "loss": 0.7517,
+      "num_input_tokens_seen": 244907832,
+      "step": 1417
+    },
+    {
+      "epoch": 0.5663469224620303,
+      "loss": 1.0576549768447876,
+      "loss_ce": 0.007972333580255508,
+      "loss_xval": 1.046875,
+      "num_input_tokens_seen": 244907832,
+      "step": 1417
+    },
+    {
+      "epoch": 0.5667466027178257,
+      "grad_norm": 50.498261369439454,
+      "learning_rate": 5e-06,
+      "loss": 0.7163,
+      "num_input_tokens_seen": 245080504,
+      "step": 1418
+    },
+    {
+      "epoch": 0.5667466027178257,
+      "loss": 0.40888845920562744,
+      "loss_ce": 0.011854803189635277,
+      "loss_xval": 0.396484375,
+      "num_input_tokens_seen": 245080504,
+      "step": 1418
+    },
+    {
+      "epoch": 0.5671462829736211,
+      "grad_norm": 87.47288430083069,
+      "learning_rate": 5e-06,
+      "loss": 0.4905,
+      "num_input_tokens_seen": 245253712,
+      "step": 1419
+    },
+    {
+      "epoch": 0.5671462829736211,
+      "loss": 0.5902141332626343,
+      "loss_ce": 0.01254691369831562,
+      "loss_xval": 0.578125,
+      "num_input_tokens_seen": 245253712,
+      "step": 1419
+    },
+    {
+      "epoch": 0.5675459632294164,
+      "grad_norm": 49.32901995535315,
+      "learning_rate": 5e-06,
+      "loss": 0.4311,
+      "num_input_tokens_seen": 245426592,
+      "step": 1420
+    },
+    {
+      "epoch": 0.5675459632294164,
+      "loss": 0.39141321182250977,
+      "loss_ce": 0.006342416163533926,
+      "loss_xval": 0.384765625,
+      "num_input_tokens_seen": 245426592,
+      "step": 1420
+    },
+    {
+      "epoch": 0.5679456434852118,
+      "grad_norm": 53.82129861028939,
+      "learning_rate": 5e-06,
+      "loss": 0.5077,
+      "num_input_tokens_seen": 245599872,
+      "step": 1421
+    },
+    {
+      "epoch": 0.5679456434852118,
+      "loss": 0.3029336631298065,
+      "loss_ce": 0.002427075756713748,
+      "loss_xval": 0.30078125,
+      "num_input_tokens_seen": 245599872,
+      "step": 1421
+    },
+    {
+      "epoch": 0.5683453237410072,
+      "grad_norm": 20.8997393508194,
+      "learning_rate": 5e-06,
+      "loss": 0.4295,
+      "num_input_tokens_seen": 245772848,
+      "step": 1422
+    },
+    {
+      "epoch": 0.5683453237410072,
+      "loss": 0.4302918314933777,
+      "loss_ce": 0.015069630928337574,
+      "loss_xval": 0.416015625,
+      "num_input_tokens_seen": 245772848,
+      "step": 1422
+    },
+    {
+      "epoch": 0.5687450039968026,
+      "grad_norm": 34.823028475917404,
+      "learning_rate": 5e-06,
+      "loss": 0.5763,
+      "num_input_tokens_seen": 245945280,
+      "step": 1423
+    },
+    {
+      "epoch": 0.5687450039968026,
+      "loss": 0.46396341919898987,
+      "loss_ce": 0.003575220936909318,
+      "loss_xval": 0.4609375,
+      "num_input_tokens_seen": 245945280,
+      "step": 1423
+    },
+    {
+      "epoch": 0.5691446842525979,
+      "grad_norm": 78.37392797245467,
+      "learning_rate": 5e-06,
+      "loss": 0.5372,
+      "num_input_tokens_seen": 246118456,
+      "step": 1424
+    },
+    {
+      "epoch": 0.5691446842525979,
+      "loss": 0.7276915311813354,
+      "loss_ce": 0.004821660462766886,
+      "loss_xval": 0.72265625,
+      "num_input_tokens_seen": 246118456,
+      "step": 1424
+    },
+    {
+      "epoch": 0.5695443645083933,
+      "grad_norm": 35.365197351786534,
+      "learning_rate": 5e-06,
+      "loss": 0.659,
+      "num_input_tokens_seen": 246291224,
+      "step": 1425
+    },
+    {
+      "epoch": 0.5695443645083933,
+      "loss": 0.3385479152202606,
+      "loss_ce": 0.005723202601075172,
+      "loss_xval": 0.33203125,
+      "num_input_tokens_seen": 246291224,
+      "step": 1425
+    },
+    {
+      "epoch": 0.5699440447641887,
+      "grad_norm": 38.38998430273591,
+      "learning_rate": 5e-06,
+      "loss": 0.6328,
+      "num_input_tokens_seen": 246464600,
+      "step": 1426
+    },
+    {
+      "epoch": 0.5699440447641887,
+      "loss": 0.5840468406677246,
+      "loss_ce": 0.007112047169357538,
+      "loss_xval": 0.578125,
+      "num_input_tokens_seen": 246464600,
+      "step": 1426
+    },
+    {
+      "epoch": 0.570343725019984,
+      "grad_norm": 26.75343703719278,
+      "learning_rate": 5e-06,
+      "loss": 0.7358,
+      "num_input_tokens_seen": 246637424,
+      "step": 1427
+    },
+    {
+      "epoch": 0.570343725019984,
+      "loss": 0.7768107652664185,
+      "loss_ce": 0.005021188408136368,
+      "loss_xval": 0.7734375,
+      "num_input_tokens_seen": 246637424,
+      "step": 1427
+    },
+    {
+      "epoch": 0.5707434052757794,
+      "grad_norm": 48.88082237036071,
+      "learning_rate": 5e-06,
+      "loss": 0.4387,
+      "num_input_tokens_seen": 246810640,
+      "step": 1428
+    },
+    {
+      "epoch": 0.5707434052757794,
+      "loss": 0.5554983019828796,
+      "loss_ce": 0.0043356032110750675,
+      "loss_xval": 0.55078125,
+      "num_input_tokens_seen": 246810640,
+      "step": 1428
+    },
+    {
+      "epoch": 0.5711430855315748,
+      "grad_norm": 34.52783585537693,
+      "learning_rate": 5e-06,
+      "loss": 0.4248,
+      "num_input_tokens_seen": 246983392,
+      "step": 1429
+    },
+    {
+      "epoch": 0.5711430855315748,
+      "loss": 0.5638842582702637,
+      "loss_ce": 0.00471069710329175,
+      "loss_xval": 0.55859375,
+      "num_input_tokens_seen": 246983392,
+      "step": 1429
+    },
+    {
+      "epoch": 0.5715427657873701,
+      "grad_norm": 25.030027317245604,
+      "learning_rate": 5e-06,
+      "loss": 0.3461,
+      "num_input_tokens_seen": 247156080,
+      "step": 1430
+    },
+    {
+      "epoch": 0.5715427657873701,
+      "loss": 0.4537726938724518,
+      "loss_ce": 0.009070548228919506,
+      "loss_xval": 0.4453125,
+      "num_input_tokens_seen": 247156080,
+      "step": 1430
+    },
+    {
+      "epoch": 0.5719424460431655,
+      "grad_norm": 37.87817514853326,
+      "learning_rate": 5e-06,
+      "loss": 0.5784,
+      "num_input_tokens_seen": 247328944,
+      "step": 1431
+    },
+    {
+      "epoch": 0.5719424460431655,
+      "loss": 0.7571723461151123,
+      "loss_ce": 0.0038001316133886576,
+      "loss_xval": 0.75390625,
+      "num_input_tokens_seen": 247328944,
+      "step": 1431
+    },
+    {
+      "epoch": 0.5723421262989609,
+      "grad_norm": 54.5491901614114,
+      "learning_rate": 5e-06,
+      "loss": 0.4931,
+      "num_input_tokens_seen": 247502144,
+      "step": 1432
+    },
+    {
+      "epoch": 0.5723421262989609,
+      "loss": 0.5219075083732605,
+      "loss_ce": 0.003871629014611244,
+      "loss_xval": 0.51953125,
+      "num_input_tokens_seen": 247502144,
+      "step": 1432
+    },
+    {
+      "epoch": 0.5727418065547561,
+      "grad_norm": 56.706910138506075,
+      "learning_rate": 5e-06,
+      "loss": 0.5465,
+      "num_input_tokens_seen": 247674936,
+      "step": 1433
+    },
+    {
+      "epoch": 0.5727418065547561,
+      "loss": 0.6499233245849609,
+      "loss_ce": 0.002157290233299136,
+      "loss_xval": 0.6484375,
+      "num_input_tokens_seen": 247674936,
+      "step": 1433
+    },
+    {
+      "epoch": 0.5731414868105515,
+      "grad_norm": 16.90318365693236,
+      "learning_rate": 5e-06,
+      "loss": 0.5191,
+      "num_input_tokens_seen": 247848032,
+      "step": 1434
+    },
+    {
+      "epoch": 0.5731414868105515,
+      "loss": 0.534213662147522,
+      "loss_ce": 0.014712927863001823,
+      "loss_xval": 0.51953125,
+      "num_input_tokens_seen": 247848032,
+      "step": 1434
+    },
+    {
+      "epoch": 0.573541167066347,
+      "grad_norm": 30.931323218606245,
+      "learning_rate": 5e-06,
+      "loss": 0.557,
+      "num_input_tokens_seen": 248020944,
+      "step": 1435
+    },
+    {
+      "epoch": 0.573541167066347,
+      "loss": 0.4585926830768585,
+      "loss_ce": 0.005650795064866543,
+      "loss_xval": 0.453125,
+      "num_input_tokens_seen": 248020944,
+      "step": 1435
+    },
+    {
+      "epoch": 0.5739408473221422,
+      "grad_norm": 52.81318892972862,
+      "learning_rate": 5e-06,
+      "loss": 0.4016,
+      "num_input_tokens_seen": 248193744,
+      "step": 1436
+    },
+    {
+      "epoch": 0.5739408473221422,
+      "loss": 0.22793583571910858,
+      "loss_ce": 0.006530814804136753,
+      "loss_xval": 0.2216796875,
+      "num_input_tokens_seen": 248193744,
+      "step": 1436
+    },
+    {
+      "epoch": 0.5743405275779376,
+      "grad_norm": 41.45713075341328,
+      "learning_rate": 5e-06,
+      "loss": 0.3829,
+      "num_input_tokens_seen": 248366568,
+      "step": 1437
+    },
+    {
+      "epoch": 0.5743405275779376,
+      "loss": 0.15585559606552124,
+      "loss_ce": 0.002306394511833787,
+      "loss_xval": 0.1533203125,
+      "num_input_tokens_seen": 248366568,
+      "step": 1437
+    },
+    {
+      "epoch": 0.574740207833733,
+      "grad_norm": 42.899656566869155,
+      "learning_rate": 5e-06,
+      "loss": 0.3808,
+      "num_input_tokens_seen": 248539664,
+      "step": 1438
+    },
+    {
+      "epoch": 0.574740207833733,
+      "loss": 0.40062421560287476,
+      "loss_ce": 0.0016373979160562158,
+      "loss_xval": 0.3984375,
+      "num_input_tokens_seen": 248539664,
+      "step": 1438
+    },
+    {
+      "epoch": 0.5751398880895284,
+      "grad_norm": 28.503400213541788,
+      "learning_rate": 5e-06,
+      "loss": 0.5283,
+      "num_input_tokens_seen": 248712512,
+      "step": 1439
+    },
+    {
+      "epoch": 0.5751398880895284,
+      "loss": 0.5747106075286865,
+      "loss_ce": 0.001498923171311617,
+      "loss_xval": 0.57421875,
+      "num_input_tokens_seen": 248712512,
+      "step": 1439
+    },
+    {
+      "epoch": 0.5755395683453237,
+      "grad_norm": 28.16745339282557,
+      "learning_rate": 5e-06,
+      "loss": 0.5161,
+      "num_input_tokens_seen": 248882088,
+      "step": 1440
+    },
+    {
+      "epoch": 0.5755395683453237,
+      "loss": 0.2827589511871338,
+      "loss_ce": 0.001676824176684022,
+      "loss_xval": 0.28125,
+      "num_input_tokens_seen": 248882088,
+      "step": 1440
+    },
+    {
+      "epoch": 0.5759392486011191,
+      "grad_norm": 77.82657940371696,
+      "learning_rate": 5e-06,
+      "loss": 0.5886,
+      "num_input_tokens_seen": 249054720,
+      "step": 1441
+    },
+    {
+      "epoch": 0.5759392486011191,
+      "loss": 0.40001291036605835,
+      "loss_ce": 0.0038947416469454765,
+      "loss_xval": 0.396484375,
+      "num_input_tokens_seen": 249054720,
+      "step": 1441
+    },
+    {
+      "epoch": 0.5763389288569145,
+      "grad_norm": 20.49828614983781,
+      "learning_rate": 5e-06,
+      "loss": 0.4377,
+      "num_input_tokens_seen": 249227984,
+      "step": 1442
+    },
+    {
+      "epoch": 0.5763389288569145,
+      "loss": 0.39074262976646423,
+      "loss_ce": 0.0035661240108311176,
+      "loss_xval": 0.38671875,
+      "num_input_tokens_seen": 249227984,
+      "step": 1442
+    },
+    {
+      "epoch": 0.5767386091127098,
+      "grad_norm": 25.0536969800906,
+      "learning_rate": 5e-06,
+      "loss": 0.435,
+      "num_input_tokens_seen": 249400992,
+      "step": 1443
+    },
+    {
+      "epoch": 0.5767386091127098,
+      "loss": 0.5896605849266052,
+      "loss_ce": 0.006286558695137501,
+      "loss_xval": 0.58203125,
+      "num_input_tokens_seen": 249400992,
+      "step": 1443
+    },
+    {
+      "epoch": 0.5771382893685052,
+      "grad_norm": 40.73073999908245,
+      "learning_rate": 5e-06,
+      "loss": 0.2902,
+      "num_input_tokens_seen": 249574272,
+      "step": 1444
+    },
+    {
+      "epoch": 0.5771382893685052,
+      "loss": 0.1345619261264801,
+      "loss_ce": 0.003610992804169655,
+      "loss_xval": 0.130859375,
+      "num_input_tokens_seen": 249574272,
+      "step": 1444
+    },
+    {
+      "epoch": 0.5775379696243006,
+      "grad_norm": 24.77426937534188,
+      "learning_rate": 5e-06,
+      "loss": 0.5771,
+      "num_input_tokens_seen": 249747576,
+      "step": 1445
+    },
+    {
+      "epoch": 0.5775379696243006,
+      "loss": 0.5811995267868042,
+      "loss_ce": 0.005882172379642725,
+      "loss_xval": 0.57421875,
+      "num_input_tokens_seen": 249747576,
+      "step": 1445
+    },
+    {
+      "epoch": 0.5779376498800959,
+      "grad_norm": 40.53175188685322,
+      "learning_rate": 5e-06,
+      "loss": 0.5273,
+      "num_input_tokens_seen": 249920024,
+      "step": 1446
+    },
+    {
+      "epoch": 0.5779376498800959,
+      "loss": 0.6215522885322571,
+      "loss_ce": 0.002655788091942668,
+      "loss_xval": 0.6171875,
+      "num_input_tokens_seen": 249920024,
+      "step": 1446
+    },
+    {
+      "epoch": 0.5783373301358913,
+      "grad_norm": 17.535297794439494,
+      "learning_rate": 5e-06,
+      "loss": 0.2833,
+      "num_input_tokens_seen": 250092904,
+      "step": 1447
+    },
+    {
+      "epoch": 0.5783373301358913,
+      "loss": 0.3107568621635437,
+      "loss_ce": 0.0020715624559670687,
+      "loss_xval": 0.30859375,
+      "num_input_tokens_seen": 250092904,
+      "step": 1447
+    },
+    {
+      "epoch": 0.5787370103916867,
+      "grad_norm": 59.851621485656516,
+      "learning_rate": 5e-06,
+      "loss": 0.3855,
+      "num_input_tokens_seen": 250266032,
+      "step": 1448
+    },
+    {
+      "epoch": 0.5787370103916867,
+      "loss": 0.254830002784729,
+      "loss_ce": 0.008156410418450832,
+      "loss_xval": 0.2470703125,
+      "num_input_tokens_seen": 250266032,
+      "step": 1448
+    },
+    {
+      "epoch": 0.579136690647482,
+      "grad_norm": 56.40854683309498,
+      "learning_rate": 5e-06,
+      "loss": 0.6026,
+      "num_input_tokens_seen": 250438480,
+      "step": 1449
+    },
+    {
+      "epoch": 0.579136690647482,
+      "loss": 0.7701046466827393,
+      "loss_ce": 0.004235545638948679,
+      "loss_xval": 0.765625,
+      "num_input_tokens_seen": 250438480,
+      "step": 1449
+    },
+    {
+      "epoch": 0.5795363709032774,
+      "grad_norm": 17.60230541103847,
+      "learning_rate": 5e-06,
+      "loss": 0.4824,
+      "num_input_tokens_seen": 250611272,
+      "step": 1450
+    },
+    {
+      "epoch": 0.5795363709032774,
+      "loss": 0.6768176555633545,
+      "loss_ce": 0.0039049754850566387,
+      "loss_xval": 0.671875,
+      "num_input_tokens_seen": 250611272,
+      "step": 1450
+    },
+    {
+      "epoch": 0.5799360511590728,
+      "grad_norm": 46.39964305071812,
+      "learning_rate": 5e-06,
+      "loss": 0.5641,
+      "num_input_tokens_seen": 250784048,
+      "step": 1451
+    },
+    {
+      "epoch": 0.5799360511590728,
+      "loss": 0.11980067938566208,
+      "loss_ce": 0.012394066900014877,
+      "loss_xval": 0.107421875,
+      "num_input_tokens_seen": 250784048,
+      "step": 1451
+    },
+    {
+      "epoch": 0.580335731414868,
+      "grad_norm": 31.255334541299135,
+      "learning_rate": 5e-06,
+      "loss": 0.2784,
+      "num_input_tokens_seen": 250957296,
+      "step": 1452
+    },
+    {
+      "epoch": 0.580335731414868,
+      "loss": 0.31082266569137573,
+      "loss_ce": 0.0031139145139604807,
+      "loss_xval": 0.30859375,
+      "num_input_tokens_seen": 250957296,
+      "step": 1452
+    },
+    {
+      "epoch": 0.5807354116706634,
+      "grad_norm": 77.28904921192597,
+      "learning_rate": 5e-06,
+      "loss": 0.3999,
+      "num_input_tokens_seen": 251130488,
+      "step": 1453
+    },
+    {
+      "epoch": 0.5807354116706634,
+      "loss": 0.2975703477859497,
+      "loss_ce": 0.0013362220488488674,
+      "loss_xval": 0.296875,
+      "num_input_tokens_seen": 251130488,
+      "step": 1453
+    },
+    {
+      "epoch": 0.5811350919264588,
+      "grad_norm": 19.237682772485503,
+      "learning_rate": 5e-06,
+      "loss": 0.5526,
+      "num_input_tokens_seen": 251303224,
+      "step": 1454
+    },
+    {
+      "epoch": 0.5811350919264588,
+      "loss": 0.4594392478466034,
+      "loss_ce": 0.00637528020888567,
+      "loss_xval": 0.453125,
+      "num_input_tokens_seen": 251303224,
+      "step": 1454
+    },
+    {
+      "epoch": 0.5815347721822542,
+      "grad_norm": 86.7880986943712,
+      "learning_rate": 5e-06,
+      "loss": 0.5105,
+      "num_input_tokens_seen": 251476032,
+      "step": 1455
+    },
+    {
+      "epoch": 0.5815347721822542,
+      "loss": 0.6088451147079468,
+      "loss_ce": 0.01717032864689827,
+      "loss_xval": 0.58984375,
+      "num_input_tokens_seen": 251476032,
+      "step": 1455
+    },
+    {
+      "epoch": 0.5819344524380495,
+      "grad_norm": 47.39222562187567,
+      "learning_rate": 5e-06,
+      "loss": 0.5009,
+      "num_input_tokens_seen": 251649088,
+      "step": 1456
+    },
+    {
+      "epoch": 0.5819344524380495,
+      "loss": 0.3581160306930542,
+      "loss_ce": 0.0064924792386591434,
+      "loss_xval": 0.3515625,
+      "num_input_tokens_seen": 251649088,
+      "step": 1456
+    },
+    {
+      "epoch": 0.5823341326938449,
+      "grad_norm": 60.79443614481706,
+      "learning_rate": 5e-06,
+      "loss": 0.419,
+      "num_input_tokens_seen": 251822128,
+      "step": 1457
+    },
+    {
+      "epoch": 0.5823341326938449,
+      "loss": 0.4279427230358124,
+      "loss_ce": 0.002863375935703516,
+      "loss_xval": 0.42578125,
+      "num_input_tokens_seen": 251822128,
+      "step": 1457
+    },
+    {
+      "epoch": 0.5827338129496403,
+      "grad_norm": 68.2522669779495,
+      "learning_rate": 5e-06,
+      "loss": 0.3529,
+      "num_input_tokens_seen": 251994680,
+      "step": 1458
+    },
+    {
+      "epoch": 0.5827338129496403,
+      "loss": 0.11519064009189606,
+      "loss_ce": 0.006273405160754919,
+      "loss_xval": 0.10888671875,
+      "num_input_tokens_seen": 251994680,
+      "step": 1458
+    },
+    {
+      "epoch": 0.5831334932054356,
+      "grad_norm": 23.09936882583252,
+      "learning_rate": 5e-06,
+      "loss": 0.4876,
+      "num_input_tokens_seen": 252167616,
+      "step": 1459
+    },
+    {
+      "epoch": 0.5831334932054356,
+      "loss": 0.35358744859695435,
+      "loss_ce": 0.002971008885651827,
+      "loss_xval": 0.3515625,
+      "num_input_tokens_seen": 252167616,
+      "step": 1459
+    },
+    {
+      "epoch": 0.583533173461231,
+      "grad_norm": 101.93791119936537,
+      "learning_rate": 5e-06,
+      "loss": 0.4939,
+      "num_input_tokens_seen": 252340704,
+      "step": 1460
+    },
+    {
+      "epoch": 0.583533173461231,
+      "loss": 0.5895069241523743,
+      "loss_ce": 0.0047748456709086895,
+      "loss_xval": 0.5859375,
+      "num_input_tokens_seen": 252340704,
+      "step": 1460
+    },
+    {
+      "epoch": 0.5839328537170264,
+      "grad_norm": 50.2395324965491,
+      "learning_rate": 5e-06,
+      "loss": 0.4909,
+      "num_input_tokens_seen": 252513632,
+      "step": 1461
+    },
+    {
+      "epoch": 0.5839328537170264,
+      "loss": 0.3211362957954407,
+      "loss_ce": 0.0036619282327592373,
+      "loss_xval": 0.318359375,
+      "num_input_tokens_seen": 252513632,
+      "step": 1461
+    },
+    {
+      "epoch": 0.5843325339728217,
+      "grad_norm": 71.7569870488973,
+      "learning_rate": 5e-06,
+      "loss": 0.5136,
+      "num_input_tokens_seen": 252686728,
+      "step": 1462
+    },
+    {
+      "epoch": 0.5843325339728217,
+      "loss": 0.6344008445739746,
+      "loss_ce": 0.003266814863309264,
+      "loss_xval": 0.6328125,
+      "num_input_tokens_seen": 252686728,
+      "step": 1462
+    },
+    {
+      "epoch": 0.5847322142286171,
+      "grad_norm": 39.298202628131506,
+      "learning_rate": 5e-06,
+      "loss": 0.4078,
+      "num_input_tokens_seen": 252859736,
+      "step": 1463
+    },
+    {
+      "epoch": 0.5847322142286171,
+      "loss": 0.33668771386146545,
+      "loss_ce": 0.00300851883366704,
+      "loss_xval": 0.333984375,
+      "num_input_tokens_seen": 252859736,
+      "step": 1463
+    },
+    {
+      "epoch": 0.5851318944844125,
+      "grad_norm": 94.10269985619064,
+      "learning_rate": 5e-06,
+      "loss": 0.5931,
+      "num_input_tokens_seen": 253032736,
+      "step": 1464
+    },
+    {
+      "epoch": 0.5851318944844125,
+      "loss": 0.6349042654037476,
+      "loss_ce": 0.004136495292186737,
+      "loss_xval": 0.62890625,
+      "num_input_tokens_seen": 253032736,
+      "step": 1464
+    },
+    {
+      "epoch": 0.5855315747402078,
+      "grad_norm": 88.35693572031727,
+      "learning_rate": 5e-06,
+      "loss": 0.3551,
+      "num_input_tokens_seen": 253205312,
+      "step": 1465
+    },
+    {
+      "epoch": 0.5855315747402078,
+      "loss": 0.28992077708244324,
+      "loss_ce": 0.0015906940679997206,
+      "loss_xval": 0.2890625,
+      "num_input_tokens_seen": 253205312,
+      "step": 1465
+    },
+    {
+      "epoch": 0.5859312549960032,
+      "grad_norm": 89.76469496150095,
+      "learning_rate": 5e-06,
+      "loss": 0.2787,
+      "num_input_tokens_seen": 253378672,
+      "step": 1466
+    },
+    {
+      "epoch": 0.5859312549960032,
+      "loss": 0.3085545301437378,
+      "loss_ce": 0.005087736062705517,
+      "loss_xval": 0.302734375,
+      "num_input_tokens_seen": 253378672,
+      "step": 1466
+    },
+    {
+      "epoch": 0.5863309352517986,
+      "grad_norm": 41.82595179045434,
+      "learning_rate": 5e-06,
+      "loss": 0.393,
+      "num_input_tokens_seen": 253551688,
+      "step": 1467
+    },
+    {
+      "epoch": 0.5863309352517986,
+      "loss": 0.3362312614917755,
+      "loss_ce": 0.00755694042891264,
+      "loss_xval": 0.328125,
+      "num_input_tokens_seen": 253551688,
+      "step": 1467
+    },
+    {
+      "epoch": 0.586730615507594,
+      "grad_norm": 79.00064925393347,
+      "learning_rate": 5e-06,
+      "loss": 0.6256,
+      "num_input_tokens_seen": 253725080,
+      "step": 1468
+    },
+    {
+      "epoch": 0.586730615507594,
+      "loss": 0.5980717539787292,
+      "loss_ce": 0.004138659685850143,
+      "loss_xval": 0.59375,
+      "num_input_tokens_seen": 253725080,
+      "step": 1468
+    },
+    {
+      "epoch": 0.5871302957633893,
+      "grad_norm": 84.44247148635479,
+      "learning_rate": 5e-06,
+      "loss": 0.504,
+      "num_input_tokens_seen": 253898112,
+      "step": 1469
+    },
+    {
+      "epoch": 0.5871302957633893,
+      "loss": 0.7288265228271484,
+      "loss_ce": 0.0033321240916848183,
+      "loss_xval": 0.7265625,
+      "num_input_tokens_seen": 253898112,
+      "step": 1469
+    },
+    {
+      "epoch": 0.5875299760191847,
+      "grad_norm": 26.04118376928227,
+      "learning_rate": 5e-06,
+      "loss": 0.6305,
+      "num_input_tokens_seen": 254071208,
+      "step": 1470
+    },
+    {
+      "epoch": 0.5875299760191847,
+      "loss": 0.39779388904571533,
+      "loss_ce": 0.011380329728126526,
+      "loss_xval": 0.38671875,
+      "num_input_tokens_seen": 254071208,
+      "step": 1470
+    },
+    {
+      "epoch": 0.5879296562749801,
+      "grad_norm": 36.18494670134758,
+      "learning_rate": 5e-06,
+      "loss": 0.3893,
+      "num_input_tokens_seen": 254244272,
+      "step": 1471
+    },
+    {
+      "epoch": 0.5879296562749801,
+      "loss": 0.29755258560180664,
+      "loss_ce": 0.0026612617075443268,
+      "loss_xval": 0.294921875,
+      "num_input_tokens_seen": 254244272,
+      "step": 1471
+    },
+    {
+      "epoch": 0.5883293365307753,
+      "grad_norm": 57.43211670376443,
+      "learning_rate": 5e-06,
+      "loss": 0.5984,
+      "num_input_tokens_seen": 254416960,
+      "step": 1472
+    },
+    {
+      "epoch": 0.5883293365307753,
+      "loss": 0.510471522808075,
+      "loss_ce": 0.006870460696518421,
+      "loss_xval": 0.50390625,
+      "num_input_tokens_seen": 254416960,
+      "step": 1472
+    },
+    {
+      "epoch": 0.5887290167865707,
+      "grad_norm": 39.33826844537321,
+      "learning_rate": 5e-06,
+      "loss": 0.6617,
+      "num_input_tokens_seen": 254589784,
+      "step": 1473
+    },
+    {
+      "epoch": 0.5887290167865707,
+      "loss": 0.5638649463653564,
+      "loss_ce": 0.004691338166594505,
+      "loss_xval": 0.55859375,
+      "num_input_tokens_seen": 254589784,
+      "step": 1473
+    },
+    {
+      "epoch": 0.5891286970423661,
+      "grad_norm": 53.51753517382941,
+      "learning_rate": 5e-06,
+      "loss": 0.4919,
+      "num_input_tokens_seen": 254762816,
+      "step": 1474
+    },
+    {
+      "epoch": 0.5891286970423661,
+      "loss": 0.4380595088005066,
+      "loss_ce": 0.0016886851517483592,
+      "loss_xval": 0.435546875,
+      "num_input_tokens_seen": 254762816,
+      "step": 1474
+    },
+    {
+      "epoch": 0.5895283772981614,
+      "grad_norm": 47.60334876034079,
+      "learning_rate": 5e-06,
+      "loss": 0.7327,
+      "num_input_tokens_seen": 254936072,
+      "step": 1475
+    },
+    {
+      "epoch": 0.5895283772981614,
+      "loss": 0.9281734228134155,
+      "loss_ce": 0.00651207473129034,
+      "loss_xval": 0.921875,
+      "num_input_tokens_seen": 254936072,
+      "step": 1475
+    },
+    {
+      "epoch": 0.5899280575539568,
+      "grad_norm": 42.283179440632075,
+      "learning_rate": 5e-06,
+      "loss": 0.3088,
+      "num_input_tokens_seen": 255108728,
+      "step": 1476
+    },
+    {
+      "epoch": 0.5899280575539568,
+      "loss": 0.17988061904907227,
+      "loss_ce": 0.0028633992187678814,
+      "loss_xval": 0.1767578125,
+      "num_input_tokens_seen": 255108728,
+      "step": 1476
+    },
+    {
+      "epoch": 0.5903277378097522,
+      "grad_norm": 56.89112241926728,
+      "learning_rate": 5e-06,
+      "loss": 0.4516,
+      "num_input_tokens_seen": 255281672,
+      "step": 1477
+    },
+    {
+      "epoch": 0.5903277378097522,
+      "loss": 0.535220742225647,
+      "loss_ce": 0.0025211526080965996,
+      "loss_xval": 0.53125,
+      "num_input_tokens_seen": 255281672,
+      "step": 1477
+    },
+    {
+      "epoch": 0.5907274180655475,
+      "grad_norm": 26.05614758054613,
+      "learning_rate": 5e-06,
+      "loss": 0.675,
+      "num_input_tokens_seen": 255454832,
+      "step": 1478
+    },
+    {
+      "epoch": 0.5907274180655475,
+      "loss": 0.8795278072357178,
+      "loss_ce": 0.0042531476356089115,
+      "loss_xval": 0.875,
+      "num_input_tokens_seen": 255454832,
+      "step": 1478
+    },
+    {
+      "epoch": 0.5911270983213429,
+      "grad_norm": 82.8948565903926,
+      "learning_rate": 5e-06,
+      "loss": 0.4564,
+      "num_input_tokens_seen": 255627888,
+      "step": 1479
+    },
+    {
+      "epoch": 0.5911270983213429,
+      "loss": 0.3429642617702484,
+      "loss_ce": 0.0021439511328935623,
+      "loss_xval": 0.33984375,
+      "num_input_tokens_seen": 255627888,
+      "step": 1479
+    },
+    {
+      "epoch": 0.5915267785771383,
+      "grad_norm": 74.3533568254218,
+      "learning_rate": 5e-06,
+      "loss": 0.436,
+      "num_input_tokens_seen": 255800960,
+      "step": 1480
+    },
+    {
+      "epoch": 0.5915267785771383,
+      "loss": 0.27249640226364136,
+      "loss_ce": 0.005421818234026432,
+      "loss_xval": 0.267578125,
+      "num_input_tokens_seen": 255800960,
+      "step": 1480
+    },
+    {
+      "epoch": 0.5919264588329336,
+      "grad_norm": 100.93013388274387,
+      "learning_rate": 5e-06,
+      "loss": 0.911,
+      "num_input_tokens_seen": 255974224,
+      "step": 1481
+    },
+    {
+      "epoch": 0.5919264588329336,
+      "loss": 1.2054524421691895,
+      "loss_ce": 0.005745388101786375,
+      "loss_xval": 1.203125,
+      "num_input_tokens_seen": 255974224,
+      "step": 1481
+    },
+    {
+      "epoch": 0.592326139088729,
+      "grad_norm": 30.404189839395876,
+      "learning_rate": 5e-06,
+      "loss": 0.4284,
+      "num_input_tokens_seen": 256146968,
+      "step": 1482
+    },
+    {
+      "epoch": 0.592326139088729,
+      "loss": 0.45736631751060486,
+      "loss_ce": 0.011336689814925194,
+      "loss_xval": 0.4453125,
+      "num_input_tokens_seen": 256146968,
+      "step": 1482
+    },
+    {
+      "epoch": 0.5927258193445244,
+      "grad_norm": 86.86243262803453,
+      "learning_rate": 5e-06,
+      "loss": 0.5621,
+      "num_input_tokens_seen": 256319912,
+      "step": 1483
+    },
+    {
+      "epoch": 0.5927258193445244,
+      "loss": 0.49696576595306396,
+      "loss_ce": 0.005571682937443256,
+      "loss_xval": 0.4921875,
+      "num_input_tokens_seen": 256319912,
+      "step": 1483
+    },
+    {
+      "epoch": 0.5931254996003198,
+      "grad_norm": 36.87791867548973,
+      "learning_rate": 5e-06,
+      "loss": 0.6044,
+      "num_input_tokens_seen": 256492800,
+      "step": 1484
+    },
+    {
+      "epoch": 0.5931254996003198,
+      "loss": 0.8356503844261169,
+      "loss_ce": 0.004473670851439238,
+      "loss_xval": 0.83203125,
+      "num_input_tokens_seen": 256492800,
+      "step": 1484
+    },
+    {
+      "epoch": 0.5935251798561151,
+      "grad_norm": 56.240908798030695,
+      "learning_rate": 5e-06,
+      "loss": 0.4727,
+      "num_input_tokens_seen": 256665936,
+      "step": 1485
+    },
+    {
+      "epoch": 0.5935251798561151,
+      "loss": 0.4955936670303345,
+      "loss_ce": 0.005145644303411245,
+      "loss_xval": 0.490234375,
+      "num_input_tokens_seen": 256665936,
+      "step": 1485
+    },
+    {
+      "epoch": 0.5939248601119105,
+      "grad_norm": 47.051400925900325,
+      "learning_rate": 5e-06,
+      "loss": 0.3654,
+      "num_input_tokens_seen": 256838816,
+      "step": 1486
+    },
+    {
+      "epoch": 0.5939248601119105,
+      "loss": 0.33166587352752686,
+      "loss_ce": 0.002838968764990568,
+      "loss_xval": 0.328125,
+      "num_input_tokens_seen": 256838816,
+      "step": 1486
+    },
+    {
+      "epoch": 0.5943245403677059,
+      "grad_norm": 76.5452662635696,
+      "learning_rate": 5e-06,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 257011728,
+      "step": 1487
+    },
+    {
+      "epoch": 0.5943245403677059,
+      "loss": 0.16850775480270386,
+      "loss_ce": 0.002980403369292617,
+      "loss_xval": 0.166015625,
+      "num_input_tokens_seen": 257011728,
+      "step": 1487
+    },
+    {
+      "epoch": 0.5947242206235012,
+      "grad_norm": 35.09571761153484,
+      "learning_rate": 5e-06,
+      "loss": 0.462,
+      "num_input_tokens_seen": 257184728,
+      "step": 1488
+    },
+    {
+      "epoch": 0.5947242206235012,
+      "loss": 0.5621877312660217,
+      "loss_ce": 0.0029989101458340883,
+      "loss_xval": 0.55859375,
+      "num_input_tokens_seen": 257184728,
+      "step": 1488
+    },
+    {
+      "epoch": 0.5951239008792966,
+      "grad_norm": 63.285571785786225,
+      "learning_rate": 5e-06,
+      "loss": 0.5579,
+      "num_input_tokens_seen": 257357600,
+      "step": 1489
+    },
+    {
+      "epoch": 0.5951239008792966,
+      "loss": 0.8287309408187866,
+      "loss_ce": 0.0077470894902944565,
+      "loss_xval": 0.8203125,
+      "num_input_tokens_seen": 257357600,
+      "step": 1489
+    },
+    {
+      "epoch": 0.595523581135092,
+      "grad_norm": 33.80174599093451,
+      "learning_rate": 5e-06,
+      "loss": 0.3899,
+      "num_input_tokens_seen": 257530392,
+      "step": 1490
+    },
+    {
+      "epoch": 0.595523581135092,
+      "loss": 0.15278327465057373,
+      "loss_ce": 0.003247134620323777,
+      "loss_xval": 0.1494140625,
+      "num_input_tokens_seen": 257530392,
+      "step": 1490
+    },
+    {
+      "epoch": 0.5959232613908872,
+      "grad_norm": 38.413696017178964,
+      "learning_rate": 5e-06,
+      "loss": 0.3459,
+      "num_input_tokens_seen": 257703408,
+      "step": 1491
+    },
+    {
+      "epoch": 0.5959232613908872,
+      "loss": 0.3699941635131836,
+      "loss_ce": 0.004729264881461859,
+      "loss_xval": 0.365234375,
+      "num_input_tokens_seen": 257703408,
+      "step": 1491
+    },
+    {
+      "epoch": 0.5963229416466826,
+      "grad_norm": 40.28456049137768,
+      "learning_rate": 5e-06,
+      "loss": 0.314,
+      "num_input_tokens_seen": 257876240,
+      "step": 1492
+    },
+    {
+      "epoch": 0.5963229416466826,
+      "loss": 0.2647836208343506,
+      "loss_ce": 0.005323182325810194,
+      "loss_xval": 0.259765625,
+      "num_input_tokens_seen": 257876240,
+      "step": 1492
+    },
+    {
+      "epoch": 0.596722621902478,
+      "grad_norm": 50.27059541024263,
+      "learning_rate": 5e-06,
+      "loss": 0.4964,
+      "num_input_tokens_seen": 258049304,
+      "step": 1493
+    },
+    {
+      "epoch": 0.596722621902478,
+      "loss": 0.45188143849372864,
+      "loss_ce": 0.004188567399978638,
+      "loss_xval": 0.447265625,
+      "num_input_tokens_seen": 258049304,
+      "step": 1493
+    },
+    {
+      "epoch": 0.5971223021582733,
+      "grad_norm": 20.64882540231887,
+      "learning_rate": 5e-06,
+      "loss": 0.5905,
+      "num_input_tokens_seen": 258222536,
+      "step": 1494
+    },
+    {
+      "epoch": 0.5971223021582733,
+      "loss": 0.8253822326660156,
+      "loss_ce": 0.0019264371367171407,
+      "loss_xval": 0.82421875,
+      "num_input_tokens_seen": 258222536,
+      "step": 1494
+    },
+    {
+      "epoch": 0.5975219824140687,
+      "grad_norm": 28.749252671557343,
+      "learning_rate": 5e-06,
+      "loss": 0.4295,
+      "num_input_tokens_seen": 258395280,
+      "step": 1495
+    },
+    {
+      "epoch": 0.5975219824140687,
+      "loss": 0.3758857250213623,
+      "loss_ce": 0.002136970404535532,
+      "loss_xval": 0.373046875,
+      "num_input_tokens_seen": 258395280,
+      "step": 1495
+    },
+    {
+      "epoch": 0.5979216626698641,
+      "grad_norm": 28.63136497084886,
+      "learning_rate": 5e-06,
+      "loss": 0.333,
+      "num_input_tokens_seen": 258568496,
+      "step": 1496
+    },
+    {
+      "epoch": 0.5979216626698641,
+      "loss": 0.31825536489486694,
+      "loss_ce": 0.0036496452521532774,
+      "loss_xval": 0.314453125,
+      "num_input_tokens_seen": 258568496,
+      "step": 1496
+    },
+    {
+      "epoch": 0.5983213429256595,
+      "grad_norm": 43.51054271549945,
+      "learning_rate": 5e-06,
+      "loss": 0.32,
+      "num_input_tokens_seen": 258741448,
+      "step": 1497
+    },
+    {
+      "epoch": 0.5983213429256595,
+      "loss": 0.26728811860084534,
+      "loss_ce": 0.008239655755460262,
+      "loss_xval": 0.259765625,
+      "num_input_tokens_seen": 258741448,
+      "step": 1497
+    },
+    {
+      "epoch": 0.5987210231814548,
+      "grad_norm": 53.32489405720729,
+      "learning_rate": 5e-06,
+      "loss": 0.3977,
+      "num_input_tokens_seen": 258914352,
+      "step": 1498
+    },
+    {
+      "epoch": 0.5987210231814548,
+      "loss": 0.23198693990707397,
+      "loss_ce": 0.004524178337305784,
+      "loss_xval": 0.2275390625,
+      "num_input_tokens_seen": 258914352,
+      "step": 1498
+    },
+    {
+      "epoch": 0.5991207034372502,
+      "grad_norm": 19.333266417797198,
+      "learning_rate": 5e-06,
+      "loss": 0.3824,
+      "num_input_tokens_seen": 259087304,
+      "step": 1499
+    },
+    {
+      "epoch": 0.5991207034372502,
+      "loss": 0.5503689050674438,
+      "loss_ce": 0.01039084792137146,
+      "loss_xval": 0.5390625,
+      "num_input_tokens_seen": 259087304,
+      "step": 1499
+    },
+    {
+      "epoch": 0.5995203836930456,
+      "grad_norm": 88.26003375881355,
+      "learning_rate": 5e-06,
+      "loss": 0.5661,
+      "num_input_tokens_seen": 259260416,
+      "step": 1500
+    },
+    {
+      "epoch": 0.5995203836930456,
+      "eval_websight_new_IoU": 0.3115440905094147,
+      "eval_websight_new_MAE_all": 0.020920580253005028,
+      "eval_websight_new_MAE_h": 0.017279735766351223,
+      "eval_websight_new_MAE_w": 0.03733859211206436,
+      "eval_websight_new_MAE_x": 0.012794057838618755,
+      "eval_websight_new_MAE_y": 0.016269936691969633,
+      "eval_websight_new_NUM_probability": 0.9875062704086304,
+      "eval_websight_new_inside_bbox": 0.6961805522441864,
+      "eval_websight_new_loss": 0.07518891245126724,
+      "eval_websight_new_loss_ce": 0.001353644474875182,
+      "eval_websight_new_loss_xval": 0.070343017578125,
+      "eval_websight_new_runtime": 58.5335,
+      "eval_websight_new_samples_per_second": 0.854,
+      "eval_websight_new_steps_per_second": 0.034,
+      "num_input_tokens_seen": 259260416,
+      "step": 1500
+    },
+    {
+      "epoch": 0.5995203836930456,
+      "eval_seeclick_IoU": 0.27675844728946686,
+      "eval_seeclick_MAE_all": 0.0651068165898323,
+      "eval_seeclick_MAE_h": 0.027694360353052616,
+      "eval_seeclick_MAE_w": 0.08417735807597637,
+      "eval_seeclick_MAE_x": 0.08383799344301224,
+      "eval_seeclick_MAE_y": 0.06471756100654602,
+      "eval_seeclick_NUM_probability": 0.986900806427002,
+      "eval_seeclick_inside_bbox": 0.4756944477558136,
+      "eval_seeclick_loss": 1.40971040725708,
+      "eval_seeclick_loss_ce": 0.013312608003616333,
+      "eval_seeclick_loss_xval": 1.2222900390625,
+      "eval_seeclick_runtime": 81.445,
+      "eval_seeclick_samples_per_second": 0.614,
+      "eval_seeclick_steps_per_second": 0.025,
+      "num_input_tokens_seen": 259260416,
+      "step": 1500
+    },
+    {
+      "epoch": 0.5995203836930456,
+      "eval_icons_IoU": 0.10929679498076439,
+      "eval_icons_MAE_all": 0.01885663205757737,
+      "eval_icons_MAE_h": 0.012082248460501432,
+      "eval_icons_MAE_w": 0.009315322153270245,
+      "eval_icons_MAE_x": 0.026283184066414833,
+      "eval_icons_MAE_y": 0.027745775878429413,
+      "eval_icons_NUM_probability": 0.9871878027915955,
+      "eval_icons_inside_bbox": 0.2795138955116272,
+      "eval_icons_loss": 0.10837095975875854,
+      "eval_icons_loss_ce": 0.001372582628391683,
+      "eval_icons_loss_xval": 0.08797454833984375,
+      "eval_icons_runtime": 89.9202,
+      "eval_icons_samples_per_second": 0.556,
+      "eval_icons_steps_per_second": 0.022,
+      "num_input_tokens_seen": 259260416,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 7506,
+  "num_input_tokens_seen": 259260416,
+  "num_train_epochs": 3,
+  "save_steps": 250,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1622802757648384.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}